FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

2509.01052v1 cs.AI, cs.CL, cs.CV 2025-09-05
Авторы:

Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim

Резюме на русском

## Контекст FlashAdventure — это инновационный бенчмарк, разработанный для оценки возможностей GUI-агентов, основанных на лоLМ, в управлении интерфейсами различных видеоигр. Особое внимание уделяется жанру приключенческих игр, требующим не только обработки различных интерфейсов, но и комплексного понимания развивающихся сюжетных линий. Несмотря на прогресс в области графических интерфейсов, существующие бенчмарки либо не достаточно разнообразны, либо не оценивают способность агентов решать задачи в рамках полных сюжетных линий. FlashAdventure решает эту проблему, предоставляя 34 Flash-based приключенческих игры с различными уровнями сложности и задачами, подвергая агенты тестированию на выполнение полных сюжетных линий. Это позволяет адресовать проблему **observation-behavior gap** — сложность запоминания и использования элементов игровых сценариев, распространяющихся на большой промежуток времени. ## Метод FlashAdventure использует 34 игр с Flash-based интерфейсами, каждая из которых представляет собой полную сюжетную линию. Для оценки способности агентов используется CUA-as-a-Judge — автоматизированная система оценки, которая детально измеряет прогресс и точность выполнения задач. COAST, современный агентский фреймворк, разработанный в рамках проекта, основывается на логике последовательного планирования и удерживает долгосрочную память для ключевых моментов игры. Эта технология позволяет улучшить способность агента не только решать элементарные задачи, но и успешно комплексно взаимодействовать в ходе сложных сюжетных линий. ## Результаты Эксперименты показали, что текущие GUI-агенты сталкиваются с значительными сложностями при решении задач, связанных с полными сюжетными линиями в FlashAdventure. Использование COAST улучшило процент успешного выполнения задач и сократило время на решение, но несмотря на это, большой gap между результатами лучших агентов и человеческой производительностью свидетельствует о необходимости продолжительных усилий в области усовершенствования агентских систем. Эксперименты также демонстрируют, что FlashAdventure — это наглядный инструмент для выявления недостатков в существующих агентских моделях. ## Значимость FlashAdventure может быть использован в различных областях, включая искусственный интеллект, игровые исследования, а также в обучение системам взаимодействия с графическими пользовательскими интерфейсами. Он предоставляет детализированные тестовые среды для изучения проблем, связанных с долгосрочным планированием и знанием игровых сценариев. Его преимущества заключаются в возможности выявления слабых мест в GUI-агентах, стимулируя развитие систем,

Abstract

GUI agents powered by LLMs show promise in interacting with diverse digital environments. Among these, video games offer a valuable testbed due to their varied interfaces, with adventure games posing additional challenges through complex, narrative-driven interactions. Existing game benchmarks, however, lack diversity and rarely evaluate agents on completing entire storylines. To address this, we introduce FlashAdventure, a benchmark of 34 Flash-based adventure games designed to test full story arc completion and tackle the observation-behavior gap: the challenge of remembering and acting on earlier gameplay information. We also propose CUA-as-a-Judge, an automated gameplay evaluator, and COAST, an agentic framework leveraging long-term clue memory to better plan and solve sequential tasks. Experiments show current GUI agents struggle with full story arcs, while COAST improves milestone completion by bridging the observation-behavior gap. Nonetheless, a marked discrepancy between humans and best-performing agents warrants continued research efforts to narrow this divide.

Ссылки и действия