FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games
2509.01052v1
cs.AI, cs.CL, cs.CV
2025-09-05
Авторы:
Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim
Резюме на русском
## Контекст
FlashAdventure — это инновационный бенчмарк, разработанный для оценки возможностей GUI-агентов, основанных на лоLМ, в управлении интерфейсами различных видеоигр. Особое внимание уделяется жанру приключенческих игр, требующим не только обработки различных интерфейсов, но и комплексного понимания развивающихся сюжетных линий. Несмотря на прогресс в области графических интерфейсов, существующие бенчмарки либо не достаточно разнообразны, либо не оценивают способность агентов решать задачи в рамках полных сюжетных линий. FlashAdventure решает эту проблему, предоставляя 34 Flash-based приключенческих игры с различными уровнями сложности и задачами, подвергая агенты тестированию на выполнение полных сюжетных линий. Это позволяет адресовать проблему **observation-behavior gap** — сложность запоминания и использования элементов игровых сценариев, распространяющихся на большой промежуток времени.
## Метод
FlashAdventure использует 34 игр с Flash-based интерфейсами, каждая из которых представляет собой полную сюжетную линию. Для оценки способности агентов используется CUA-as-a-Judge — автоматизированная система оценки, которая детально измеряет прогресс и точность выполнения задач. COAST, современный агентский фреймворк, разработанный в рамках проекта, основывается на логике последовательного планирования и удерживает долгосрочную память для ключевых моментов игры. Эта технология позволяет улучшить способность агента не только решать элементарные задачи, но и успешно комплексно взаимодействовать в ходе сложных сюжетных линий.
## Результаты
Эксперименты показали, что текущие GUI-агенты сталкиваются с значительными сложностями при решении задач, связанных с полными сюжетными линиями в FlashAdventure. Использование COAST улучшило процент успешного выполнения задач и сократило время на решение, но несмотря на это, большой gap между результатами лучших агентов и человеческой производительностью свидетельствует о необходимости продолжительных усилий в области усовершенствования агентских систем. Эксперименты также демонстрируют, что FlashAdventure — это наглядный инструмент для выявления недостатков в существующих агентских моделях.
## Значимость
FlashAdventure может быть использован в различных областях, включая искусственный интеллект, игровые исследования, а также в обучение системам взаимодействия с графическими пользовательскими интерфейсами. Он предоставляет детализированные тестовые среды для изучения проблем, связанных с долгосрочным планированием и знанием игровых сценариев. Его преимущества заключаются в возможности выявления слабых мест в GUI-агентах, стимулируя развитие систем,
Abstract
GUI agents powered by LLMs show promise in interacting with diverse digital
environments. Among these, video games offer a valuable testbed due to their
varied interfaces, with adventure games posing additional challenges through
complex, narrative-driven interactions. Existing game benchmarks, however, lack
diversity and rarely evaluate agents on completing entire storylines. To
address this, we introduce FlashAdventure, a benchmark of 34 Flash-based
adventure games designed to test full story arc completion and tackle the
observation-behavior gap: the challenge of remembering and acting on earlier
gameplay information. We also propose CUA-as-a-Judge, an automated gameplay
evaluator, and COAST, an agentic framework leveraging long-term clue memory to
better plan and solve sequential tasks. Experiments show current GUI agents
struggle with full story arcs, while COAST improves milestone completion by
bridging the observation-behavior gap. Nonetheless, a marked discrepancy
between humans and best-performing agents warrants continued research efforts
to narrow this divide.
Ссылки и действия
Дополнительные ресурсы: