InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

2508.05731v1 cs.AI, cs.CL 2025-08-12

Авторы:

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu

Резюме на русском

## Контекст Суть исследования заключается в развитии самостоятельных агентов, которые взаимодействуют с графическими пользовательскими интерфейсами (GUI) только на основе текстовых инструкций. Это область значимa для развития интеллектуальных систем, которые могут управляться естественным языком. Одна из основных проблем в этой области — точное понимание и алгебраическое сопоставление текстовых инструкций с конкретными элементами GUI. Даже с появлением возможностей, предоставляемых Multimodal Large Language Models (MLLMs), эта задача остается сложной из-за необходимости точного семантического и пространственного соответствия. Несмотря на то, что Reinforcement Learning with Verifiable Rewards (RLVR) успешно оптимизирует пространственную точность, оно недостаточно эффективно для решения проблемы семантического сопоставления. Эти ограничения могут быть преодолены с помощью более эффективных методов по исследованию возможных решений. ## Метод Наша подходящая стратегия — Adaptive Exploration Policy Optimization (AEPO) — представляет собой фреймворк, оптимизирующий стратегию исследования элементов GUI с помощью нейросетевых моделей. Основной идеей является использование многоответной генерации, чтобы расширить область исследований, а затем — систематического влияния Adaptive Exploration Reward (AER), который оптимизирует работу модели на основе логики выбора эффективных путей. AEPO использует теоретически обоснованную формулу U/C, где U — успех, а C — затраты ресурсов. Эта формула позволяет модели фокусироваться на наиболее приоритетных случаях. Модели InfiGUI-G1, обученные с помощью AEPO, имеют два варианта: InfiGUI-G1-3B и InfiGUI-G1-7B. ## Результаты Эксперименты проводились на нескольких конкурентных GUI-benchmarks, позволяющих измерить общую грамотность, пространственную точность и семантический алгебраизм. Модели InfiGUI-G1 показали существенные улучшения в производительности, с достижением роста до 9,0% по сравнению с базовым RLVR. Эти результаты демонстрируют способность AEPO улучшить семантическую точность, даже при сложных сценариях, где RLVR сталкивается с проблемами. Мы также проанализировали время обучения и ресурсы, использованные для подтверждения эффективности нового подхода. ## Значимость Результаты AEPO могут быть применены в различных сферах, где требуется интеллектуальное взаимодействие с GUI — от управления умными домашними устройствами до систем управления бизнес-процессами. Основное преимущество AEPO заключается в том, что он позволяет моделям быстро и эффективно учиться, не теряя точности в пространственной и семантической обработке. Это открывает путь к более широкому применению GUI-агентов в уч

Abstract

The emergence of Multimodal Large Language Models (MLLMs) has propelled the development of autonomous agents that operate on Graphical User Interfaces (GUIs) using pure visual input. A fundamental challenge is robustly grounding natural language instructions. This requires a precise spatial alignment, which accurately locates the coordinates of each element, and, more critically, a correct semantic alignment, which matches the instructions to the functionally appropriate UI element. Although Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be effective at improving spatial alignment for these MLLMs, we find that inefficient exploration bottlenecks semantic alignment, which prevent models from learning difficult semantic associations. To address this exploration problem, we present Adaptive Exploration Policy Optimization (AEPO), a new policy optimization framework. AEPO employs a multi-answer generation strategy to enforce broader exploration, which is then guided by a theoretically grounded Adaptive Exploration Reward (AER) function derived from first principles of efficiency eta=U/C. Our AEPO-trained models, InfiGUI-G1-3B and InfiGUI-G1-7B, establish new state-of-the-art results across multiple challenging GUI grounding benchmarks, achieving significant relative improvements of up to 9.0% against the naive RLVR baseline on benchmarks designed to test generalization and semantic understanding. Resources are available at https://github.com/InfiXAI/InfiGUI-G1.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Algorithmic Thinking Theory

From Atomic to Composite: Reinforcement Learning Enables Generalization in Compl...

LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Ches...

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

Probing the "Psyche'' of Large Reasoning Models: Understanding Through a Human L...

Навигация