InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
2508.05731v1
cs.AI, cs.CL
2025-08-12
Авторы:
Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu
Резюме на русском
## Контекст
Суть исследования заключается в развитии самостоятельных агентов, которые взаимодействуют с графическими пользовательскими интерфейсами (GUI) только на основе текстовых инструкций. Это область значимa для развития интеллектуальных систем, которые могут управляться естественным языком. Одна из основных проблем в этой области — точное понимание и алгебраическое сопоставление текстовых инструкций с конкретными элементами GUI. Даже с появлением возможностей, предоставляемых Multimodal Large Language Models (MLLMs), эта задача остается сложной из-за необходимости точного семантического и пространственного соответствия. Несмотря на то, что Reinforcement Learning with Verifiable Rewards (RLVR) успешно оптимизирует пространственную точность, оно недостаточно эффективно для решения проблемы семантического сопоставления. Эти ограничения могут быть преодолены с помощью более эффективных методов по исследованию возможных решений.
## Метод
Наша подходящая стратегия — Adaptive Exploration Policy Optimization (AEPO) — представляет собой фреймворк, оптимизирующий стратегию исследования элементов GUI с помощью нейросетевых моделей. Основной идеей является использование многоответной генерации, чтобы расширить область исследований, а затем — систематического влияния Adaptive Exploration Reward (AER), который оптимизирует работу модели на основе логики выбора эффективных путей. AEPO использует теоретически обоснованную формулу U/C, где U — успех, а C — затраты ресурсов. Эта формула позволяет модели фокусироваться на наиболее приоритетных случаях. Модели InfiGUI-G1, обученные с помощью AEPO, имеют два варианта: InfiGUI-G1-3B и InfiGUI-G1-7B.
## Результаты
Эксперименты проводились на нескольких конкурентных GUI-benchmarks, позволяющих измерить общую грамотность, пространственную точность и семантический алгебраизм. Модели InfiGUI-G1 показали существенные улучшения в производительности, с достижением роста до 9,0% по сравнению с базовым RLVR. Эти результаты демонстрируют способность AEPO улучшить семантическую точность, даже при сложных сценариях, где RLVR сталкивается с проблемами. Мы также проанализировали время обучения и ресурсы, использованные для подтверждения эффективности нового подхода.
## Значимость
Результаты AEPO могут быть применены в различных сферах, где требуется интеллектуальное взаимодействие с GUI — от управления умными домашними устройствами до систем управления бизнес-процессами. Основное преимущество AEPO заключается в том, что он позволяет моделям быстро и эффективно учиться, не теряя точности в пространственной и семантической обработке. Это открывает путь к более широкому применению GUI-агентов в уч
Abstract
The emergence of Multimodal Large Language Models (MLLMs) has propelled the
development of autonomous agents that operate on Graphical User Interfaces
(GUIs) using pure visual input. A fundamental challenge is robustly grounding
natural language instructions. This requires a precise spatial alignment, which
accurately locates the coordinates of each element, and, more critically, a
correct semantic alignment, which matches the instructions to the functionally
appropriate UI element. Although Reinforcement Learning with Verifiable Rewards
(RLVR) has proven to be effective at improving spatial alignment for these
MLLMs, we find that inefficient exploration bottlenecks semantic alignment,
which prevent models from learning difficult semantic associations. To address
this exploration problem, we present Adaptive Exploration Policy Optimization
(AEPO), a new policy optimization framework. AEPO employs a multi-answer
generation strategy to enforce broader exploration, which is then guided by a
theoretically grounded Adaptive Exploration Reward (AER) function derived from
first principles of efficiency eta=U/C. Our AEPO-trained models, InfiGUI-G1-3B
and InfiGUI-G1-7B, establish new state-of-the-art results across multiple
challenging GUI grounding benchmarks, achieving significant relative
improvements of up to 9.0% against the naive RLVR baseline on benchmarks
designed to test generalization and semantic understanding. Resources are
available at https://github.com/InfiXAI/InfiGUI-G1.
Ссылки и действия
Дополнительные ресурсы: