GuirlVG: Incentivize GUI Visual Grounding via Empirical Exploration on Reinforcement Learning

2508.04389v1 cs.AI 2025-08-09

Авторы:

Weitai Kang, Bin Lei, Gaowen Liu, Caiwen Ding, Yan Yan

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Графический пользовательский интерфейс (GUI) является ключевой составляющей взаимодействия между человеком и компьютером, и GUI-Visual Grounding (GUI-VG) является основной функцией для GUI-агентов, которые должны точно идентифицировать и взаимодействовать с элементами интерфейса. Традиционные подходы к GUI-VG основывались на supervised fine-tuning (SFT) мультимодальных больших языковых моделей (MLLMs), требуя больших объемов данных и существенных вычислительных затрат на обучение. Однако с ростом мощности MLLMs, включающих домен GUI в процесс предварительного обучения, возникает вопрос о необходимости таких интенсивных SFT-пост-обучений. В то же время, преимущества rule-based reinforcement fine-tuning (RFT) в последнее время привлекли внимание как более эффективное решение. Однако, несмотря на потенциал RFT, оптимальные стратегии его применения для GUI-VG остаются недостаточно изученными. На практике, простое использование RFT часто дает результаты ниже, чем SFT, что подчеркивает необходимость более глубокого исследования этой области. Таким образом, целью данного исследования является разработка эффективного метода GUI-VG на основе RFT, который может превзойти традиционные SFT-подходы, оптимизировав процесс обучения и уменьшая необходимость в больших наборах данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье представлен метод GuirlVG, основанный на reinforcement learning (RL) для GUI-VG. Метод разработан на основе систематического эмпирического исследования и включает новую технику стабилизации, называемую Adversarial KL Factor. Эта техника динамически стабилизирует процесс обучения, предотвращая переоптимизацию награды, что является ключевым фактором успеха GuirlVG. В GuirlVG разбиение RFT на основные компоненты позволяет оптимизировать каждую составляющую, чтобы достичь максимальной эффективности. Авторы также исследуют различные конфигурации обучения RFT, чтобы повысить его эффективность. Новая стабилизационная техника Adversarial KL Factor позволяет улучшить стабильность процесса обучения, что является критическим фактором для успеха GuirlVG. Этот метод требует значительно меньшего количества данных для обучения по сравнению с SFT, что делает его более экономичным и пригодным для реальных приложений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования проведены разнообразные эксперименты для оценки эффективности GuirlVG. Использовались данные из различных наборов, в том числе ScreenSpot, ScreenSpotPro и ScreenSpotV2. Результаты показывают, что GuirlVG, обученный на всего 5.2K примерах, превзошел методы SFT, обученные на более чем 10M примерах. На ScreenSpot GuirlVG достиг результата, превосходящего SFT на 7.7%, на ScreenSpotPro на 17.2%, а на ScreenSpotV2 достиг точности 91.9%. Эти результаты демонстрируют значительное преимущество GuirlVG по сравнению с традиционными методами SFT, особенно в условиях ограниченности данных. Эксперименты также показали, что динамическая стабилизация Adversarial KL Factor играет ключевую роль в повышении эффективности GuirlVG. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ GuirlVG имеет широкое применение в области разработки GUI-агентов, где точное взаимодействие с элементами интерфейса критически важно. Благодаря своей эффективности и низкому потреблению данных, GuirlVG может быть использован в различных приложениях, включая автоматизацию тестирования GUI, ассистенты для визуального интерфейса и системы автоматического управления интерфейсами. Преимущества GuirlVG включают в себя значительное уменьшение затрат на обучение, более высокую точность и стабильность по сравнению с традиционными методами SFT. Это делает GuirlVG пригодным для реальных сценариев, где эффективность и скорость обучения имеют критическое значение. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ GuirlVG является важной эволюцией в области GUI-VG, предлагая эффективную альтернативу традиционным методам SFT. Результаты исследования показывают, что GuirlVG может значительно улучшить точность и стабильность GUI-VG с меньшими затратами на обучение. Будущие исследования могут сосредоточиться на дальнейшем улучшении алгоритмов RL для GUI-VG, а также на применении GuirlVG в более широком спектре задач, связанных с визуальным пониманием и взаимодействием с GUI.

Abstract

Graphical user interface visual grounding (GUI-VG), a core capability for GUI agents, has primarily relied on supervised fine-tuning (SFT) of multimodal large language models (MLLMs), which demands extensive data curation and significant training costs. However, as MLLMs continue to advance and even cover GUI domains during pretraining, the necessity of exhaustive SFT post-training becomes increasingly questionable. Meanwhile, recent successes of rule-based reinforcement fine-tuning (RFT) suggest a more efficient alternative. Despite this promise, the optimal manner of applying RFT for GUI-VG remains unexplored. To bridge this gap, we introduce GuirlVG, a reinforcement learning-based GUI-VG method built on a systematic empirical study and a novel stabilization technique. We find that naive application of RFT underperforms the SFT baseline, motivating a deeper exploration. First, we decompose RFT into its core components and analyze the optimal formulation of each. Second, we propose a novel Adversarial KL Factor that dynamically stabilizes training to mitigate reward over-optimization. Third, we further explore the training configurations of RFT to enhance effectiveness. Extensive experiments show that GuirlVG, with only 5.2K training samples, outperforms SFT methods trained on over 10M samples, achieving a 7.7% improvement on ScreenSpot, a 17.2% improvement on ScreenSpotPro, and 91.9% accuracy on ScreenSpotV2.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

GuirlVG: Incentivize GUI Visual Grounding via Empirical Exploration on Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Executable Governance for AI: Translating Policies into Rules Using LLMs

Solving LLM Repetition Problem in Production: A Comprehensive Study of Multiple ...

BiTAgent: A Task-Aware Modular Framework for Bidirectional Coupling between Mult...

SlideGen: Collaborative Multimodal Agents for Scientific Slide Generation

GTM: Simulating the World of Tools for AI Agents

Навигация