GuirlVG: Incentivize GUI Visual Grounding via Empirical Exploration on Reinforcement Learning
2508.04389v1
cs.AI
2025-08-09
Авторы:
Weitai Kang, Bin Lei, Gaowen Liu, Caiwen Ding, Yan Yan
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Графический пользовательский интерфейс (GUI) является ключевой составляющей взаимодействия между человеком и компьютером, и GUI-Visual Grounding (GUI-VG) является основной функцией для GUI-агентов, которые должны точно идентифицировать и взаимодействовать с элементами интерфейса. Традиционные подходы к GUI-VG основывались на supervised fine-tuning (SFT) мультимодальных больших языковых моделей (MLLMs), требуя больших объемов данных и существенных вычислительных затрат на обучение. Однако с ростом мощности MLLMs, включающих домен GUI в процесс предварительного обучения, возникает вопрос о необходимости таких интенсивных SFT-пост-обучений.
В то же время, преимущества rule-based reinforcement fine-tuning (RFT) в последнее время привлекли внимание как более эффективное решение. Однако, несмотря на потенциал RFT, оптимальные стратегии его применения для GUI-VG остаются недостаточно изученными. На практике, простое использование RFT часто дает результаты ниже, чем SFT, что подчеркивает необходимость более глубокого исследования этой области. Таким образом, целью данного исследования является разработка эффективного метода GUI-VG на основе RFT, который может превзойти традиционные SFT-подходы, оптимизировав процесс обучения и уменьшая необходимость в больших наборах данных.
## ПРЕДЛОЖЕННЫЙ МЕТОД
В статье представлен метод GuirlVG, основанный на reinforcement learning (RL) для GUI-VG. Метод разработан на основе систематического эмпирического исследования и включает новую технику стабилизации, называемую Adversarial KL Factor. Эта техника динамически стабилизирует процесс обучения, предотвращая переоптимизацию награды, что является ключевым фактором успеха GuirlVG.
В GuirlVG разбиение RFT на основные компоненты позволяет оптимизировать каждую составляющую, чтобы достичь максимальной эффективности. Авторы также исследуют различные конфигурации обучения RFT, чтобы повысить его эффективность. Новая стабилизационная техника Adversarial KL Factor позволяет улучшить стабильность процесса обучения, что является критическим фактором для успеха GuirlVG. Этот метод требует значительно меньшего количества данных для обучения по сравнению с SFT, что делает его более экономичным и пригодным для реальных приложений.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
В рамках исследования проведены разнообразные эксперименты для оценки эффективности GuirlVG. Использовались данные из различных наборов, в том числе ScreenSpot, ScreenSpotPro и ScreenSpotV2. Результаты показывают, что GuirlVG, обученный на всего 5.2K примерах, превзошел методы SFT, обученные на более чем 10M примерах. На ScreenSpot GuirlVG достиг результата, превосходящего SFT на 7.7%, на ScreenSpotPro на 17.2%, а на ScreenSpotV2 достиг точности 91.9%.
Эти результаты демонстрируют значительное преимущество GuirlVG по сравнению с традиционными методами SFT, особенно в условиях ограниченности данных. Эксперименты также показали, что динамическая стабилизация Adversarial KL Factor играет ключевую роль в повышении эффективности GuirlVG.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
GuirlVG имеет широкое применение в области разработки GUI-агентов, где точное взаимодействие с элементами интерфейса критически важно. Благодаря своей эффективности и низкому потреблению данных, GuirlVG может быть использован в различных приложениях, включая автоматизацию тестирования GUI, ассистенты для визуального интерфейса и системы автоматического управления интерфейсами.
Преимущества GuirlVG включают в себя значительное уменьшение затрат на обучение, более высокую точность и стабильность по сравнению с традиционными методами SFT. Это делает GuirlVG пригодным для реальных сценариев, где эффективность и скорость обучения имеют критическое значение.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
GuirlVG является важной эволюцией в области GUI-VG, предлагая эффективную альтернативу традиционным методам SFT. Результаты исследования показывают, что GuirlVG может значительно улучшить точность и стабильность GUI-VG с меньшими затратами на обучение. Будущие исследования могут сосредоточиться на дальнейшем улучшении алгоритмов RL для GUI-VG, а также на применении GuirlVG в более широком спектре задач, связанных с визуальным пониманием и взаимодействием с GUI.
Abstract
Graphical user interface visual grounding (GUI-VG), a core capability for GUI
agents, has primarily relied on supervised fine-tuning (SFT) of multimodal
large language models (MLLMs), which demands extensive data curation and
significant training costs. However, as MLLMs continue to advance and even
cover GUI domains during pretraining, the necessity of exhaustive SFT
post-training becomes increasingly questionable. Meanwhile, recent successes of
rule-based reinforcement fine-tuning (RFT) suggest a more efficient
alternative. Despite this promise, the optimal manner of applying RFT for
GUI-VG remains unexplored. To bridge this gap, we introduce GuirlVG, a
reinforcement learning-based GUI-VG method built on a systematic empirical
study and a novel stabilization technique. We find that naive application of
RFT underperforms the SFT baseline, motivating a deeper exploration. First, we
decompose RFT into its core components and analyze the optimal formulation of
each. Second, we propose a novel Adversarial KL Factor that dynamically
stabilizes training to mitigate reward over-optimization. Third, we further
explore the training configurations of RFT to enhance effectiveness. Extensive
experiments show that GuirlVG, with only 5.2K training samples, outperforms SFT
methods trained on over 10M samples, achieving a 7.7% improvement on
ScreenSpot, a 17.2% improvement on ScreenSpotPro, and 91.9% accuracy on
ScreenSpotV2.
Ссылки и действия
Дополнительные ресурсы: