Retrieval-augmented GUI Agents with Generative Guidelines
2509.24183v1
cs.CL, cs.AI, cs.LG
2025-10-01
Авторы:
Ran Xu, Kaixin Ma, Wenhao Yu, Hongming Zhang, Joyce C. Ho, Carl Yang, Dong Yu
Резюме на русском
## Контекст
Графические пользовательские интерфейсы (GUI) широко используются в современных цифровых системах для управления информацией и взаимодействия с пользователями. Однако автоматизация сложных цифровых задач через GUI-агенты на базе виденио-языковых моделей (VLM) сталкивается с некоторыми ограничениями. Эти ограничения включают недостаточное количество данных для обучения и сложность задач, которые часто требуют доступа к редким и непредсказуемым сценариям. Эти ограничения приводят к ограниченной эффективности таких агентов в реальных ситуациях. Многие текущие подходы стремятся решить эти проблемы, но требуют валидных средств обучения, включая большие наборы данных и сложные параметры. В этом контексте возникает необходимость в новом, легковесном решении, которое может увеличить эффективность GUI-агентов, особенно в сценариях с отсутствием или недостаточным количеством обучающих данных.
## Метод
Предлагаемый подход, RAG-GUI (Retrieval-Augmented GUI Agents with Generative Guidelines), является легковесной моделью, интегрирующей веб-ресурсы во время выполнения. RAG-GUI разрабатывается с использованием двух этапов обучения: начальная супервизионная финетюнинг (SFT) и дополнительная самоуправляемая оценка при отклонении (RSF). Эти шаги позволяют модели лучше адаптироваться к новым сценариям, особенно тем, которые не были встречены во время обучения. Модель RAG-GUI является моделью с открытым кодом и модульной, то есть она может быть легко внедрена в различные VLM-агенты. Это решение предназначено для расширения глубины и ширины возможностей GUI-агентов без необходимости дополнительного тренировочного объема.
## Результаты
Эксперименты проводились на трех различных задачах, включая сценарии взаимодействия с компьютером и мобильными приложениями. Результаты показали, что RAG-GUI превосходит базовые агенты на протяжении всех задач, показывая увеличение эффективности от 2.6% до 13.3% в зависимости от размера модели. Она также превосходит другие текущие модели по генеративному подходу в тех же задачах. Эти результаты подтверждают гибкость RAG-GUI в использовании в разных VLM-агентах и ее способность обеспечивать качественные результаты в реальных сценариях, даже в условиях нехватки данных.
## Значимость
RAG-GUI может быть применена в различных областях, включая автоматизацию цифровых процессов, управление приложениями, интерактивные системы, и многое другое. Основные преимущества включают в себя увеличение эффективности GUI-агентов, уменьшение необходимости в больших наборах тренировочных данных, и легковесную модель, которая мо
Abstract
GUI agents powered by vision-language models (VLMs) show promise in
automating complex digital tasks. However, their effectiveness in real-world
applications is often limited by scarce training data and the inherent
complexity of these tasks, which frequently require long-tailed knowledge
covering rare, unseen scenarios. We propose RAG-GUI , a lightweight VLM that
leverages web tutorials at inference time. RAG-GUI is first warm-started via
supervised finetuning (SFT) and further refined through self-guided rejection
sampling finetuning (RSF). Designed to be model-agnostic, RAG-GUI functions as
a generic plug-in that enhances any VLM-based agent. Evaluated across three
distinct tasks, it consistently outperforms baseline agents and surpasses other
inference baselines by 2.6% to 13.3% across two model sizes, demonstrating
strong generalization and practical plug-and-play capabilities in real-world
scenarios.
Ссылки и действия
Дополнительные ресурсы: