Retrieval-augmented GUI Agents with Generative Guidelines

2509.24183v1 cs.CL, cs.AI, cs.LG 2025-10-01

Авторы:

Ran Xu, Kaixin Ma, Wenhao Yu, Hongming Zhang, Joyce C. Ho, Carl Yang, Dong Yu

Резюме на русском

## Контекст Графические пользовательские интерфейсы (GUI) широко используются в современных цифровых системах для управления информацией и взаимодействия с пользователями. Однако автоматизация сложных цифровых задач через GUI-агенты на базе виденио-языковых моделей (VLM) сталкивается с некоторыми ограничениями. Эти ограничения включают недостаточное количество данных для обучения и сложность задач, которые часто требуют доступа к редким и непредсказуемым сценариям. Эти ограничения приводят к ограниченной эффективности таких агентов в реальных ситуациях. Многие текущие подходы стремятся решить эти проблемы, но требуют валидных средств обучения, включая большие наборы данных и сложные параметры. В этом контексте возникает необходимость в новом, легковесном решении, которое может увеличить эффективность GUI-агентов, особенно в сценариях с отсутствием или недостаточным количеством обучающих данных. ## Метод Предлагаемый подход, RAG-GUI (Retrieval-Augmented GUI Agents with Generative Guidelines), является легковесной моделью, интегрирующей веб-ресурсы во время выполнения. RAG-GUI разрабатывается с использованием двух этапов обучения: начальная супервизионная финетюнинг (SFT) и дополнительная самоуправляемая оценка при отклонении (RSF). Эти шаги позволяют модели лучше адаптироваться к новым сценариям, особенно тем, которые не были встречены во время обучения. Модель RAG-GUI является моделью с открытым кодом и модульной, то есть она может быть легко внедрена в различные VLM-агенты. Это решение предназначено для расширения глубины и ширины возможностей GUI-агентов без необходимости дополнительного тренировочного объема. ## Результаты Эксперименты проводились на трех различных задачах, включая сценарии взаимодействия с компьютером и мобильными приложениями. Результаты показали, что RAG-GUI превосходит базовые агенты на протяжении всех задач, показывая увеличение эффективности от 2.6% до 13.3% в зависимости от размера модели. Она также превосходит другие текущие модели по генеративному подходу в тех же задачах. Эти результаты подтверждают гибкость RAG-GUI в использовании в разных VLM-агентах и ее способность обеспечивать качественные результаты в реальных сценариях, даже в условиях нехватки данных. ## Значимость RAG-GUI может быть применена в различных областях, включая автоматизацию цифровых процессов, управление приложениями, интерактивные системы, и многое другое. Основные преимущества включают в себя увеличение эффективности GUI-агентов, уменьшение необходимости в больших наборах тренировочных данных, и легковесную модель, которая мо

Abstract

GUI agents powered by vision-language models (VLMs) show promise in automating complex digital tasks. However, their effectiveness in real-world applications is often limited by scarce training data and the inherent complexity of these tasks, which frequently require long-tailed knowledge covering rare, unseen scenarios. We propose RAG-GUI , a lightweight VLM that leverages web tutorials at inference time. RAG-GUI is first warm-started via supervised finetuning (SFT) and further refined through self-guided rejection sampling finetuning (RSF). Designed to be model-agnostic, RAG-GUI functions as a generic plug-in that enhances any VLM-based agent. Evaluated across three distinct tasks, it consistently outperforms baseline agents and surpasses other inference baselines by 2.6% to 13.3% across two model sizes, demonstrating strong generalization and practical plug-and-play capabilities in real-world scenarios.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Retrieval-augmented GUI Agents with Generative Guidelines

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация