MobileRAG: Enhancing Mobile Agent with Retrieval-Augmented Generation

2509.03891v1 cs.CL, cs.CV 2025-09-06

Авторы:

Gowen Loo, Chang Liu, Qinghong Yin, Xiang Chen, Jiawei Chen, Jingyuan Zhang, Yu Tian

Резюме на русском

## Контекст В настоящее время смартфоны стали неотъемлемой частью повседневной жизни, широко используясь в различных сферах современного общества. Одновременно с развитием крупных языковых моделей (LLMs) появился многочисленный функционал, основанный на этих моделях, включая мобильные агенты. Такие агенты способны точно распознавать различные пользовательские запросы и автоматически выполнять сложные или повторяющиеся операции. Однако существуют некоторые ограничения, влияющие на эффективность таких моделей. Например, они 1) сильно полагаются на возможности языковых моделей, что может приводить к ошибкам из-за неточного понимания инструкций, 2) не обладают возможностью взаимодействия с внешним окружением, что приводит к прекращению задач при невозможности их выполнения внутри приложения, и 3) не имеют возможности запоминания, что приводит к необходимости повторного построения интерфейса при каждой инструкции и не позволяет агентам учиться на ошибках. Для решения этих проблем, мы предлагаем MobileRAG, рамку для мобильных агентов, которая использует Retrieval-Augmented Generation (RAG) для улучшения способности агентов к точному выполнению задач. ## Метод MobileRAG включает три основных компонента: InterRAG, LocalRAG и MemRAG. InterRAG используется для более точного понимания пользовательских запросов, в том числе за счет доступа к внешним источникам знаний. LocalRAG специализируется на решении задач, касающихся конкретных мобильных приложений, обеспечивая более точный контекст. MemRAG, в свою очередь, включает в себя возможности запоминания и последовательности действий, позволяя агенту изучать и учиться на предыдущих опытах. Эти компоненты объединены в единую систему, которая может более эффективно выполнять сложные и длинные мобильные задачи, включая те, которые требуют дополнительного внешнего знания. ## Результаты Мы провели эксперименты с MobileRAG на большом наборе данных, включающем реальные задачи мобильных устройств, требующие внешнего взаимодействия. Результаты показывают, что MobileRAG показывает значительный выигрыш по сравнению с другими методами, существенно сокращая количество операций и улучшая точность выполнения задач. Мы также представили MobileRAG-Eval, более сложную и реалистичную бенчмарк-среду, которая позволяет более глубоко оценить эффективность MobileRAG в реальных условиях. Эти результаты подтверждают силу MobileRAG в решении сложных задач, включая те, которые требуют внешнего знания. ## Значимость MobileRAG может применяться в различных сферах, где требуется автоматизация и улучшение процессов, связанных с мобильными устройствами. Он может быть применен в сф

Abstract

Smartphones have become indispensable in people's daily lives, permeating nearly every aspect of modern society. With the continuous advancement of large language models (LLMs), numerous LLM-based mobile agents have emerged. These agents are capable of accurately parsing diverse user queries and automatically assisting users in completing complex or repetitive operations. However, current agents 1) heavily rely on the comprehension ability of LLMs, which can lead to errors caused by misoperations or omitted steps during tasks, 2) lack interaction with the external environment, often terminating tasks when an app cannot fulfill user queries, and 3) lack memory capabilities, requiring each instruction to reconstruct the interface and being unable to learn from and correct previous mistakes. To alleviate the above issues, we propose MobileRAG, a mobile agents framework enhanced by Retrieval-Augmented Generation (RAG), which includes InterRAG, LocalRAG, and MemRAG. It leverages RAG to more quickly and accurately identify user queries and accomplish complex and long-sequence mobile tasks. Additionally, to more comprehensively assess the performance of MobileRAG, we introduce MobileRAG-Eval, a more challenging benchmark characterized by numerous complex, real-world mobile tasks that require external knowledge assistance. Extensive experimental results on MobileRAG-Eval demonstrate that MobileRAG can easily handle real-world mobile tasks, achieving 10.3\% improvement over state-of-the-art methods with fewer operational steps. Our code is publicly available at: https://github.com/liuxiaojieOutOfWorld/MobileRAG_arxiv

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MobileRAG: Enhancing Mobile Agent with Retrieval-Augmented Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Visual Puns from Idioms: An Iterative LLM-T2IM-MLLM Framework

Optimizing Multimodal Language Models through Attention-based Interpretability

Bangla Sign Language Translation: Dataset Creation Challenges, Benchmarking and ...

Do Vision-Language Models Understand Visual Persuasiveness?

Arctic-Extract Technical Report

Навигация