MobileRAG: Enhancing Mobile Agent with Retrieval-Augmented Generation
2509.03891v1
cs.CL, cs.CV
2025-09-06
Авторы:
Gowen Loo, Chang Liu, Qinghong Yin, Xiang Chen, Jiawei Chen, Jingyuan Zhang, Yu Tian
Резюме на русском
## Контекст
В настоящее время смартфоны стали неотъемлемой частью повседневной жизни, широко используясь в различных сферах современного общества. Одновременно с развитием крупных языковых моделей (LLMs) появился многочисленный функционал, основанный на этих моделях, включая мобильные агенты. Такие агенты способны точно распознавать различные пользовательские запросы и автоматически выполнять сложные или повторяющиеся операции. Однако существуют некоторые ограничения, влияющие на эффективность таких моделей. Например, они 1) сильно полагаются на возможности языковых моделей, что может приводить к ошибкам из-за неточного понимания инструкций, 2) не обладают возможностью взаимодействия с внешним окружением, что приводит к прекращению задач при невозможности их выполнения внутри приложения, и 3) не имеют возможности запоминания, что приводит к необходимости повторного построения интерфейса при каждой инструкции и не позволяет агентам учиться на ошибках. Для решения этих проблем, мы предлагаем MobileRAG, рамку для мобильных агентов, которая использует Retrieval-Augmented Generation (RAG) для улучшения способности агентов к точному выполнению задач.
## Метод
MobileRAG включает три основных компонента: InterRAG, LocalRAG и MemRAG. InterRAG используется для более точного понимания пользовательских запросов, в том числе за счет доступа к внешним источникам знаний. LocalRAG специализируется на решении задач, касающихся конкретных мобильных приложений, обеспечивая более точный контекст. MemRAG, в свою очередь, включает в себя возможности запоминания и последовательности действий, позволяя агенту изучать и учиться на предыдущих опытах. Эти компоненты объединены в единую систему, которая может более эффективно выполнять сложные и длинные мобильные задачи, включая те, которые требуют дополнительного внешнего знания.
## Результаты
Мы провели эксперименты с MobileRAG на большом наборе данных, включающем реальные задачи мобильных устройств, требующие внешнего взаимодействия. Результаты показывают, что MobileRAG показывает значительный выигрыш по сравнению с другими методами, существенно сокращая количество операций и улучшая точность выполнения задач. Мы также представили MobileRAG-Eval, более сложную и реалистичную бенчмарк-среду, которая позволяет более глубоко оценить эффективность MobileRAG в реальных условиях. Эти результаты подтверждают силу MobileRAG в решении сложных задач, включая те, которые требуют внешнего знания.
## Значимость
MobileRAG может применяться в различных сферах, где требуется автоматизация и улучшение процессов, связанных с мобильными устройствами. Он может быть применен в сф
Abstract
Smartphones have become indispensable in people's daily lives, permeating
nearly every aspect of modern society. With the continuous advancement of large
language models (LLMs), numerous LLM-based mobile agents have emerged. These
agents are capable of accurately parsing diverse user queries and automatically
assisting users in completing complex or repetitive operations. However,
current agents 1) heavily rely on the comprehension ability of LLMs, which can
lead to errors caused by misoperations or omitted steps during tasks, 2) lack
interaction with the external environment, often terminating tasks when an app
cannot fulfill user queries, and 3) lack memory capabilities, requiring each
instruction to reconstruct the interface and being unable to learn from and
correct previous mistakes. To alleviate the above issues, we propose MobileRAG,
a mobile agents framework enhanced by Retrieval-Augmented Generation (RAG),
which includes InterRAG, LocalRAG, and MemRAG. It leverages RAG to more quickly
and accurately identify user queries and accomplish complex and long-sequence
mobile tasks. Additionally, to more comprehensively assess the performance of
MobileRAG, we introduce MobileRAG-Eval, a more challenging benchmark
characterized by numerous complex, real-world mobile tasks that require
external knowledge assistance. Extensive experimental results on MobileRAG-Eval
demonstrate that MobileRAG can easily handle real-world mobile tasks, achieving
10.3\% improvement over state-of-the-art methods with fewer operational steps.
Our code is publicly available at:
https://github.com/liuxiaojieOutOfWorld/MobileRAG_arxiv
Ссылки и действия
Дополнительные ресурсы: