Fairy: Interactive Mobile Assistant to Real-world Tasks via LMM-based Multi-agent

2509.20729v1 cs.AI, cs.HC, cs.MA 2025-09-26
Авторы:

Jiazheng Sun, Te Yang, Jiayang Niu, Mingxuan Li, Yongyong Lu, Ruimeng Yang, Xin Peng

Резюме на русском

#### Контекст Современные мобильные приложения часто имеют разнообразные интерфейсы и требуют интерактивного взаимодействия с пользователем. Однако существующие системы-помощники часто столкнуваются с трудностями в обработке реальных сценариев, в которых данные интерфейсов мобильных приложений имеют разнообразие и постоянно меняются. Это ограничивает их эффективность в решении реальных задач. Кроме того, традиционные методы, опирающиеся на коммуникативные модели, часто не удается обеспечить точное выполнение задач, особенно в случае наличия длинных хвостовых распределений. Таким образом, нужно развить более интерактивные и самообучающиеся системы, которые могут более точно выполнять пользовательские задачи в реальном мире. #### Метод Fairy — это интерактивная мобильная система, состоящая из трех основных модулей: (i) **Global Task Planner**, который переводит пользовательские задачи на уровень суб-задач, работая в кросс-приложении; (ii) **App-Level Executor**, который уточняет подзадачи в детальные действия и синхронизирует их с пользователем в реальном времени, используя два уровня памяти (длинносрочная и краткосрочная) и четыре агента; и (iii) **Self-Learner**, который формирует **App Map** и **Tricks**, улучшая свою производительность в процессе использования. Fairy также включает в себя систему для коллективной работы между приложениями, обеспечивающую взаимодействие и самостоятельное обучение. #### Результаты Для оценки эффективности Fairy была разработана **RealMobile-Eval**, реальный комплексный бенчмарк, который позволяет получить скоры пользователя в реальных сценариях. Наши эксперименты показали, что Fairy, использующая GPT-4o как базу, значительно превосходит состояние технологии по нескольким критериям: (i) улучшение завершения пользовательских задач на 33.7%, (ii) снижение необходимых действий на 58.5%, (iii) высокую точность выполнения и (iv) улучшение кросс-приложенческой синергии. Эти результаты демонстрируют значимую эффективность Fairy в решении реальных задач в среде мобильных приложений. #### Значимость Fairy может применяться в различных сферах, таких как мобильные приложения, технологии управления и самообучающиеся системы. Ее основные преимущества заключаются в (i) точном выполнении задач, (ii) улучшении работы в кросс-приложениях, (iii) самообучающейся природе, которая позволяет улучшать свои возможности в процессе использования. Это может иметь большой потенциальный влияние на развитие интерактивных систем, улучшение пользовательского опыта в различных приложениях и увеличение эффективности в решении задач в реальном мире. #### Выводы

Abstract

Large multi-modal models (LMMs) have advanced mobile GUI agents. However, existing methods struggle with real-world scenarios involving diverse app interfaces and evolving user needs. End-to-end methods relying on model's commonsense often fail on long-tail apps, and agents without user interaction act unilaterally, harming user experience. To address these limitations, we propose Fairy, an interactive multi-agent mobile assistant capable of continuously accumulating app knowledge and self-evolving during usage. Fairy enables cross-app collaboration, interactive execution, and continual learning through three core modules:(i) a Global Task Planner that decomposes user tasks into sub-tasks from a cross-app view; (ii) an App-Level Executor that refines sub-tasks into steps and actions based on long- and short-term memory, achieving precise execution and user interaction via four core agents operating in dual loops; and (iii) a Self-Learner that consolidates execution experience into App Map and Tricks. To evaluate Fairy, we introduce RealMobile-Eval, a real-world benchmark with a comprehensive metric suite, and LMM-based agents for automated scoring. Experiments show that Fairy with GPT-4o backbone outperforms the previous SoTA by improving user requirement completion by 33.7% and reducing redundant steps by 58.5%, showing the effectiveness of its interaction and self-learning.

Ссылки и действия

Связанные статьи

Agentic Lybic: Multi-Agent Execution System with Tiered Reasoning and Orchestrat...

## Контекст В современных вычислительных средах возрастает спрос на системы, которые могут автоматизировать сложные мно...

2025-09-17

The Anatomy of a Personal Health Agent

## Контекст Повышение здоровья и благополучия является фундаментальным аспектом человеческого жизненного благополучия. С...

2025-08-30