AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent
2509.02444v1
cs.AI, cs.CL, cs.CV, cs.HC
2025-09-05
Авторы:
Jingru Fan, Yufan Dang, Jingyao Wu, Huatao Li, Runde Yang, Xiyuan Yang, Yuheng Wang, Zhong Zhang, Yaxi Lu, Yankai Lin, Zhiyuan Liu, Dahai Li, Chen Qian
Резюме на русском
#### Контекст
Мобильные агенты, поддерживающие взаимодействие с пользователями через мобильные приложения, становятся все более важной частью современных систем. Однако существуют некоторые значительные проблемы, которые должны быть решены для того, чтобы эти системы могли обеспечить практический и масштабируемый вклад. Основными вызовами являются: (1) общействование по всему спектру задач, моделей и устройств; (2) высокая точность выполнения напрямую на экране устройства; (3) устойчивость в ходе выполнения многошаговых задач; (4) эффективность, чтобы работать с ограниченными ресурсами и занимать минимальное время. Наше исследование направлено на развитие системы, которая бы решала эти проблемы и позволяла построить более универсальные и эффективные мобильные агенты.
#### Метод
Мы предлагаем AppCopilot, который представляет собой многомодальную, многоагентную модель, работающую на устройстве, позволяющую удовлетворить потребности пользователей в различных приложениях. Эта модель работает в рамках полного цикла, начиная с сбора данных и заканчивая развертыванием модели и разработкой приложений. Мы использовали архитектуру, основанную на цепочке мышления, цепочке задач и взаимодействии многоагентной системы для решения задач. Многомодальность позволяет AppCopilot работать с текстом, изображениями и другими модальностями, что делает его универсальным. Мы также оптимизировали модель для эффективности в терминах загрузки процессора, памяти и энергопотребления на ресурсно-ограниченных устройствах.
#### Результаты
Мы провели эксперименты для оценки AppCopilot, сопоставив его с другими моделями в пределах тех же задач. Мы использовали реальные данные, собранные из различных мобильных приложений, и оценили его на точности выполнения задач, возможности общействования, многошаговых задач и эффективности работы. Опытными результатами показано, что AppCopilot превосходит другие модели по всем основным критериям: он демонстрирует более высокую общинность, точность внутри приложений, долгосрочную надежность и эффективность выполнения.
#### Значимость
AppCopilot может применяться в различных областях, таких как управление устройствами, помощь в жизненных ситуациях, улучшение работы мобильных приложений и автоматизация рутинных задач. Он обеспечивает высокую точность, универсальность и эффективность, что делает его привлекательным для разработчиков мобильных приложений и пользователей, желающих использовать более мощные и надежные мобильные агенты.
#### Выводы
Наше исследование показало, что AppCopilot является прорывным в области мобильных а
Abstract
With the raid evolution of large language models and multimodal foundation
models, the mobile-agent landscape has proliferated without converging on the
fundamental challenges. This paper identifies four core problems that must be
solved for mobile agents to deliver practical, scalable impact: (1)
generalization across tasks, modalities, apps, and devices; (2) accuracy,
specifically precise on-screen interaction and click targeting; (3)
long-horizon capability for sustained, multi-step goals; and (4) efficiency,
specifically high-performance runtime on resource-constrained devices. We
present AppCopilot, a multimodal, multi-agent, general-purpose on-device
assistant that operates across applications and constitutes a full-stack,
closed-loop system from data to deployment. AppCopilot operationalizes this
position through an end-to-end autonomous pipeline spanning data collection,
training, deployment, high-quality and efficient inference, and mobile
application development. At the model layer, it integrates multimodal
foundation models with robust Chinese-English support. At the reasoning and
control layer, it combines chain-of-thought reasoning, hierarchical task
planning and decomposition, and multi-agent collaboration. At the execution
layer, it enables user personalization and experiential adaptation, voice
interaction, function calling, cross-app and cross-device orchestration, and
comprehensive mobile app support. The system design incorporates
profiling-driven optimization for latency, memory, and energy across
heterogeneous hardware. Empirically, AppCopilot achieves significant
improvements along all four dimensions: stronger generalization,
higher-precision on-screen actions, more reliable long-horizon task completion,
and faster, more resource-efficient runtime.