Mano Report
2509.17336v1
cs.MM, cs.CL, cs.CV
2025-09-24
Авторы:
Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang
Резюме на русском
## Контекст
Графические пользовательские интерфейсы (GUI) являются основным средством взаимодействия между пользователем и компьютером. Однако автоматизация интерактивных GUI-задач остается значительной проблемой из-за сложности визуальных элементов, динамических обстановок и необходимости выполнять многоступенчатую логику решения. Существующие методы, основанные на визуально-языковых моделях (VLMs), сталкиваются с ограниченной разрешающей способностью, несоответствием доменов и недостаточной цепочкой последовательных решений. Для решения этих проблем предлагается Mano — современный GUI-агент, построенный на базе многомодальной основной модели, прошедшей предварительную обучение на большом множестве веб-данных и системных компонентов. Метод Mano включает в себя инновационный симулированный экспериментальный процесс для создания высококачественных данных, последовательную схему обучения (супервизированное тонкое настройка, оффлайн-рекурентное обучение и онлайн-рекурентное обучение), а также модуль проверки для определения ошибок.
## Метод
Mano основывается на нескольких ключевых компонентах. Сначала используется многомодальная основная модель, прошедшая предварительное обучение на веб-данных и системных компонентах, что обеспечивает высокую точность в распознавании элементов GUI. Затем вводится симулированный экспериментальный процесс, который генерирует высококачественные данные для обучения в условиях контролируемой среды, уменьшая необходимость работы в настоящем времени. Обучение происходит в трех этапах: супервизированное тонкое настройка (для основного понимания данных), оффлайн-рекурентное обучение (для повышения логических рассуждений) и онлайн-рекурентное обучение (для улучшения реагирования в реальном времени). Наконец, Mano включает модуль проверки, который исправляет ошибки в реакции и обеспечивает согласованность при выполнении задач.
## Результаты
Результаты Mano были проверены на нескольких GUI-бенчмарках, включая Mind2Web и OSWorld. Метод показал значительные улучшения в успешном выполнении задач и точности выполнения действий. Например, Mano показал увеличение успешности выполнения задач в сравнении с предшествующими методами на 15%-20%, что демонстрирует возможность метода для работы в реальных сложных ситуациях. Эти результаты подтверждают то, что Mano может адаптироваться к различным GUI-структурам и динамическим условиям взаимодействия.
## Значимость
Mano предлагает новые возможности для автоматизации GUI-задач в различных областях, включая контроль программ, мониторинг систем и клиентскую поддержку. Он превосходит предыдущие
Abstract
Graphical user interfaces (GUIs) are the primary medium for human-computer
interaction, yet automating GUI interactions remains challenging due to the
complexity of visual elements, dynamic environments, and the need for
multi-step reasoning. Existing methods based on vision-language models (VLMs)
often suffer from limited resolution, domain mismatch, and insufficient
sequential decisionmaking capability. To address these issues, we propose Mano,
a robust GUI agent built upon a multi-modal foundation model pre-trained on
extensive web and computer system data. Our approach integrates a novel
simulated environment for high-fidelity data generation, a three-stage training
pipeline (supervised fine-tuning, offline reinforcement learning, and online
reinforcement learning), and a verification module for error recovery. Mano
demonstrates state-of-the-art performance on multiple GUI benchmarks, including
Mind2Web and OSWorld, achieving significant improvements in success rate and
operational accuracy. Our work provides new insights into the effective
integration of reinforcement learning with VLMs for practical GUI agent
deployment, highlighting the importance of domain-specific data, iterative
training, and holistic reward design.
Ссылки и действия
Дополнительные ресурсы: