UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

2509.02544v1 cs.AI, cs.CL, cs.CV, cs.HC 2025-09-05
Авторы:

Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Bo Li, Chen Dun, Chong Liu, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi

Резюме на русском

## Контекст На визуальных интерфейсах (GUI) происходит большая часть современного взаимодействия с компьютерами. Однако создание автономных агентов для работы с GUI остается вызовом в области искусственного интеллекта (AI). Решение этой задачи требует реализации сложных процессов, таких как визуальное восприятие, решение задач и запоминание. Несмотря на некоторые успехи, существуют проблемы, такие как нехватка масштабируемых данных, нестабильность среды, ограниченность GUI-только операций, а также недостаточное удовлетворение многократных задач. UI-TARS-2 является новым GUI-агентом, который рассчитан на то, чтобы решить эти проблемы и улучшить производительность в различных сценариях взаимодействия. ## Метод UI-TARS-2 является результатом систематического развития GUI-агента. Он основывается на использовании **двухтактного подхода** для улучшения масштабируемости данных. Используется **интегрированная среда**, включающая в себя файловые системы и терминалы. Агент тренируется в рамках **органичной тренировки**, что позволяет ему выполнять более сложные задачи в течение нескольких шагов. Благодаря **эволюционному движку**, UI-TARS-2 может быть масштабирован на больших данных. Кроме того, **платформа для моделирования рисков** и **обучение с подкреплением** позволяют агенту решать сложные задачи в различных средах, включая игровые и профессиональные. ## Результаты Проведены эксперименты для оценки производительности UI-TARS-2. На бенчмарках, таких как **Online-Mind2Web**, **OSWorld**, **WindowsAgentArena** и **AndroidWorld**, UI-TARS-2 показал признаки улучшения в сравнении с предшественником, достигнув оценки 88.2, 47.5, 50.6 и 73.3, соответственно. На игровых бенчмарках он достиг значения 59.8, что составляет около 60% от значения на уровне человека, и оказался конкурентоспособным с такими фронтерными моделями, как **OpenAI o3**. Агент также показал хорошую общинность на задачах, таких как **long-horizon information-seeking tasks** и **software engineering benchmarks**, значительно увеличив производительность в этих областях. ## Значимость UI-TARS-2 может быть применен в различных областях, включая **игровые окружения**, **GUI-операции**, **информационные поисковые задачи** и **профессиональные приложения**. Он обеспечивает улучшение производительности, устойчивость и возможность решения более сложных задач. Для развития AI в области GUI он представляет собой показательный шаг вперед. Улучшение обучения с подкреплением, объединение различных сред и масштабирование данных делают этот агент более универсальным и эффективным для реальных сценариев. ## Выводы Результаты показывают, что UI-TARS-

Abstract

The development of autonomous agents for graphical user interfaces (GUIs) presents major challenges in artificial intelligence. While recent advances in native agent models have shown promise by unifying perception, reasoning, action, and memory through end-to-end learning, open problems remain in data scalability, multi-turn reinforcement learning (RL), the limitations of GUI-only operation, and environment stability. In this technical report, we present UI-TARS-2, a native GUI-centered agent model that addresses these challenges through a systematic training methodology: a data flywheel for scalable data generation, a stabilized multi-turn RL framework, a hybrid GUI environment that integrates file systems and terminals, and a unified sandbox platform for large-scale rollouts. Empirical evaluation demonstrates that UI-TARS-2 achieves significant improvements over its predecessor UI-TARS-1.5. On GUI benchmarks, it reaches 88.2 on Online-Mind2Web, 47.5 on OSWorld, 50.6 on WindowsAgentArena, and 73.3 on AndroidWorld, outperforming strong baselines such as Claude and OpenAI agents. In game environments, it attains a mean normalized score of 59.8 across a 15-game suite-roughly 60% of human-level performance-and remains competitive with frontier proprietary models (e.g., OpenAI o3) on LMGame-Bench. Additionally, the model can generalize to long-horizon information-seeking tasks and software engineering benchmarks, highlighting its robustness across diverse agent tasks. Detailed analyses of training dynamics further provide insights into achieving stability and efficiency in large-scale agent RL. These results underscore UI-TARS-2's potential to advance the state of GUI agents and exhibit strong generalization to real-world interactive scenarios.

Ссылки и действия

Связанные статьи

SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing

#### Контекст Multimodal Large Language Models (MLLMs) представляют собой мощный инструмент для обработки информации, о...

2025-09-09

AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent

#### Контекст Мобильные агенты, поддерживающие взаимодействие с пользователями через мобильные приложения, становятся в...

2025-09-05