Авторы:
Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu
#### Контекст
В настоящее время видение-языковые модели (Vision-Language Models, VLMs) продемонстрировали выдающиеся возможности в качестве компьютер-участников агентов (Computer-Use Agents, CUAs), способных автоматизировать широкий спектл работ на компьютере. Однако как только эти агенты начали осуществлять коммерческую деятельность, их разработчики часто ограничивались закрытой информацией, что мешало исследователям изучить их функциональные возможности, ограничения и риски. Несмотря на то, что компьютер-участники будут все больше осуществлять цифровые взаимодействия и принимать важные решения в ответственных областях, отсутствие открытых решений становится критичным. Чтобы обойти эту проблему, мы предлагаем OpenCUA, открытый фреймворк для компьютер-участников, который способен масштабировать данные и модели в этой области. Он включает: (1) инфраструктуру для аннотации, которая захватывает человеческие демонстрации использования компьютера; (2) AgentNet, первый большой датасет для компьютер-участников, охватывающий 3 операционных системы и 200+ приложений и веб-сайтов; и (3) процесс, который превращает демонстрации в пары состояние-действие с логикой рефлексивного обдумывания длинного цепного мышления, что позволяет быть эффективным при масштабировании данных. Модели OpenCUA показали выдающиеся результаты в сравнении с другими CUA-системами.
#### Метод
Мы разработали OpenCUA как базовую платформу для работы с компьютер-участниками, которая может масштабироваться для работы с различными типами данных и моделей. Основные компоненты фреймворка:
- **Annotation Infrastructure**: Используемая инструментарий для захвата человеческих демонстраций использования компьютера. Она позволяет пользователям легко создавать метки на видеозаписях и снимках экрана, чтобы отражать поведения компьютер-участника.
- **AgentNet**: Большой датасет, охватывающий интерфейсы 3 операционных систем (Windows, macOS, Linux) и 200+ приложений и веб-сайтов. Он демонстрирует различные компьютер-участники, включая кликовые, нажатие клавиш, мышь, формы, интерактивные элементы и другие.
- **Scalable Pipeline**: Метод преобразования демонстраций в пары состояние-действие. Он включает в себя цепное мышление, которое позволяет модели воспроизводить действия в длинных последовательностях и улучшать удобочитаемость.
#### Результаты
Мы проводили ряд экспериментов, чтобы проверить эффективность OpenCUA. Мы использовали данные AgentNet для обучения и проверки моделей. Модель OpenCUA-32B достигла следующих результатов:
- **OSWorld-Verified Benchmark**: OpenCUA-32B показала среднюю успешность
Annotation:
Vision-language models have demonstrated impressive capabilities as
computer-use agents (CUAs) capable of automating diverse computer tasks. As
their commercial potential grows, critical details of the most capable CUA
systems remain closed. As these agents will increasingly mediate digital
interactions and execute consequential decisions on our behalf, the research
community needs access to open CUA frameworks to study their capabilities,
limitations, and risks. To bridge this gap, we propose O...
ID: 2508.09123v1
cs.AI, cs.CV