SEA: Self-Evolution Agent with Step-wise Reward for Computer Use

2508.04037v1 cs.AI 2025-08-09

Авторы:

Liang Tang, Shuxian Li, Yuhao Cheng, Yukang Huo, Zhepeng Wang, Yiqiang Yan, Kaer Huang, Yanzhe Jing, Tiaonan Duan

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Компьютерное использование является ключевой областью в искусственном интеллекте, где агенты должны выполнять задачи пользователей, взаимодействуя с компьютерами. Несмотря на широкий интерес со стороны индустрии и научного сообщества, современные агенты показывают неудовлетворительные результаты в реальных условиях. Основная проблема состоит в сложности обучения агентов для выполнения длинных последовательностей действий, особенно при ограниченных вычислительных ресурсах. Традиционные подходы требуют значительных вычислительных мощностей для обучения на длительных траекториях, что ограничивает их практическую применимость. Другая ключевая проблема заключается в необходимости создания агентов, которые могут эффективно комбинировать знания о компьютерных системах с планированием действий. Существующие модели часто требуют отдельного обучения для задач знаковения (grounding) и планирования, что увеличивает сложность и стоимость разработки. Таким образом, требуется инновационный подход для создания эффективных, масштабируемых и практически применимых агентов для компьютерного использования. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается Self-Evolution Agent (SEA) для компьютерного использования, который решает ключевые проблемы существующих подходов. Авторы предлагают три ключевых инновации: автоматический процесс генерации траекторий, эффективное пошаговое обучение с подкреплением (reinforcement learning) и метод улучшения модели без необходимости дополнительного обучения. Во-первых, для обучения агента используется автоматизированный пайплайн генерации верифицируемых траекторий. Это позволяет создавать высококачественные данные для обучения, не требуя ручного вмешательства. Во-вторых, предлагается пошаговый метод обучения с подкреплением, который снижает вычислительные требования для обучения на длинных траекториях. Это достигается путем разбиения длинных задач на более мелкие подзадачи, что позволяет эффективнее использовать вычислительные ресурсы. В-третьих, предлагается метод объединения возможностей знаковения и планирования в единую модель без необходимости дополнительного обучения. Это достигается путем интеграции этих функций на уровне модели, что значительно упрощает процесс разработки и повышает эффективность агента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов для оценки эффективности предлагаемого агента SEA. Эксперименты проводились на различных наборах данных, специально созданных для задач компьютерного использования. Агент SEA, имеющий всего 7 миллиардов параметров, показал высокую эффективность в выполнении задач, превосходящую другие модели с таким же числом параметров. Кроме того, его результаты были сравнимы с моделями, имеющими большее количество параметров. В экспериментах также была продемонстрирована эффективность предлагаемых методов генерации данных и обучения с подкреплением. Агент SEA успешно справлялся с длинными последовательностями действий, что является ключевым фактором для практического применения. Результаты также показали, что интеграция знаковения и планирования в одну модель значительно повышает эффективность и простоту разработки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый агент SEA имеет значительный потенциал для практического применения в различных областях. Он может быть использован для автоматизации рутинных задач на компьютерах, таких как управление документами, выполнение сложных последовательностей команд и взаимодействие с различными приложениями. Благодаря своей эффективности и малому количеству параметров, SEA может быть легко интегрирован в различные системы без необходимости больших вычислительных мощностей. Кроме того, предлагаемый метод автоматической генерации данных и пошагового обучения может быть применен в других областях искусственного интеллекта, требующих обучения на длинных последовательностях. Это повышает практическую значимость предлагаемого подхода и открывает возможности для его применения в более широком контексте. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен Self-Evolution Agent (SEA) для компьютерного использования, который представляет собой значительный шаг вперед в области искусственного интеллекта. Благодаря инновационным методам генерации данных, пошагового обучения и интеграции функций знаковения и планирования, SEA достигает высокой эффективности с относительно небольшим количеством параметров. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности агентов для компьютерного использования, включая разработку более сложных моделей и методов обучения. Авторы также планируют открыть исходный код и веса модели для более широкого использования и развития в этой области.

Abstract

Computer use agent is an emerging area in artificial intelligence that aims to operate the computers to achieve the user's tasks, which attracts a lot of attention from both industry and academia. However, the present agents' performance is far from being used. In this paper, we propose the Self-Evolution Agent (SEA) for computer use, and to develop this agent, we propose creative methods in data generation, reinforcement learning, and model enhancement. Specifically, we first propose an automatic pipeline to generate the verifiable trajectory for training. And then, we propose efficient step-wise reinforcement learning to alleviate the significant computational requirements for long-horizon training. In the end, we propose the enhancement method to merge the grounding and planning ability into one model without any extra training. Accordingly, based on our proposed innovation of data generation, training strategy, and enhancement, we get the Selfevolution Agent (SEA) for computer use with only 7B parameters, which outperforms models with the same number of parameters and has comparable performance to larger ones. We will make the models' weight and related codes open-source in the future.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SEA: Self-Evolution Agent with Step-wise Reward for Computer Use

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Executable Governance for AI: Translating Policies into Rules Using LLMs

Solving LLM Repetition Problem in Production: A Comprehensive Study of Multiple ...

BiTAgent: A Task-Aware Modular Framework for Bidirectional Coupling between Mult...

SlideGen: Collaborative Multimodal Agents for Scientific Slide Generation

GTM: Simulating the World of Tools for AI Agents

Навигация