CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

2508.20096v1 cs.CV, cs.AI, cs.LG 2025-08-29

Авторы:

Zeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang

Резюме на русском

## Контекст Графические пользовательские интерфейсы (GUI) широко используются в различных областях, от простых приложений до сложных систем управления научными вычислениями. Однако создание автономных агентов, способных эффективно взаимодействовать с GUI, представляет значительные вызовы. Особенно это актуально в сфере научных вычислений, где необходимо использовать комбинацию долгосрочного планирования и точной исполнительной работы. На данный момент существуют два типа агентов: генералисты, которые проявляют сильные навыки в планировании, но оставляют желать лучшего в исполнении, и специалисты, которые превосходят в исполнении, но слабы в планировании. Фреймворки, комбинирующие эти подходы, либо статичны и неадаптивны, либо недостаточно эффективны в условиях небольшого объема высококачественных данных, который характерен для научных задач. Это решает новая модель CODA, которая предлагает современное решение с помощью двух этапов обучения и декоупленного метода reinforcement learning. ## Метод CODA представляет собой две специальные сети: Cerebrum (планировщик) и Cerebellum (исполнитель). Методология основывается на двух этапах обучения: Specialization и Generalization. В первом этапе, Specialization, каждый агент обучается для конкретного набора задач с помощью декоупленного метода GRPO (Guided Reinforcement Policy Optimization). На втором этапе, Generalization, все успешные траектории из первого этапа собираются в единый датасет, который позволяет дообучить Cerebrum с помощью супервизированного метода. Таким образом, CODA объединяет высокую точность исполнения и гибкость параметрического обучения, что делает ее уникальной в сравнении с другими существующими фреймворками. ## Результаты Проведенные эксперименты на бенчмарке ScienceBoard показали, что CODA превосходит существующие модели по метрикам производительности и точности. Для четырех сложных научных задач, охвативших различные сферы применения, модель CODA показала значительное превосходство перед остальными агентами, включая генералистов и специалистов. Эта модель отличается высокой точностью исполнения, постоянной обучаемостью и устойчивостью к новым условиям. ## Значимость CODA может быть применена в различных научных и инженерных задачах, где требуется как точное исполнение, так и долгосрочное планирование. Особенно она отлично подходит для систем автоматизации, программирования наивных пользователей и управления научными вычислениями. Ее главное преимущество заключается в том, что она объединяет лучшие качества генералистов и специалистов, позволяя ей быть эффективной в различных условиях. Будущие исследования могут ориентироваться на расширение количества задач, улучшение оценочной моде

Abstract

Autonomous agents for Graphical User Interfaces (GUIs) face significant challenges in specialized domains such as scientific computing, where both long-horizon planning and precise execution are required. Existing approaches suffer from a trade-off: generalist agents excel at planning but perform poorly in execution, while specialized agents demonstrate the opposite weakness. Recent compositional frameworks attempt to bridge this gap by combining a planner and an actor, but they are typically static and non-trainable, which prevents adaptation from experience. This is a critical limitation given the scarcity of high-quality data in scientific domains. To address these limitations, we introduce CODA, a novel and trainable compositional framework that integrates a generalist planner (Cerebrum) with a specialist executor (Cerebellum), trained via a dedicated two-stage pipeline. In the first stage, Specialization, we apply a decoupled GRPO approach to train an expert planner for each scientific application individually, bootstrapping from a small set of task trajectories. In the second stage, Generalization, we aggregate all successful trajectories from the specialized experts to build a consolidated dataset, which is then used for supervised fine-tuning of the final planner. This equips CODA with both robust execution and cross-domain generalization. Evaluated on four challenging applications from the ScienceBoard benchmark, CODA significantly outperforms baselines and establishes a new state of the art among open-source models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация