CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning
2508.20096v1
cs.CV, cs.AI, cs.LG
2025-08-29
Авторы:
Zeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang
Резюме на русском
## Контекст
Графические пользовательские интерфейсы (GUI) широко используются в различных областях, от простых приложений до сложных систем управления научными вычислениями. Однако создание автономных агентов, способных эффективно взаимодействовать с GUI, представляет значительные вызовы. Особенно это актуально в сфере научных вычислений, где необходимо использовать комбинацию долгосрочного планирования и точной исполнительной работы. На данный момент существуют два типа агентов: генералисты, которые проявляют сильные навыки в планировании, но оставляют желать лучшего в исполнении, и специалисты, которые превосходят в исполнении, но слабы в планировании. Фреймворки, комбинирующие эти подходы, либо статичны и неадаптивны, либо недостаточно эффективны в условиях небольшого объема высококачественных данных, который характерен для научных задач. Это решает новая модель CODA, которая предлагает современное решение с помощью двух этапов обучения и декоупленного метода reinforcement learning.
## Метод
CODA представляет собой две специальные сети: Cerebrum (планировщик) и Cerebellum (исполнитель). Методология основывается на двух этапах обучения: Specialization и Generalization. В первом этапе, Specialization, каждый агент обучается для конкретного набора задач с помощью декоупленного метода GRPO (Guided Reinforcement Policy Optimization). На втором этапе, Generalization, все успешные траектории из первого этапа собираются в единый датасет, который позволяет дообучить Cerebrum с помощью супервизированного метода. Таким образом, CODA объединяет высокую точность исполнения и гибкость параметрического обучения, что делает ее уникальной в сравнении с другими существующими фреймворками.
## Результаты
Проведенные эксперименты на бенчмарке ScienceBoard показали, что CODA превосходит существующие модели по метрикам производительности и точности. Для четырех сложных научных задач, охвативших различные сферы применения, модель CODA показала значительное превосходство перед остальными агентами, включая генералистов и специалистов. Эта модель отличается высокой точностью исполнения, постоянной обучаемостью и устойчивостью к новым условиям.
## Значимость
CODA может быть применена в различных научных и инженерных задачах, где требуется как точное исполнение, так и долгосрочное планирование. Особенно она отлично подходит для систем автоматизации, программирования наивных пользователей и управления научными вычислениями. Ее главное преимущество заключается в том, что она объединяет лучшие качества генералистов и специалистов, позволяя ей быть эффективной в различных условиях. Будущие исследования могут ориентироваться на расширение количества задач, улучшение оценочной моде
Abstract
Autonomous agents for Graphical User Interfaces (GUIs) face significant
challenges in specialized domains such as scientific computing, where both
long-horizon planning and precise execution are required. Existing approaches
suffer from a trade-off: generalist agents excel at planning but perform poorly
in execution, while specialized agents demonstrate the opposite weakness.
Recent compositional frameworks attempt to bridge this gap by combining a
planner and an actor, but they are typically static and non-trainable, which
prevents adaptation from experience. This is a critical limitation given the
scarcity of high-quality data in scientific domains. To address these
limitations, we introduce CODA, a novel and trainable compositional framework
that integrates a generalist planner (Cerebrum) with a specialist executor
(Cerebellum), trained via a dedicated two-stage pipeline. In the first stage,
Specialization, we apply a decoupled GRPO approach to train an expert planner
for each scientific application individually, bootstrapping from a small set of
task trajectories. In the second stage, Generalization, we aggregate all
successful trajectories from the specialized experts to build a consolidated
dataset, which is then used for supervised fine-tuning of the final planner.
This equips CODA with both robust execution and cross-domain generalization.
Evaluated on four challenging applications from the ScienceBoard benchmark,
CODA significantly outperforms baselines and establishes a new state of the art
among open-source models.
Ссылки и действия
Дополнительные ресурсы: