Scaling Generalist Data-Analytic Agents
2509.25084v1
cs.CL, cs.AI, cs.IR, cs.LG
2025-10-01
Авторы:
Shuofei Qiao, Yanqiu Zhao, Zhisong Qiu, Xiaobin Wang, Jintian Zhang, Zhao Bin, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
Резюме на русском
## Контекст
Модели генеративного искусственного интеллекта (AI) приобрели важное значение в сфере автоматизированного научного исследования. Однако существуют значительные проблемы, связанные с нехваткой качественных данных, неэффективной архитектурой обучения и нестабильностью многошаговых процессов модели. В этой области проблематично создание общих моделей, которые могут справляться с проблемами разнообразных форматов данных и многоступенчатым логическим анализом. Целью настоящего исследования является разработка нового подхода к построению сильных общих агентов способных эффективно работать с данными и решать задачи анализа.
## Метод
Для решения приведенных выше задач предложен алгоритм DataMind. Он включает в себя несколько ключевых компонентов: 1) Таксономия задач с тонкой гранулярностью, которая увеличивает сложность и разнообразие синтезированных запросов. 2) Траектории познания, в которых применяются методы моделирования и правил для фильтрации результатов. 3) Динамический объектив обучения, объединяющий тренировочные потери с подкреплением и моделью работы с текстом. 4) Архитектура многошагового мульти-роллаута, оптимизированная с точки зрения производительности памяти и стабильности. Такие технические решения позволяют справляться с недостатками существующих систем.
## Результаты
Проводились эксперименты с использованием DataMind-12K, набора траекторий, покрывающий разные домены, задачи и форматы данных. Модель DataMind-14B показала средний балл 71.16% на нескольких бенчмарках анализа данных, превосходя DeepSeek-V3.1 и GPT-5. Модель DataMind-7B также показала лидирующие результаты среди открытых моделей с баллом 68.10%. Эти результаты подтверждают эффективность предложенного подхода в сравнении с конкурирующими моделями.
## Значимость
Предложенный подход имеет широкие применения в области автоматизированного научного изучения, анализа данных и прогнозирования. Особые преимущества заключаются в его открытости и надежности, что открывает возможности для использования в различных промышленных и научных сферах. В будущем планируется расширение наборов данных и моделей для повышения совместимости и качества решения задач.
## Выводы
Результаты данного исследования указывают на существенный прогресс в области систем генеративного искусственного интеллекта. Однако в будущем необходимо продолжить исследования в сторону улучшения моделей для еще более сильного повышения производительности и универсальности.
Abstract
Data-analytic agents are emerging as a key catalyst for automated scientific
discovery and for the vision of Innovating AI. Current approaches, however,
rely heavily on prompt engineering over proprietary models, while open-source
models struggle to face diverse-format, large-scale data files and
long-horizon, multi-step reasoning that real-world analytics demands. This
paper introduces DataMind, a scalable data synthesis and agent training recipe
designed to build generalist data-analytic agents. DataMind tackles three key
challenges in building open-source data-analytic agents, including insufficient
data resources, improper training strategy, and unstable code-based multi-turn
rollout. Concretely, DataMind applies 1) a fine-grained task taxonomy and a
recursive easy-to-hard task composition mechanism to increase the diversity and
difficulty of synthesized queries; 2) a knowledge-augmented trajectory sampling
strategy followed by model-based and rule-based filtering; 3) a dynamically
adjustable training objective combining both SFT and RL losses; 4) a
memory-frugal and stable code-based multi-turn rollout framework. Built on
DataMind, we curate DataMind-12K, a high-quality trajectory set spanning
diverse domains, task categories, and data file formats for data-analytic
tasks. Trained on DataMind-12K, our DataMind-14B achieves state-of-the-art with
an average score of 71.16% on multiple data analysis benchmarks, outperforming
the strongest proprietary baselines DeepSeek-V3.1 and GPT-5. Our DataMind-7B
also performs best among all open-source models with a score of 68.10%. We also
incorporate some empirical insights gained from our exploratory trials into the
analysis experiments, aiming to provide actionable insights about agentic
training for the community. We will release DataMind-12K and DataMind-7B,14B
for the community's future research.