Datarus-R1: An Adaptive Multi-Step Reasoning LLM for Automated Data Analysis

2508.13382v1 cs.CL, cs.AI 2025-08-21

Авторы:

Ayoub Ben Chaliah, Hela Dellagi

Резюме на русском

## Контекст В последнее время роль искусственного интеллекта в анализе данных становится все более высокой. Одной из основных задач в этой области является создание моделей, которые не только способны отвечать на вопросы, но и проводят глубокую структурированную рассуждение для решения сложных задач. Одним из важных направлений является создание моделей, которые могут выполнять трансформацию данных с помощью скриптов, выполнять логические выводы, корректировать ошибки и предоставлять подробные выводы. Эти модели применяются в различных областях, включая финансы, медицину и компьютерные науки. Тем не менее, существуют ряд проблем: существующие модели часто имеют трудности в выполнении логически корректных рассуждений, теряются в трассировке ошибок и выпускают много ненужной информации. Модель Datarus-R1-14B предлагает решение этих проблем, предоставляя эффективное решение для адаптивного многошагового предсказания. ## Метод Datarus-R1-14B является 14-миллиардным параметром моделью, которая была усовершенствована из Qwen-2.5-14B-Instruct. Она была обучена не только на отдельных вопросах и ответах, но и на полных аналитических траекториях, включая логические рассуждения, выполнение кода, ошибки и корректировки. Эта модель обучена в ReAct-стиле, создавая записные книжки, которые отражают различные сферы, такие как финансы, медицина и технические расчеты. Основной методологией является подход, основанный на (i) генерировании синтетических данных, призванных обучать модель к глубоким логическим выводам, (ii) двойной фреймворк, который включает в себя структурный и глубокий сигнал, и (iii) оптимизированную алгоритмически схему групповой политики, которая позволяет эффективно использовать память и ресурсы. Для регулирования темпа обучения использовалась функция курса, которая постепенно меняла фокус от структурной точности к семантическому глубину. Модель также может работать в двух режимах: в агентском режиме она выполняет ReAct-стильные действия, используя Python для реальных вычислений, а в рефлексивном режиме она выдает короткие цепочки логических мыслей. ## Результаты Datarus-R1-14B прошла ряд тестов, включая высокоуровневые задачи, такие как AIME 2024/2025 и LiveCodeBench. Она показала высокий уровень точности, превышая другие модели того же размера и даже достигая того же уровня, что и модели с более крупным числом параметров, такие как QwQ-32B. Более того, Datarus-R1-14B экономит ресурсы, выпуская 18-49% меньше токенов за решение по с

Abstract

We present Datarus-R1-14B, a 14 B-parameter open-weights language model fine-tuned from Qwen 2.5-14B-Instruct to act as a virtual data analyst and graduate-level problem solver. Datarus is trained not on isolated question-answer pairs but on full analytical trajectories including reasoning steps, code execution, error traces, self-corrections, and final conclusions, all captured in a ReAct-style notebook format spanning finance, medicine, numerical analysis, and other quantitative domains. Our training pipeline combines (i) a trajectory-centric synthetic data generator that yielded 144 000 tagged notebook episodes, (ii) a dual-reward framework blending a lightweight tag-based structural signal with a Hierarchical Reward Model (HRM) that scores both single-step soundness and end-to-end coherence, and (iii) a memory-optimized implementation of Group Relative Policy Optimization (GRPO) featuring KV-cache reuse, sequential generation, and reference-model sharding. A cosine curriculum smoothly shifts emphasis from structural fidelity to semantic depth, reducing the format collapse and verbosity that often plague RL-aligned LLMs. A central design choice in Datarus is it dual reasoning interface. In agentic mode the model produces ReAct-tagged steps that invoke Python tools to execute real code; in reflection mode it outputs compact Chain-of-Thought (CoT) traces delimited by <think> and <answer> tags. On demanding postgraduate-level problems, Datarus exhibits an "AHA-moment" pattern: it sketches hypotheses, revises them once or twice, and converges avoiding the circular, token-inflating loops common to contemporary systems. Across standard public benchmarks Datarus surpasses similar size models and even reaches the level of larger reasoning models such as QwQ-32B achieving up to 30% higher accuracy on AIME 2024/2025 and LiveCodeBench while emitting 18-49% fewer tokens per solution.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Datarus-R1: An Adaptive Multi-Step Reasoning LLM for Automated Data Analysis

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация