Datarus-R1: An Adaptive Multi-Step Reasoning LLM for Automated Data Analysis
2508.13382v1
cs.CL, cs.AI
2025-08-21
Авторы:
Ayoub Ben Chaliah, Hela Dellagi
Резюме на русском
## Контекст
В последнее время роль искусственного интеллекта в анализе данных становится все более высокой. Одной из основных задач в этой области является создание моделей, которые не только способны отвечать на вопросы, но и проводят глубокую структурированную рассуждение для решения сложных задач. Одним из важных направлений является создание моделей, которые могут выполнять трансформацию данных с помощью скриптов, выполнять логические выводы, корректировать ошибки и предоставлять подробные выводы. Эти модели применяются в различных областях, включая финансы, медицину и компьютерные науки. Тем не менее, существуют ряд проблем: существующие модели часто имеют трудности в выполнении логически корректных рассуждений, теряются в трассировке ошибок и выпускают много ненужной информации. Модель Datarus-R1-14B предлагает решение этих проблем, предоставляя эффективное решение для адаптивного многошагового предсказания.
## Метод
Datarus-R1-14B является 14-миллиардным параметром моделью, которая была усовершенствована из Qwen-2.5-14B-Instruct. Она была обучена не только на отдельных вопросах и ответах, но и на полных аналитических траекториях, включая логические рассуждения, выполнение кода, ошибки и корректировки. Эта модель обучена в ReAct-стиле, создавая записные книжки, которые отражают различные сферы, такие как финансы, медицина и технические расчеты. Основной методологией является подход, основанный на (i) генерировании синтетических данных, призванных обучать модель к глубоким логическим выводам, (ii) двойной фреймворк, который включает в себя структурный и глубокий сигнал, и (iii) оптимизированную алгоритмически схему групповой политики, которая позволяет эффективно использовать память и ресурсы. Для регулирования темпа обучения использовалась функция курса, которая постепенно меняла фокус от структурной точности к семантическому глубину. Модель также может работать в двух режимах: в агентском режиме она выполняет ReAct-стильные действия, используя Python для реальных вычислений, а в рефлексивном режиме она выдает короткие цепочки логических мыслей.
## Результаты
Datarus-R1-14B прошла ряд тестов, включая высокоуровневые задачи, такие как AIME 2024/2025 и LiveCodeBench. Она показала высокий уровень точности, превышая другие модели того же размера и даже достигая того же уровня, что и модели с более крупным числом параметров, такие как QwQ-32B. Более того, Datarus-R1-14B экономит ресурсы, выпуская 18-49% меньше токенов за решение по с
Abstract
We present Datarus-R1-14B, a 14 B-parameter open-weights language model
fine-tuned from Qwen 2.5-14B-Instruct to act as a virtual data analyst and
graduate-level problem solver. Datarus is trained not on isolated
question-answer pairs but on full analytical trajectories including reasoning
steps, code execution, error traces, self-corrections, and final conclusions,
all captured in a ReAct-style notebook format spanning finance, medicine,
numerical analysis, and other quantitative domains. Our training pipeline
combines (i) a trajectory-centric synthetic data generator that yielded 144 000
tagged notebook episodes, (ii) a dual-reward framework blending a lightweight
tag-based structural signal with a Hierarchical Reward Model (HRM) that scores
both single-step soundness and end-to-end coherence, and (iii) a
memory-optimized implementation of Group Relative Policy Optimization (GRPO)
featuring KV-cache reuse, sequential generation, and reference-model sharding.
A cosine curriculum smoothly shifts emphasis from structural fidelity to
semantic depth, reducing the format collapse and verbosity that often plague
RL-aligned LLMs. A central design choice in Datarus is it dual reasoning
interface. In agentic mode the model produces ReAct-tagged steps that invoke
Python tools to execute real code; in reflection mode it outputs compact
Chain-of-Thought (CoT) traces delimited by <think> and <answer> tags. On
demanding postgraduate-level problems, Datarus exhibits an "AHA-moment"
pattern: it sketches hypotheses, revises them once or twice, and converges
avoiding the circular, token-inflating loops common to contemporary systems.
Across standard public benchmarks Datarus surpasses similar size models and
even reaches the level of larger reasoning models such as QwQ-32B achieving up
to 30% higher accuracy on AIME 2024/2025 and LiveCodeBench while emitting
18-49% fewer tokens per solution.
Ссылки и действия
Дополнительные ресурсы: