Pushing LLMs to Their Logical Reasoning Bound: The Role of Data Reasoning Intensity
2509.24836v2
cs.AI, cs.CL, cs.LG
2025-10-01
Авторы:
Zhen Bi, Zhenlin Hu, Jinnan Yang, Mingyang Chen, Cheng Deng, Yida Xue, Zeyu Yang, Qing Shen, Zhenfang Liu, Kang Zhao, Ningyu Zhang, Jungang Lou
Резюме на русском
## Контекст
Одним из ключевых аспектов развития бо LARGE LANGUAGE MODELS (LLMs) является их логическое рассуждение, которое тесно связано с качеством и структурой тренировочных данных. Несмотря на последние достижения, большинство исследований по-прежнему сосредотачиваются на преобразовании форматов данных, отдавая меньшее внимание логической сложности и внутренней структуре примеров. Это приводит к тому, что потенциал данных в логических задачах остается недооцененным. Наша мотивация заключается в том, чтобы измерить и оптимизировать логическую сложность примеров тренировочных данных, чтобы лучше использовать LLM's cognitive potential.
## Метод
Мы предлагаем **Data Reasoning Intensity (DRI)** — новую метрику, которая измеряет логическую сложность примеров тренировочных данных путем декомпозиции и агрегации их логических структур. DRI позволяет измерить, насколько хорошо LLM использует логические сигналы в данных и выявить потенциальные проблемы с сильным расходом между потенциалом данных и модели. Кроме того, мы предлагаем **Re-cognizing Optimization Strategy** ( ReOS ), которая систематически улучшает логическую сложность примеров тренировочных данных, чтобы лучше выравнивать их с логическим рассуждением модели. Метод не увеличивает объем данных, а скорее оптимизирует существующие примеры, выравнивая их с логическим пределом модели.
## Результаты
Мы проводим плотные эксперименты с множеством характеристик данных, чтобы проверить DRI и ReOS. Использованы такие данные, как **MATH-SHORT**, **MASTRO** и **RACE**. Наши результаты показывают, что **ReOS** существенно улучшает логическое рассуждение LLMs, обеспечивая значительные повышения в производительности и общей универсальности в сравнении с другими data-centric методами. Мы также проверяем нашу модель в reinforcement learning фреймворке, показывая, что оптимизация логической сложности примеров данных оказывается ключевым фактором для повышения логического рассуждения LLMs.
## Значимость
Наша работа имеет значительное значение в области обучения LLMs. Она показывает, что логическая сложность примеров в тренировочных данных играет определяющую роль в улучшении логического рассуждения моделей, а не просто в объеме или структуре данных. Это открывает возможности для задач, где LLM должен принимать решения на основе логического рассуждения. Мы также показываем, что наш подход может быть применен в различных областях, включая образование, робототехнику, медицину и другие, где логическое рассуждение играет ключевую роль.
## Выводы
Мы доказали, что **DRI** и **ReOS** являются эффективными стратегиями для улучшения логического рассуждения LLMs. Они позволяют лучше использовать потенциал
Abstract
Recent advances in large language models (LLMs) highlight the importance of
training data structure and quality in shaping reasoning behavior. However,
most existing approaches focus on transforming data formats while neglecting
the internal reasoning complexity of training samples, leaving the reasoning
potential of data under-explored and underutilized. In this work, we posit that
LLM logical reasoning performance is jointly constrained by the potential of
the training data and the cognitive capacity of the model. To make this
relationship measurable, we introduce Data Reasoning Intensity (DRI), a novel
metric that quantifies the latent logical reasoning complexity of samples by
decomposing and aggregating their logical structures. This allows us to analyze
how well current LLMs utilize logical reasoning signals and identify
performance gaps relative to data potential. Based on this insight, we
introduce a re-cognizing optimization strategy that systematically enhances the
logical reasoning intensity of training data. Rather than increasing data
volume, our method re-optimizes existing samples to better align with the LLM's
logical reasoning boundary. Extensive experiments show that our approach
significantly improves performance and generalization over data-centric
strategies. We further validate our method under a reinforcement learning
framework. Our results indicate that prioritizing reasoning complexity in data
rather than sheer scale or superficial form is essential to realizing LLMs'
full cognitive potential.
Ссылки и действия
Дополнительные ресурсы: