Can Large Models Teach Student Models to Solve Mathematical Problems Like Human Beings? A Reasoning Distillation Method via Multi-LoRA Interaction

2508.13037v1 cs.CL, cs.AI 2025-08-20
Авторы:

Xinhe Li, Jiajun Liu, Peng Wang

Резюме на русском

#### Контекст Модели языка с высокой емкостью (LLMs) представляют собой мощные инструменты для решения математических задач, основываясь на систематической логике и интуитивном понимании. Однако их высокая стоимость и требования к памяти ограничивают их применение. Небольшие модели языка (SLMs) часто испытывают проблемы с примитивным рассуждением, требуя подсчетных данных для улучшения их рассуждений. Это аналогично психологической теории двух систем разума: System 1 (быстрый, интуитивный подход) и System 2 (медленный, последовательный). Мотивируясь этими двумя системами, предлагается новая методология, которая позволяет улучшить рассуждения в SLMs. #### Метод Метод, названный LoRID (Logic-Oriented Reasoning Distillation), включает несколько этапов. Сначала используется LLM для создания содержательных данных, построенных на основе вопросов и соответствующих рассуждений. Затем, LoRA блок встроен в SLM для манипуляции мыслительными цепочками (Chain-of-Thought, CoT). Далее, вводятся два дополнительных модуля: Knowledge Generator (KG) и Deep Reasoner (DR). KG выводит только знания, а DR использует их для решения задач. Между KG и DR проводится синхронизация, чтобы улучшить согласованность результатов. Этот процесс повторяется для повышения точности и углубления рассуждений. #### Результаты Исследования проводились на нескольких датасетах, включая GSM8K, MathQA и AQuA. LoRID показал значительные улучшения по сравнению с базовыми моделями и даже со многими современными подходами. На GSM8K, LoRID достиг 93.1% точности, превосходя вторую лучшую модель на 16.1%. Это указывает на эффективность LoRID в повышении способности SLM к математическому рассуждению. #### Значимость LoRID может быть применен в области обучения машин, где необходим простой, но эффективный подход к рассуждениям. Он улучшает способность небольших моделей решать задачи, близкими к естественному человеческому мышлению. Это может быть полезно в образовательных системах, где необходимо построение понятных и рациональных выводов. #### Выводы LoRID доказал свою эффективность в улучшении математического рассуждения SLMs. Несмотря на развитие технологий, существуют необходимость и возможность продолжать развитие более простых и эффективных подходов к обучению моделей языка. Будущие исследования будут фокусироваться на оптимизации работы LoRID и его применении в других областях, таких как синтез решений и принятие решений в условиях неопределенности.

Abstract

Recent studies have demonstrated that Large Language Models (LLMs) have strong mathematical reasoning abilities but rely on hundreds of billions of parameters. To tackle the challenge of poor reasoning in Small Language Models (SLMs), existing methods typically leverage LLMs to generate massive amounts of data for cramming training. In psychology, they are akin to System 1 thinking, which resolves reasoning problems rapidly based on experience and intuition. However, human learning also requires System 2 thinking, where knowledge is first acquired and then reinforced through practice. Inspired by such two distinct modes of thinking, we propose a novel method based on the multi-LoRA Interaction for mathematical reasoning Distillation (LoRID). First, we input the question and reasoning of each sample into an LLM to create knowledge-enhanced datasets. Subsequently, we train a LoRA block on the student model as an Intuitive Reasoner (IR), which directly generates Chain-of-Thoughts for problem-solving. Then, to imitate System 2 thinking, we train the Knowledge Generator (KG) and Deep Reasoner (DR), respectively. The former outputs only knowledge after receiving problems, while the latter uses that knowledge to perform reasoning. Finally, to address the randomness in the generation of IR and DR, we evaluate whether their outputs are consistent, and the inference process needs to be iterated if not. This step can enhance the mathematical reasoning ability of SLMs through mutual feedback. Experimental results show that LoRID achieves state-of-the-art performance, especially on the GSM8K dataset, where it outperforms the second-best method by 2.3%, 16.1%, 2.4%, 12.3%, and 1.8% accuracy across the five base models, respectively.

Ссылки и действия