InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities
2508.05496v1
cs.AI
2025-08-08
Авторы:
Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Large language models (LLMs) отличаются впечатляющими способностями к резонированию на широком спектре задач, но улучшение этих способностей после обучения требует значительных ресурсов, особенно в плане данных и вычислительных мощностей. Несмотря на то, что недавние исследования поставили цель повысить эффективность выбора данных, многие существующие методы основываются на эвристических или специфических для задачи подходах, что ограничивает их масштабируемость. Это представляет серьезные трудности для разработки эффективных и масштабируемых решений, особенно в контексте высокосложных задач, таких как математическое резонирование.
Основной проблемой является необходимость разработки методологии, которая могла бы комбинировать высокую скорость обучения, эффективное использование данных и широкую применимость на различных задачах. Традиционные подходы часто требуют больших корпусов данных для достижения хороших результатов, что становится неэкономичным при работе с крупными моделями. Кроме того, многие методы не обеспечивают достаточного качества адаптации модели к новым задачам, особенно в случае расширения на незнакомые источники данных.
В этой работе авторы предлагают решение, направленное на устранение этих ограничений, под названием **InfiAlign**. Этот подход предлагает комбинацию надлежащего выбора данных и полного пост-обучения для улучшения способностей LLMs к резонированию, при этом существенно сокращая объем необходимых данных и повышая масштабируемость.
## ПРЕДЛОЖЕННЫЙ МЕТОД
**InfiAlign** представляет собой масштабируемый и эффективный почто-обучающийся фреймворк, который интегрирует два ключевых компонента: supervised fine-tuning (SFT) и Direct Preference Optimization (DPO). Основой фреймворка является робастная конвейерная система выбора данных, которая автоматически отображает высококачественные данные для выравнивания модели из открытых источников reasoning datasets. Для этого используются мультимерные метрики качества, которые позволяют выбрать наиболее подходящие данные.
SFT-компонент InfiAlign обеспечивает начальную настройку модели, оптимизируя ее для различных задач резонирования. Затем DPO применяется для дополнительного улучшения, особенно в области математического резонирования. Этот двухступенчатый подход позволяет модели достичь высоких результатов, опираясь на минимальный объем данных по сравнению с другими методами.
Ключевой особенностью InfiAlign является его возможность работать с новыми источниками данных без необходимости значительных модификаций, что повышает его масштабируемость и применимость в различных контекстах. Этот фреймворк также обеспечивает высокую производительность при использовании ограниченных вычислительных ресурсов.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы провели ряд экспериментов, используя модель **Qwen2.5-Math-7B-Base**, чтобы продемонстрировать эффективность InfiAlign. Результаты показали, что модель, обученная с помощью SFT, достигла результатов, сравнимых с **DeepSeek-R1-Distill-Qwen-7B**, при этом использовав только около 12% объема данных для обучения. Это свидетельствует о высокой эффективности выбора данных в InfiAlign.
Кроме того, применение DPO привело к значительным улучшениям, особенно в задачах математического резонирования. Модель показала улучшение в среднем на 3.89% по AIME 24/25 benchmarks, что является внутренним показателем эффективности. Эти результаты подтверждают, что InfiAlign не только эффективен в плане уменьшения объема данных, но и обеспечивает хорошую обобщающую способность на различных задачах резонирования.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
**InfiAlign** имеет высокую практическую значимость для разработчиков и исследователей, работающих с LLMs. Он позволяет эффективно выровнять модели с минимальными затратами на вычислительные ресурсы и данные, что делает его пригодным для различных приложений, особенно в областях, требующих высокого уровня резонирования, таких как математические моделирование, научные исследования и другие высокосложные задачи.
Преимущества InfiAlign включают в себя высокую масштабируемость, эффективность использования данных и возможность работы с разными источниками данных. Это делает его подходящим для использования в промышленных и научных приложениях, где необходимо быстро и эффективно обучать модели для решения сложных задач.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
InfiAlign является важной разработкой в области пост-обучения LLMs, поскольку он сочетает в себе эффективность и масштабируемость. Основные достижения этого фреймворка заключаются в уменьшении необходимого объема данных, повышении качества резонирования и обеспечении широкой применимости.
Будущие исследования могут сосредоточиться на дальнейшем улучшении эффективности выбора данных, а также на расширении InfiAlign для работы с более широким спектром задач и моделей. Это может включать в себя исследования новых методов оптимизации и дальнейшего совершенствования архитектуры фреймворка для достижения еще более высоких результатов.
Abstract
Large language models (LLMs) have exhibited impressive reasoning abilities on
a wide range of complex tasks. However, enhancing these capabilities through
post-training remains resource intensive, particularly in terms of data and
computational cost. Although recent efforts have sought to improve sample
efficiency through selective data curation, existing methods often rely on
heuristic or task-specific strategies that hinder scalability. In this work, we
introduce InfiAlign, a scalable and sample-efficient post-training framework
that integrates supervised fine-tuning (SFT) with Direct Preference
Optimization (DPO) to align LLMs for enhanced reasoning. At the core of
InfiAlign is a robust data selection pipeline that automatically curates
high-quality alignment data from open-source reasoning datasets using
multidimensional quality metrics. This pipeline enables significant performance
gains while drastically reducing data requirements and remains extensible to
new data sources. When applied to the Qwen2.5-Math-7B-Base model, our SFT model
achieves performance on par with DeepSeek-R1-Distill-Qwen-7B, while using only
approximately 12% of the training data, and demonstrates strong generalization
across diverse reasoning tasks. Additional improvements are obtained through
the application of DPO, with particularly notable gains in mathematical
reasoning tasks. The model achieves an average improvement of 3.89% on AIME
24/25 benchmarks. Our results highlight the effectiveness of combining
principled data selection with full-stage post-training, offering a practical
solution for aligning large reasoning models in a scalable and data-efficient
manner. The model checkpoints are available at
https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
Ссылки и действия
Дополнительные ресурсы: