InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

2508.05496v1 cs.AI 2025-08-08
Авторы:

Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) отличаются впечатляющими способностями к резонированию на широком спектре задач, но улучшение этих способностей после обучения требует значительных ресурсов, особенно в плане данных и вычислительных мощностей. Несмотря на то, что недавние исследования поставили цель повысить эффективность выбора данных, многие существующие методы основываются на эвристических или специфических для задачи подходах, что ограничивает их масштабируемость. Это представляет серьезные трудности для разработки эффективных и масштабируемых решений, особенно в контексте высокосложных задач, таких как математическое резонирование. Основной проблемой является необходимость разработки методологии, которая могла бы комбинировать высокую скорость обучения, эффективное использование данных и широкую применимость на различных задачах. Традиционные подходы часто требуют больших корпусов данных для достижения хороших результатов, что становится неэкономичным при работе с крупными моделями. Кроме того, многие методы не обеспечивают достаточного качества адаптации модели к новым задачам, особенно в случае расширения на незнакомые источники данных. В этой работе авторы предлагают решение, направленное на устранение этих ограничений, под названием **InfiAlign**. Этот подход предлагает комбинацию надлежащего выбора данных и полного пост-обучения для улучшения способностей LLMs к резонированию, при этом существенно сокращая объем необходимых данных и повышая масштабируемость. ## ПРЕДЛОЖЕННЫЙ МЕТОД **InfiAlign** представляет собой масштабируемый и эффективный почто-обучающийся фреймворк, который интегрирует два ключевых компонента: supervised fine-tuning (SFT) и Direct Preference Optimization (DPO). Основой фреймворка является робастная конвейерная система выбора данных, которая автоматически отображает высококачественные данные для выравнивания модели из открытых источников reasoning datasets. Для этого используются мультимерные метрики качества, которые позволяют выбрать наиболее подходящие данные. SFT-компонент InfiAlign обеспечивает начальную настройку модели, оптимизируя ее для различных задач резонирования. Затем DPO применяется для дополнительного улучшения, особенно в области математического резонирования. Этот двухступенчатый подход позволяет модели достичь высоких результатов, опираясь на минимальный объем данных по сравнению с другими методами. Ключевой особенностью InfiAlign является его возможность работать с новыми источниками данных без необходимости значительных модификаций, что повышает его масштабируемость и применимость в различных контекстах. Этот фреймворк также обеспечивает высокую производительность при использовании ограниченных вычислительных ресурсов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов, используя модель **Qwen2.5-Math-7B-Base**, чтобы продемонстрировать эффективность InfiAlign. Результаты показали, что модель, обученная с помощью SFT, достигла результатов, сравнимых с **DeepSeek-R1-Distill-Qwen-7B**, при этом использовав только около 12% объема данных для обучения. Это свидетельствует о высокой эффективности выбора данных в InfiAlign. Кроме того, применение DPO привело к значительным улучшениям, особенно в задачах математического резонирования. Модель показала улучшение в среднем на 3.89% по AIME 24/25 benchmarks, что является внутренним показателем эффективности. Эти результаты подтверждают, что InfiAlign не только эффективен в плане уменьшения объема данных, но и обеспечивает хорошую обобщающую способность на различных задачах резонирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ **InfiAlign** имеет высокую практическую значимость для разработчиков и исследователей, работающих с LLMs. Он позволяет эффективно выровнять модели с минимальными затратами на вычислительные ресурсы и данные, что делает его пригодным для различных приложений, особенно в областях, требующих высокого уровня резонирования, таких как математические моделирование, научные исследования и другие высокосложные задачи. Преимущества InfiAlign включают в себя высокую масштабируемость, эффективность использования данных и возможность работы с разными источниками данных. Это делает его подходящим для использования в промышленных и научных приложениях, где необходимо быстро и эффективно обучать модели для решения сложных задач. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ InfiAlign является важной разработкой в области пост-обучения LLMs, поскольку он сочетает в себе эффективность и масштабируемость. Основные достижения этого фреймворка заключаются в уменьшении необходимого объема данных, повышении качества резонирования и обеспечении широкой применимости. Будущие исследования могут сосредоточиться на дальнейшем улучшении эффективности выбора данных, а также на расширении InfiAlign для работы с более широким спектром задач и моделей. Это может включать в себя исследования новых методов оптимизации и дальнейшего совершенствования архитектуры фреймворка для достижения еще более высоких результатов.

Abstract

Large language models (LLMs) have exhibited impressive reasoning abilities on a wide range of complex tasks. However, enhancing these capabilities through post-training remains resource intensive, particularly in terms of data and computational cost. Although recent efforts have sought to improve sample efficiency through selective data curation, existing methods often rely on heuristic or task-specific strategies that hinder scalability. In this work, we introduce InfiAlign, a scalable and sample-efficient post-training framework that integrates supervised fine-tuning (SFT) with Direct Preference Optimization (DPO) to align LLMs for enhanced reasoning. At the core of InfiAlign is a robust data selection pipeline that automatically curates high-quality alignment data from open-source reasoning datasets using multidimensional quality metrics. This pipeline enables significant performance gains while drastically reducing data requirements and remains extensible to new data sources. When applied to the Qwen2.5-Math-7B-Base model, our SFT model achieves performance on par with DeepSeek-R1-Distill-Qwen-7B, while using only approximately 12% of the training data, and demonstrates strong generalization across diverse reasoning tasks. Additional improvements are obtained through the application of DPO, with particularly notable gains in mathematical reasoning tasks. The model achieves an average improvement of 3.89% on AIME 24/25 benchmarks. Our results highlight the effectiveness of combining principled data selection with full-stage post-training, offering a practical solution for aligning large reasoning models in a scalable and data-efficient manner. The model checkpoints are available at https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.

Ссылки и действия