SSPO: Self-traced Step-wise Preference Optimization for Process Supervision and Reasoning Compression

2508.12604v1 cs.LG, cs.AI 2025-08-20
Авторы:

Yuyang Xu, Yi Cheng, Haochao Ying, Zhuoyun Du, Renjun Hu, Xing Shi, Wei Lin, Jian Wu

Резюме на русском

#### Контекст Современные pretrained Large Language Models (LLMs) достигли впечатляющих результатов в области обработки естественного языка. Однако тест-тайм скейлинг, целевая техника, направленная на повышение их эффективности, часто связана с большим вычислительным накладным издержками, особенно при использовании вспомогательных моделей и алгоритмов, например, подкрепления с Chain-of-Thought (CoT) рассуждениями. Эти проблемы становятся тем актуальнее, чем более сложным становится задание и чем более нужна точная и компактная аргументация. Это создает мотивацию для развития методов, способных компактифицировать рассуждения без ущерба качеству. #### Метод SSPO предлагает новую RL-фреймворк для оптимизации каждого шага рассуждения, который отличается своей простотой и эффективностью. Основной идеей является использование самостоятельно сгенерированных приоритетов модели, чтобы корректировать каждый шаг оптимизации без необходимости дополнительных моделей или ручных тегов. Решение использует механизмы расчета самопроизвольных приоритетов, которые позволяют модели работать с меньшим количеством вычислительных ресурсов. Это значительно упрощает процесс и позволяет получить более компактные и точные аргументации. #### Результаты Исследования проводились на разных данных, включая широкие домены и языковые структуры. Эксперименты показали, что SSPO способен эффективно сжимать рассуждения, уменьшая ненужные сложности и улучшая производительность. Модель показала стабильное снижение ошибок и погрешностей, даже при уменьшении количества шагов рассуждения. Особенно выдающимися результатами проявилась модель в задачах с высоким уровнем сложности и потребности в точности. #### Значимость Предлагаемый подход может быть применен в различных сферах, таких как системы рекомендаций, роботов-диалогов и модели дальнейшей научной исследовательской работы. Он не только экономит вычислительные ресурсы, но также улучшает точность и читаемость результатов. Достижения SSPO открывают новые возможности для улучшения моделей думающих систем, что может повлиять на развитие интеллектуальных технологий в целом. #### Выводы Результаты SSPO подтверждают, что модель в силу своего нового подхода к оптимизации задач может быть эффективной в более сложных задачах. Будущие исследования будут сфокусированы на её дальнейшем использовании в различных сценариях и расширении применения в связи с новыми технологическими требованиями.

Abstract

Test-time scaling has proven effective in further enhancing the performance of pretrained Large Language Models (LLMs). However, mainstream post-training methods (i.e., reinforcement learning (RL) with chain-of-thought (CoT) reasoning) often incur substantial computational overhead due to auxiliary models and overthinking. In this paper, we empirically reveal that the incorrect answers partially stem from verbose reasoning processes lacking correct self-fix, where errors accumulate across multiple reasoning steps. To this end, we propose Self-traced Step-wise Preference Optimization (SSPO), a pluggable RL process supervision framework that enables fine-grained optimization of each reasoning step. Specifically, SSPO requires neither auxiliary models nor stepwise manual annotations. Instead, it leverages step-wise preference signals generated by the model itself to guide the optimization process for reasoning compression. Experiments demonstrate that the generated reasoning sequences from SSPO are both accurate and succinct, effectively mitigating overthinking behaviors without compromising model performance across diverse domains and languages.

Ссылки и действия