SSPO: Self-traced Step-wise Preference Optimization for Process Supervision and Reasoning Compression
2508.12604v1
cs.LG, cs.AI
2025-08-20
Авторы:
Yuyang Xu, Yi Cheng, Haochao Ying, Zhuoyun Du, Renjun Hu, Xing Shi, Wei Lin, Jian Wu
Резюме на русском
#### Контекст
Современные pretrained Large Language Models (LLMs) достигли впечатляющих результатов в области обработки естественного языка. Однако тест-тайм скейлинг, целевая техника, направленная на повышение их эффективности, часто связана с большим вычислительным накладным издержками, особенно при использовании вспомогательных моделей и алгоритмов, например, подкрепления с Chain-of-Thought (CoT) рассуждениями. Эти проблемы становятся тем актуальнее, чем более сложным становится задание и чем более нужна точная и компактная аргументация. Это создает мотивацию для развития методов, способных компактифицировать рассуждения без ущерба качеству.
#### Метод
SSPO предлагает новую RL-фреймворк для оптимизации каждого шага рассуждения, который отличается своей простотой и эффективностью. Основной идеей является использование самостоятельно сгенерированных приоритетов модели, чтобы корректировать каждый шаг оптимизации без необходимости дополнительных моделей или ручных тегов. Решение использует механизмы расчета самопроизвольных приоритетов, которые позволяют модели работать с меньшим количеством вычислительных ресурсов. Это значительно упрощает процесс и позволяет получить более компактные и точные аргументации.
#### Результаты
Исследования проводились на разных данных, включая широкие домены и языковые структуры. Эксперименты показали, что SSPO способен эффективно сжимать рассуждения, уменьшая ненужные сложности и улучшая производительность. Модель показала стабильное снижение ошибок и погрешностей, даже при уменьшении количества шагов рассуждения. Особенно выдающимися результатами проявилась модель в задачах с высоким уровнем сложности и потребности в точности.
#### Значимость
Предлагаемый подход может быть применен в различных сферах, таких как системы рекомендаций, роботов-диалогов и модели дальнейшей научной исследовательской работы. Он не только экономит вычислительные ресурсы, но также улучшает точность и читаемость результатов. Достижения SSPO открывают новые возможности для улучшения моделей думающих систем, что может повлиять на развитие интеллектуальных технологий в целом.
#### Выводы
Результаты SSPO подтверждают, что модель в силу своего нового подхода к оптимизации задач может быть эффективной в более сложных задачах. Будущие исследования будут сфокусированы на её дальнейшем использовании в различных сценариях и расширении применения в связи с новыми технологическими требованиями.
Abstract
Test-time scaling has proven effective in further enhancing the performance
of pretrained Large Language Models (LLMs). However, mainstream post-training
methods (i.e., reinforcement learning (RL) with chain-of-thought (CoT)
reasoning) often incur substantial computational overhead due to auxiliary
models and overthinking. In this paper, we empirically reveal that the
incorrect answers partially stem from verbose reasoning processes lacking
correct self-fix, where errors accumulate across multiple reasoning steps. To
this end, we propose Self-traced Step-wise Preference Optimization (SSPO), a
pluggable RL process supervision framework that enables fine-grained
optimization of each reasoning step. Specifically, SSPO requires neither
auxiliary models nor stepwise manual annotations. Instead, it leverages
step-wise preference signals generated by the model itself to guide the
optimization process for reasoning compression. Experiments demonstrate that
the generated reasoning sequences from SSPO are both accurate and succinct,
effectively mitigating overthinking behaviors without compromising model
performance across diverse domains and languages.
Ссылки и действия
Дополнительные ресурсы: