Rethinking Entropy Regularization in Large Reasoning Models

2509.25133v1 cs.LG, cs.AI, cs.CL 2025-10-01
Авторы:

Yuxian Jiang, Yafu Li, Guanxu Chen, Dongrui Liu, Yu Cheng, Jing Shao

Резюме на русском

#### Контекст Повышение мощности и эффективности ло LRM-ами (Large Reasoning Models) является текущим направлением в искусственном интеллекте. Одной из ключевых задач в этой области является повышение разума LRM-ами через интроспекционный подход, который позволяет моделям стабильно и действительно повышать свои возможности. Реинфорсмент с верификацией наград (RLVR) является одним из таких подходов, который позволяет моделям решать сложные задачи, но сталкивается с проблемами, такими как задержки и коллапс энтропии. Эти проблемы приводят к нестабильности обучения и ухудшению качества ответов. Наше исследование направлено на изучение этих проблем и разработку эффективных методов для их решения. #### Метод Для устранения проблемы коллапса энтропии в RLVR мы предлагаем метод SIREN (SelectIve entRropy rEgularizatioN). SIREN отличается двумя основными инновационными аспектами: **топо-п маском** и **пиковой энтропией**. Топо-п маска позволяет ограничить энтропию только в определенном диапазоне активных действий, а пиковая энтропия добирает наиболее важные состояния и действия. Также мы предлагаем преобразовать регуляризацию в самозацепляющую форму, чтобы сделать обучение более стабильным. Эти методы учитывают особенности LRM, включая огромное пространство действий и длинные траектории, которые обычно вызывают задержки энтропии. #### Результаты Мы провели эксперименты с пятью различными математическими бенчмарками, включая AIME24/25, на LRM Qwen2.5-Math-7B. Результаты показали, что SIREN значительно превосходит другие методы регуляризации энтропии в RLVR. Например, SIREN повысил maj@k на +6.6 сравниваясь с традиционными подходами. Также SIREN сохраняет более высокий уровень диверсии ответов и позволяет LRM удерживать необходимый уровень энтропии, чтобы предотвратить преждевременную конвергенцию. Эти результаты доказывают эффективность SIREN в решении проблем энтропии и улучшении качества ответов LRM-ами. #### Значимость Метод SIREN может быть применен в различных областях, где требуется повышать мощность моделей моделей моделей, в том числе в робототехнике, диагностике и системах рекомендаций. Кроме того, SIREN показывает преимущество в своей способности удерживать баланс между энтропией и точностью, что не только повышает качество ответов, но и снижает риск преждевременной конвергенции. Это может открыть новые возможности для более эффективного использования LRM-ами в различных приложениях. #### Выводы Мы представили SIREN — метод, который значительно повышает качество ответов LRM-ами, реша

Abstract

Reinforcement learning with verifiable rewards (RLVR) has shown great promise in enhancing the reasoning abilities of large reasoning models (LRMs). However, it suffers from a critical issue: entropy collapse and premature convergence. Naive entropy regularization, a common approach for encouraging exploration in the traditional RL literature, fails to address this problem in the context of LRM. Our analysis reveals that this failure stems from the vast action space and long trajectories in LRMs, which easily trigger a global entropy explosion as the model indiscriminately explores all possible actions and states. To address this, we propose SIREN (SelectIve entRopy rEgularizatioN), a method that confines exploration to a meaningful subset of actions and states. SIREN achieves this through a two-step entropy masking mechanism, consisting of a top-p mask and a peak-entropy mask. In addition, regularization is transformed into a self-anchored form to stabilize training. Across five mathematical benchmarks, SIREN attains superior average performance over previous entropy-related RLVR approaches, exemplified by a +6.6 maj@k improvement on AIME24/25 with Qwen2.5-Math-7B. Further analysis confirms that SIREN promotes greater response diversity and maintains entropy at an appropriate level, which helps to preserve the validation pass@k throughout training. This effectively mitigates the premature convergence problem common in RLVR for LRM.

Ссылки и действия