Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation

2509.15194v1 cs.LG, cs.CL 2025-09-20
Авторы:

Yujun Zhou, Zhenwen Liang, Haolin Liu, Wenhao Yu, Kishan Panaganti, Linfeng Song, Dian Yu, Xiangliang Zhang, Haitao Mi, Dong Yu

Резюме на русском

#### Контекст Эволюция языковых моделей (LLMs) становится все более важной в свете их широкого применения в реальном мире. Однако существующие методы обучения LLMs часто опираются на руководство от экспертов или внешние оценки. Это требует больших затрат на сбор данных и не позволяет моделям развиваться в автономном режиме. В статье "Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation" авторы адресуют проблему самостоятельного развития LLMs без меток или руководства, что очень важно для их улучшения в автономном режиме и применения в реальном мире. На данный момент, существующие методы, такие как Test-Time Reinforcement Learning (TTRL), лишь адаптируют модели к конкретным данным без меток, но не решают проблему общего улучшения и сохранения разнообразия. Мотивированы тем, чтобы развить модели, которые могут самостоятельно улучшаться, без потери эксплорейшн-компоненты, авторы предлагают новый подход. #### Метод Авторы предлагают "EVOLution-Oriented and Label-free Reinforcement Learning" (EVOL-RL), метод, который стабилизирует обучение (через выбор мажоритетных ответов) и поддерживает разнообразие (через новизну ответов). EVOL-RL активно использует не только данные из RLVR-подхода, но и симметричные и асимметричные регуляризаторы, чтобы улучшить обучение. Асимметричное сворачивание вероятностей позволяет сохранить сильные сигналы, а регуляризатор энтропии поддерживает разнообразие в ответах. Этот подход позволяет моделям развиваться без ущерба для разнообразия и избегает "энтропийного развала", когда ответы становятся короткими и менее диверсифицированными. Этот метод имплементируется в контексте Gradient Policy Optimization (GRPO). #### Результаты Авторы проводят эксперименты на нескольких датасетах, таких как AIME24 и GPQA, сравнивая EVOL-RL с базовым TTRL. Они показывают, что EVOL-RL не только предотвращает "энтропийный развал", но и повышает качество генерации, увеличивая pass@1 и pass@n. Например, при обучении Qwen3-4B-Base на AIME24, EVOL-RL повышает pass@1 от 4.6% до 16.4%, а pass@16 от 18.5% до 37.9% в сравнении с TTRL. Эти результаты демонстрируют, что EVOL-RL улучшает качество генерации и разнообразие, сохраняя силу исследования моделей. Более того, EVOL-RL показывает свою эффективность не только в самостоятельном обучении, но и в применении к RLVR-подходу, демонстрируя широкую применимость. #### Значимость EVOL-RL предлагает новый подход к развитию LLMs без внешних меток, что может быть успешно применен в сценариях, где сбор меток трудоемк и дорогостоящий. Этот подход не только поддерживает разнообразие в ответах, но и улучшает общую ценность моделей в

Abstract

Large language models (LLMs) are increasingly trained with reinforcement learning from verifiable rewards (RLVR), yet real-world deployment demands models that can self-improve without labels or external judges. Existing label-free methods, confidence minimization, self-consistency, or majority-vote objectives, stabilize learning but steadily shrink exploration, causing an entropy collapse: generations become shorter, less diverse, and brittle. Unlike prior approaches such as Test-Time Reinforcement Learning (TTRL), which primarily adapt models to the immediate unlabeled dataset at hand, our goal is broader: to enable general improvements without sacrificing the model's inherent exploration capacity and generalization ability, i.e., evolving. We formalize this issue and propose EVolution-Oriented and Label-free Reinforcement Learning (EVOL-RL), a simple rule that couples stability with variation under a label-free setting. EVOL-RL keeps the majority-voted answer as a stable anchor (selection) while adding a novelty-aware reward that favors responses whose reasoning differs from what has already been produced (variation), measured in semantic space. Implemented with GRPO, EVOL-RL also uses asymmetric clipping to preserve strong signals and an entropy regularizer to sustain search. This majority-for-selection + novelty-for-variation design prevents collapse, maintains longer and more informative chains of thought, and improves both pass@1 and pass@n. EVOL-RL consistently outperforms the majority-only TTRL baseline; e.g., training on label-free AIME24 lifts Qwen3-4B-Base AIME25 pass@1 from TTRL's 4.6% to 16.4%, and pass@16 from 18.5% to 37.9%. EVOL-RL not only prevents diversity collapse but also unlocks stronger generalization across domains (e.g., GPQA). Furthermore, we demonstrate that EVOL-RL also boosts performance in the RLVR setting, highlighting its broad applicability.

Ссылки и действия