Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation
2509.15194v1
cs.LG, cs.CL
2025-09-20
Авторы:
Yujun Zhou, Zhenwen Liang, Haolin Liu, Wenhao Yu, Kishan Panaganti, Linfeng Song, Dian Yu, Xiangliang Zhang, Haitao Mi, Dong Yu
Резюме на русском
#### Контекст
Эволюция языковых моделей (LLMs) становится все более важной в свете их широкого применения в реальном мире. Однако существующие методы обучения LLMs часто опираются на руководство от экспертов или внешние оценки. Это требует больших затрат на сбор данных и не позволяет моделям развиваться в автономном режиме. В статье "Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation" авторы адресуют проблему самостоятельного развития LLMs без меток или руководства, что очень важно для их улучшения в автономном режиме и применения в реальном мире. На данный момент, существующие методы, такие как Test-Time Reinforcement Learning (TTRL), лишь адаптируют модели к конкретным данным без меток, но не решают проблему общего улучшения и сохранения разнообразия. Мотивированы тем, чтобы развить модели, которые могут самостоятельно улучшаться, без потери эксплорейшн-компоненты, авторы предлагают новый подход.
#### Метод
Авторы предлагают "EVOLution-Oriented and Label-free Reinforcement Learning" (EVOL-RL), метод, который стабилизирует обучение (через выбор мажоритетных ответов) и поддерживает разнообразие (через новизну ответов). EVOL-RL активно использует не только данные из RLVR-подхода, но и симметричные и асимметричные регуляризаторы, чтобы улучшить обучение. Асимметричное сворачивание вероятностей позволяет сохранить сильные сигналы, а регуляризатор энтропии поддерживает разнообразие в ответах. Этот подход позволяет моделям развиваться без ущерба для разнообразия и избегает "энтропийного развала", когда ответы становятся короткими и менее диверсифицированными. Этот метод имплементируется в контексте Gradient Policy Optimization (GRPO).
#### Результаты
Авторы проводят эксперименты на нескольких датасетах, таких как AIME24 и GPQA, сравнивая EVOL-RL с базовым TTRL. Они показывают, что EVOL-RL не только предотвращает "энтропийный развал", но и повышает качество генерации, увеличивая pass@1 и pass@n. Например, при обучении Qwen3-4B-Base на AIME24, EVOL-RL повышает pass@1 от 4.6% до 16.4%, а pass@16 от 18.5% до 37.9% в сравнении с TTRL. Эти результаты демонстрируют, что EVOL-RL улучшает качество генерации и разнообразие, сохраняя силу исследования моделей. Более того, EVOL-RL показывает свою эффективность не только в самостоятельном обучении, но и в применении к RLVR-подходу, демонстрируя широкую применимость.
#### Значимость
EVOL-RL предлагает новый подход к развитию LLMs без внешних меток, что может быть успешно применен в сценариях, где сбор меток трудоемк и дорогостоящий. Этот подход не только поддерживает разнообразие в ответах, но и улучшает общую ценность моделей в
Abstract
Large language models (LLMs) are increasingly trained with reinforcement
learning from verifiable rewards (RLVR), yet real-world deployment demands
models that can self-improve without labels or external judges. Existing
label-free methods, confidence minimization, self-consistency, or majority-vote
objectives, stabilize learning but steadily shrink exploration, causing an
entropy collapse: generations become shorter, less diverse, and brittle. Unlike
prior approaches such as Test-Time Reinforcement Learning (TTRL), which
primarily adapt models to the immediate unlabeled dataset at hand, our goal is
broader: to enable general improvements without sacrificing the model's
inherent exploration capacity and generalization ability, i.e., evolving. We
formalize this issue and propose EVolution-Oriented and Label-free
Reinforcement Learning (EVOL-RL), a simple rule that couples stability with
variation under a label-free setting. EVOL-RL keeps the majority-voted answer
as a stable anchor (selection) while adding a novelty-aware reward that favors
responses whose reasoning differs from what has already been produced
(variation), measured in semantic space. Implemented with GRPO, EVOL-RL also
uses asymmetric clipping to preserve strong signals and an entropy regularizer
to sustain search. This majority-for-selection + novelty-for-variation design
prevents collapse, maintains longer and more informative chains of thought, and
improves both pass@1 and pass@n. EVOL-RL consistently outperforms the
majority-only TTRL baseline; e.g., training on label-free AIME24 lifts
Qwen3-4B-Base AIME25 pass@1 from TTRL's 4.6% to 16.4%, and pass@16 from 18.5%
to 37.9%. EVOL-RL not only prevents diversity collapse but also unlocks
stronger generalization across domains (e.g., GPQA). Furthermore, we
demonstrate that EVOL-RL also boosts performance in the RLVR setting,
highlighting its broad applicability.
Ссылки и действия
Дополнительные ресурсы: