ETTRL: Balancing Exploration and Exploitation in LLM Test-Time Reinforcement Learning Via Entropy Mechanism
2508.11356v1
cs.LG, cs.AI
2025-08-19
Авторы:
Jia Liu, ChangYi He, YingQiao Lin, MingMin Yang, FeiYang Shen, ShaoGuo Liu, TingTing Gao
Резюме на русском
## Контекст
Тест-time reinforcement learning (TTRL) предлагает эффективные способы самооптимизации для моделей языковых моделей (LLM), используя псевдо-меток, сгенерированных самими моделями. Это позволяет моделям самостоятельно совершенствовать свои ответы в процессе работы, не требуя постоянного вмешательства или дополнительных данных. Однако существуют серьезные проблемы, такие как высокий затратный расход ресурсов на вывод и сильное переобучение, которое приводит к ограниченной диверсии ответов и ухудшению качества. Эти ограничения становятся большой преградой для использования TTRL в продвинутых задачах рассуждения, таких как математика и программирование. Именно эти задачи и требуют новых подходов, которые бы сбалансировали эксплорейшн и эксплойтайшн для улучшения результатов.
## Метод
Мы предлагаем метод, основанный на механизме энтропии, чтобы решить проблему эффективного баланса между эксплорейшн и эксплойтайшн в TTRL. Основные компоненты нашего подхода: **Entropy-fork Tree Majority Rollout (ETMR)** и **Entropy-based Advantage Reshaping (EAR)**. ETMR позволяет создавать дерево решений, где каждое направление исследования имеет разный уровень энтропии, что уменьшает влияние сильной оценки на раннем этапе. EAR, в свою очередь, адаптирует веса выбора для каждого роллаута, чтобы сохранять разнообразие ответов. Модель LLM (Llama3.1-8B) используется в качестве основы для этих методов. Эти предложенные методы были протестированы на AIME 2024 benchmark, чтобы оценить их эффективность.
## Результаты
Результаты экспериментов показывают, что наш метод обеспечивает значительные улучшения в сравнении с базовыми моделями. Так, Llama3.1-8B с нашим подходом показала +68% relative improvement в Pass@1 метрике на AIME 2024 benchmark, при этом используя лишь 60% от обычного бюджета роллаутов. Это показывает, что энтропийный подход существенно улучшает точность вывода, разнообразие ответов и эффективность модели в условиях ограниченных ресурсов. Эти результаты подтверждают нашу методику как эффективное решение для балансировки проблем эксплорейшн и эксплойтайшн в TTRL.
## Значимость
Наши исследования могут быть применены в различных областях, где необходима самооптимизация моделей языковых моделей в условиях ограниченных данных. Например, в сфере программирования, математических задач, а также в любых ситуациях, где требуется высокая адаптивность и возможность самостоятельного улучшения. Этот подход также может сыграть ключевую роль в создании более стабильных и надежных моделей, уменьшая риск переобучения и повышая точность ответов. Будущие исследования будут ско
Abstract
Recent advancements in Large Language Models have yielded significant
improvements in complex reasoning tasks such as mathematics and programming.
However, these models remain heavily dependent on annotated data and exhibit
limited adaptability in unsupervised scenarios. To address these limitations,
test-time reinforcement learning (TTRL) has been proposed, which enables
self-optimization by leveraging model-generated pseudo-labels. Despite its
promise, TTRL faces several key challenges, including high inference costs due
to parallel rollouts and early-stage estimation bias that fosters
overconfidence, reducing output diversity and causing performance plateaus. To
address these challenges, we introduce an entropy-based mechanism to enhance
the exploration-exploitation balance in test-time reinforcement learning
through two strategies: Entropy-fork Tree Majority Rollout (ETMR) and
Entropy-based Advantage Reshaping (EAR). Compared with the baseline, our
approach enables Llama3.1-8B to achieve a 68 percent relative improvement in
Pass at 1 metric on the AIME 2024 benchmark, while consuming only 60 percent of
the rollout tokens budget. This highlights our method's ability to effectively
optimize the trade-off between inference efficiency, diversity, and estimation
robustness, thereby advancing unsupervised reinforcement learning for
open-domain reasoning tasks.
Ссылки и действия
Дополнительные ресурсы: