ETTRL: Balancing Exploration and Exploitation in LLM Test-Time Reinforcement Learning Via Entropy Mechanism

2508.11356v1 cs.LG, cs.AI 2025-08-19
Авторы:

Jia Liu, ChangYi He, YingQiao Lin, MingMin Yang, FeiYang Shen, ShaoGuo Liu, TingTing Gao

Резюме на русском

## Контекст Тест-time reinforcement learning (TTRL) предлагает эффективные способы самооптимизации для моделей языковых моделей (LLM), используя псевдо-меток, сгенерированных самими моделями. Это позволяет моделям самостоятельно совершенствовать свои ответы в процессе работы, не требуя постоянного вмешательства или дополнительных данных. Однако существуют серьезные проблемы, такие как высокий затратный расход ресурсов на вывод и сильное переобучение, которое приводит к ограниченной диверсии ответов и ухудшению качества. Эти ограничения становятся большой преградой для использования TTRL в продвинутых задачах рассуждения, таких как математика и программирование. Именно эти задачи и требуют новых подходов, которые бы сбалансировали эксплорейшн и эксплойтайшн для улучшения результатов. ## Метод Мы предлагаем метод, основанный на механизме энтропии, чтобы решить проблему эффективного баланса между эксплорейшн и эксплойтайшн в TTRL. Основные компоненты нашего подхода: **Entropy-fork Tree Majority Rollout (ETMR)** и **Entropy-based Advantage Reshaping (EAR)**. ETMR позволяет создавать дерево решений, где каждое направление исследования имеет разный уровень энтропии, что уменьшает влияние сильной оценки на раннем этапе. EAR, в свою очередь, адаптирует веса выбора для каждого роллаута, чтобы сохранять разнообразие ответов. Модель LLM (Llama3.1-8B) используется в качестве основы для этих методов. Эти предложенные методы были протестированы на AIME 2024 benchmark, чтобы оценить их эффективность. ## Результаты Результаты экспериментов показывают, что наш метод обеспечивает значительные улучшения в сравнении с базовыми моделями. Так, Llama3.1-8B с нашим подходом показала +68% relative improvement в Pass@1 метрике на AIME 2024 benchmark, при этом используя лишь 60% от обычного бюджета роллаутов. Это показывает, что энтропийный подход существенно улучшает точность вывода, разнообразие ответов и эффективность модели в условиях ограниченных ресурсов. Эти результаты подтверждают нашу методику как эффективное решение для балансировки проблем эксплорейшн и эксплойтайшн в TTRL. ## Значимость Наши исследования могут быть применены в различных областях, где необходима самооптимизация моделей языковых моделей в условиях ограниченных данных. Например, в сфере программирования, математических задач, а также в любых ситуациях, где требуется высокая адаптивность и возможность самостоятельного улучшения. Этот подход также может сыграть ключевую роль в создании более стабильных и надежных моделей, уменьшая риск переобучения и повышая точность ответов. Будущие исследования будут ско

Abstract

Recent advancements in Large Language Models have yielded significant improvements in complex reasoning tasks such as mathematics and programming. However, these models remain heavily dependent on annotated data and exhibit limited adaptability in unsupervised scenarios. To address these limitations, test-time reinforcement learning (TTRL) has been proposed, which enables self-optimization by leveraging model-generated pseudo-labels. Despite its promise, TTRL faces several key challenges, including high inference costs due to parallel rollouts and early-stage estimation bias that fosters overconfidence, reducing output diversity and causing performance plateaus. To address these challenges, we introduce an entropy-based mechanism to enhance the exploration-exploitation balance in test-time reinforcement learning through two strategies: Entropy-fork Tree Majority Rollout (ETMR) and Entropy-based Advantage Reshaping (EAR). Compared with the baseline, our approach enables Llama3.1-8B to achieve a 68 percent relative improvement in Pass at 1 metric on the AIME 2024 benchmark, while consuming only 60 percent of the rollout tokens budget. This highlights our method's ability to effectively optimize the trade-off between inference efficiency, diversity, and estimation robustness, thereby advancing unsupervised reinforcement learning for open-domain reasoning tasks.

Ссылки и действия