When Greedy Wins: Emergent Exploitation Bias in Meta-Bandit LLM Training

2509.24923v1 cs.LG, cs.AI, cs.CL 2025-10-01
Авторы:

Sanxing Chen, Xiaoyin Chen, Yukun Huang, Roy Xie, Bhuwan Dhingra

Резюме на русском

## Контекст Увеличение возможностей Large Language Models (LLMs) в системах автономного принятия решений является актуальной и сложной задачей. Несмотря на их значительные достижения в обработке естественного языка, эти модели часто испытывают проблемы при построении эффективных стратегий исследования в процессе последовательного принятия решений. Особенно это заметно в задачах, похожих на многорукий бандит (multi-armed bandit). Ранее предложенные подходы, такие как настройка супервизором (supervised fine-tuning, SFT) или обучение с подкреплением (reinforcement learning, RL), не полностью удаляют эти проблемы. Наша мотивация заключается в достижении более эффективных стратегий исследования и понимании, как они влияют на поведение моделей в различных условиях. ## Метод Мы использовали два основных подхода для улучшения стратегии исследования в LLMs: настройка супервизором (SFT) и RL. Для SFT мы обучали модели на основе последовательностей действий, обнаруженных экспертом. Для RL использовались различные виды наград, включая стратегические награды, снижающие дисперсию, и алгоритмические награды, воспроизводящие стратегии профессиональных экспертов. Мы сравнивали эти подходы с традиционными методами, такими как Upper Confidence Bound (UCB) и Thompson Sampling. Для экспериментов использовались синтетические и реальные данные, а результаты были оценены по критериям, таким как средняя награда, достигнутая диапазон действий и генерализация в условиях более длительных хронологических интервалов. ## Результаты Наши эксперименты показали, что SFT и RL могут значительно улучшить производительность LLMs в задаче многорукий бандит. Например, модели, обученные с помощью RL, достигли высокой точности в сценариях с гораздо дольшей хронологической длительностью. Однако наш анализ поведения показал, что оба подхода могут привести к сильному увеличению проблем со стороны эксплоритации: модели часто прекращают раннее исследование и склонны к катастрофическим ошибкам. Мы также выявили, что модели, обученные клонировать стратегии UCB, могут превосходить их во время исполнения, используя более агрессивные стратегии исследования. ## Значимость Наши результаты показывают, что обучение моделей с помощью SFT и RL может быть полезно в различных сценариях, включая приложения в области рекомендаций, смс-маркетинга и других задачах последовательного принятия решений. Однако результаты также подчеркивают необходимость в развитии более стратегичных систем награждения и оценки, чтобы сбалансировать эксплорацию и эксплоитацию. Наши находки могут помочь в будущих исследованиях, направленных на создание более устойчивых и эффектив

Abstract

While Large Language Models (LLMs) hold promise to become autonomous agents, they often explore suboptimally in sequential decision-making. Recent work has sought to enhance this capability via supervised fine-tuning (SFT) or reinforcement learning (RL), improving regret on the classic multi-armed bandit task. However, it remains unclear how these learning methods shape exploration strategies and how well they generalize. We investigate both paradigms by training LLMs with SFT on expert trajectories and RL with a range of tailored reward signals including a strategic, regret-shaped reward to reduce variance, and an algorithmic reward that enables oracle imitation. The resulting agents outperform pre-trained models and achieve performance comparable to Upper Confidence Bound (UCB) and Thompson Sampling, with robust generalization to 6x longer horizons and across bandit families. Behavioral analysis reveals that gains often stem from more sophisticated but greedier exploitation: RL/SFT agents are more prone to early catastrophic failure than pre-trained models, prematurely abandoning exploration. Furthermore, agents trained to imitate UCB learn to outperform their teacher by adopting more exploitative variants. Our findings clarify when each training paradigm is preferable and advocate tailored reward design and evaluation beyond average regret to promote robust exploratory behavior.

Ссылки и действия