When Greedy Wins: Emergent Exploitation Bias in Meta-Bandit LLM Training
2509.24923v1
cs.LG, cs.AI, cs.CL
2025-10-01
Авторы:
Sanxing Chen, Xiaoyin Chen, Yukun Huang, Roy Xie, Bhuwan Dhingra
Резюме на русском
## Контекст
Увеличение возможностей Large Language Models (LLMs) в системах автономного принятия решений является актуальной и сложной задачей. Несмотря на их значительные достижения в обработке естественного языка, эти модели часто испытывают проблемы при построении эффективных стратегий исследования в процессе последовательного принятия решений. Особенно это заметно в задачах, похожих на многорукий бандит (multi-armed bandit). Ранее предложенные подходы, такие как настройка супервизором (supervised fine-tuning, SFT) или обучение с подкреплением (reinforcement learning, RL), не полностью удаляют эти проблемы. Наша мотивация заключается в достижении более эффективных стратегий исследования и понимании, как они влияют на поведение моделей в различных условиях.
## Метод
Мы использовали два основных подхода для улучшения стратегии исследования в LLMs: настройка супервизором (SFT) и RL. Для SFT мы обучали модели на основе последовательностей действий, обнаруженных экспертом. Для RL использовались различные виды наград, включая стратегические награды, снижающие дисперсию, и алгоритмические награды, воспроизводящие стратегии профессиональных экспертов. Мы сравнивали эти подходы с традиционными методами, такими как Upper Confidence Bound (UCB) и Thompson Sampling. Для экспериментов использовались синтетические и реальные данные, а результаты были оценены по критериям, таким как средняя награда, достигнутая диапазон действий и генерализация в условиях более длительных хронологических интервалов.
## Результаты
Наши эксперименты показали, что SFT и RL могут значительно улучшить производительность LLMs в задаче многорукий бандит. Например, модели, обученные с помощью RL, достигли высокой точности в сценариях с гораздо дольшей хронологической длительностью. Однако наш анализ поведения показал, что оба подхода могут привести к сильному увеличению проблем со стороны эксплоритации: модели часто прекращают раннее исследование и склонны к катастрофическим ошибкам. Мы также выявили, что модели, обученные клонировать стратегии UCB, могут превосходить их во время исполнения, используя более агрессивные стратегии исследования.
## Значимость
Наши результаты показывают, что обучение моделей с помощью SFT и RL может быть полезно в различных сценариях, включая приложения в области рекомендаций, смс-маркетинга и других задачах последовательного принятия решений. Однако результаты также подчеркивают необходимость в развитии более стратегичных систем награждения и оценки, чтобы сбалансировать эксплорацию и эксплоитацию. Наши находки могут помочь в будущих исследованиях, направленных на создание более устойчивых и эффектив
Abstract
While Large Language Models (LLMs) hold promise to become autonomous agents,
they often explore suboptimally in sequential decision-making. Recent work has
sought to enhance this capability via supervised fine-tuning (SFT) or
reinforcement learning (RL), improving regret on the classic multi-armed bandit
task. However, it remains unclear how these learning methods shape exploration
strategies and how well they generalize. We investigate both paradigms by
training LLMs with SFT on expert trajectories and RL with a range of tailored
reward signals including a strategic, regret-shaped reward to reduce variance,
and an algorithmic reward that enables oracle imitation. The resulting agents
outperform pre-trained models and achieve performance comparable to Upper
Confidence Bound (UCB) and Thompson Sampling, with robust generalization to 6x
longer horizons and across bandit families. Behavioral analysis reveals that
gains often stem from more sophisticated but greedier exploitation: RL/SFT
agents are more prone to early catastrophic failure than pre-trained models,
prematurely abandoning exploration. Furthermore, agents trained to imitate UCB
learn to outperform their teacher by adopting more exploitative variants. Our
findings clarify when each training paradigm is preferable and advocate
tailored reward design and evaluation beyond average regret to promote robust
exploratory behavior.
Ссылки и действия
Дополнительные ресурсы: