Chunks as Arms: Multi-Armed Bandit-Guided Sampling for Long-Context LLM Preference Optimization
2508.13993v1
cs.CL, cs.AI
2025-08-21
Авторы:
Shaohua Duan, Xinze Li, Zhenghao Liu, Xiaoyuan Yi, Yukun Yan, Shuo Wang, Yu Gu, Ge Yu, Maosong Sun
Резюме на русском
## Контекст
Long-context modeling является ключевым для решения многих реальных задач, включая длинный-контекстный вопрос-ответ, сводление информации и сложные рассуждения. Несмотря на то, что гигантские языковые модели (LLM) демонстрируют невероятную мощь в обработке коротких контекстов, их эффективность в обработке длинных текстов ограничивается двумя основными проблемами: низкой информативностью и гомогенностью генерируемых данных. Эти проблемы приводят к фактическим неточностям и ограниченной разнообразию ответов. Необходимость развития методов, которые могут эффективно использовать длинные контексты, является мотивацией для этого исследования.
## Метод
Мы предлагаем LongMab-PO, рамочный подход, который использует Multi-Armed Bandit (MAB) для оптимального выбора контекстных частей (част) для генерации ответов. MAB-роллаут позволяет решать проблему выбора наиболее перспективных частей контекста для генерации ответов с высоким качеством. Части контекста (част) рассматриваются как "кирпичи", а роллаут MAB позволяет итеративно оценивать их значимость. Мы используем эти выборки для создания преференциальных пар (преференциальных данных) и тренировки модели с помощью Direct Preference Optimization (DPO), чтобы оптимизировать LLM. Этот подход дает возможность эффективно использовать длинные контексты, уменьшая проблемы качества и разнообразия.
## Результаты
Мы провели эксперименты на нескольких длинно-контекстных бенчмарках, включая длинные вопрос-ответ, сводление и рассуждения. Результаты показывают, что LongMab-PO значительно улучшает качество и разнообразие преференциальных данных. Это приводит к существенному повышению производительности LLM на длинных контекстах по многим метрикам. Мы также провели анализ, показав, что наш подход значительно превосходит существующие методы в генерации ответов и оптимизации преференций.
## Значимость
Предлагаемый подход может быть применен в различных областях, включая длинный-контекстный вопрос-ответ, контекстные сводки и сложные рассуждения. Он позволяет улучшить качество и разнообразие генерируемых ответов, что делает его ценным для реальных задач. Долгосрочные преимущества LongMab-PO заключаются в том, что он может обеспечить более точные и разнообразные ответы, что в свою очередь будет улучшать качество решений в областях, где задействованы LLMs.
## Выводы
Мы представили LongMab-PO, новый подход для оптимизации LLMs при работе с длинными контекстами. Наши эксперименты показали, что LongMab-PO значительно улучшает качество и разнообразие преференциальных данных, позволяя LLM работать эффективнее на длинных текстах. Мы
Abstract
Long-context modeling is critical for a wide range of real-world tasks,
including long-context question answering, summarization, and complex reasoning
tasks. Recent studies have explored fine-tuning Large Language Models (LLMs)
with synthetic data to enhance their long-context capabilities. However, the
effectiveness of such approaches is often limited by the low diversity and
factual inconsistencies in the generated data. To address these challenges, we
propose LongMab-PO, a novel framework that leverages a Multi-Armed Bandit (MAB)
rollout strategy to identify the most informative chunks from the given long
context for sampling high-quality and diverse responses and constructing
preference data pairs for Direct Preference Optimization (DPO) training.
Specifically, we treat context chunks as arms of MAB, select chunks based on
their expected reward scores to input into LLMs to generate responses, and
iteratively update these scores based on reward feedback. This exploration and
exploitation process enables the model to focus on the most relevant context
segments, thereby generating and collecting high-quality and diverse responses.
Finally, we collect these generated responses from the rollout process and
apply the DPO method to further optimize the LLM. Experimental results show
that LongMab-PO significantly improves the diversity and quality of preference
data pairs, achieving state-of-the-art performance on long-context reasoning
benchmarks. All code and data will be released on
https://github.com/NEUIR/LongMab-PO.
Ссылки и действия
Дополнительные ресурсы: