Chunks as Arms: Multi-Armed Bandit-Guided Sampling for Long-Context LLM Preference Optimization

2508.13993v1 cs.CL, cs.AI 2025-08-21

Авторы:

Shaohua Duan, Xinze Li, Zhenghao Liu, Xiaoyuan Yi, Yukun Yan, Shuo Wang, Yu Gu, Ge Yu, Maosong Sun

Резюме на русском

## Контекст Long-context modeling является ключевым для решения многих реальных задач, включая длинный-контекстный вопрос-ответ, сводление информации и сложные рассуждения. Несмотря на то, что гигантские языковые модели (LLM) демонстрируют невероятную мощь в обработке коротких контекстов, их эффективность в обработке длинных текстов ограничивается двумя основными проблемами: низкой информативностью и гомогенностью генерируемых данных. Эти проблемы приводят к фактическим неточностям и ограниченной разнообразию ответов. Необходимость развития методов, которые могут эффективно использовать длинные контексты, является мотивацией для этого исследования. ## Метод Мы предлагаем LongMab-PO, рамочный подход, который использует Multi-Armed Bandit (MAB) для оптимального выбора контекстных частей (част) для генерации ответов. MAB-роллаут позволяет решать проблему выбора наиболее перспективных частей контекста для генерации ответов с высоким качеством. Части контекста (част) рассматриваются как "кирпичи", а роллаут MAB позволяет итеративно оценивать их значимость. Мы используем эти выборки для создания преференциальных пар (преференциальных данных) и тренировки модели с помощью Direct Preference Optimization (DPO), чтобы оптимизировать LLM. Этот подход дает возможность эффективно использовать длинные контексты, уменьшая проблемы качества и разнообразия. ## Результаты Мы провели эксперименты на нескольких длинно-контекстных бенчмарках, включая длинные вопрос-ответ, сводление и рассуждения. Результаты показывают, что LongMab-PO значительно улучшает качество и разнообразие преференциальных данных. Это приводит к существенному повышению производительности LLM на длинных контекстах по многим метрикам. Мы также провели анализ, показав, что наш подход значительно превосходит существующие методы в генерации ответов и оптимизации преференций. ## Значимость Предлагаемый подход может быть применен в различных областях, включая длинный-контекстный вопрос-ответ, контекстные сводки и сложные рассуждения. Он позволяет улучшить качество и разнообразие генерируемых ответов, что делает его ценным для реальных задач. Долгосрочные преимущества LongMab-PO заключаются в том, что он может обеспечить более точные и разнообразные ответы, что в свою очередь будет улучшать качество решений в областях, где задействованы LLMs. ## Выводы Мы представили LongMab-PO, новый подход для оптимизации LLMs при работе с длинными контекстами. Наши эксперименты показали, что LongMab-PO значительно улучшает качество и разнообразие преференциальных данных, позволяя LLM работать эффективнее на длинных текстах. Мы

Abstract

Long-context modeling is critical for a wide range of real-world tasks, including long-context question answering, summarization, and complex reasoning tasks. Recent studies have explored fine-tuning Large Language Models (LLMs) with synthetic data to enhance their long-context capabilities. However, the effectiveness of such approaches is often limited by the low diversity and factual inconsistencies in the generated data. To address these challenges, we propose LongMab-PO, a novel framework that leverages a Multi-Armed Bandit (MAB) rollout strategy to identify the most informative chunks from the given long context for sampling high-quality and diverse responses and constructing preference data pairs for Direct Preference Optimization (DPO) training. Specifically, we treat context chunks as arms of MAB, select chunks based on their expected reward scores to input into LLMs to generate responses, and iteratively update these scores based on reward feedback. This exploration and exploitation process enables the model to focus on the most relevant context segments, thereby generating and collecting high-quality and diverse responses. Finally, we collect these generated responses from the rollout process and apply the DPO method to further optimize the LLM. Experimental results show that LongMab-PO significantly improves the diversity and quality of preference data pairs, achieving state-of-the-art performance on long-context reasoning benchmarks. All code and data will be released on https://github.com/NEUIR/LongMab-PO.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Chunks as Arms: Multi-Armed Bandit-Guided Sampling for Long-Context LLM Preference Optimization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация