Domain-Aware RAG: MoL-Enhanced RL for Efficient Training and Scalable Retrieval
2509.06650v1
cs.CL, cs.IR
2025-09-10
Авторы:
Hao Lin, Peitong Xie, Jingxue Chen, Jie Lin, Qingkun Tang, Qianchun Lu
Резюме на русском
## Контекст
Одна из главных проблем в области Retrieval-Augmented Generation (RAG) — это неэффективность coarse-ranking процесса в цепочке отбора информации. Большинство существующих подходов стремятся улучшить этот процесс, но часто сталкиваются с проблемами баланса между обучением domain-specific knowledge и улучшением запросов. Это приводит к ухудшению результатов во время комплексного обучения. Недостаточное внимание к domain-aware методам приводит к ограниченной эффективности RAG-систем в специализированных сферах. Этот факт подчеркивает необходимость развития методов, которые могут эффективно обучаться в конкретных областях и сочетать эти навыки с широким языковым репертуаром.
## Метод
Мы предлагаем MoLER — метод, основанный на MoL-Enhanced Reinforcement Learning, который адресует сложности coarse-ranking в RAG-системах. Метод MoLER работает в двух этапах: Continuous Pre-training (CPT) и Reinforcement Learning (RL). В первом этапе, используя Mixture of Losses (MoL), мы добиваемся баланса между обучением domain-specific и общим языковым репортажем. Во втором этапе, Group Relative Policy Optimization (GRPO) используется для оптимизации запроса и пассажа для максимального достижения document recall. Мы также предлагаем Multi-query Single-passage Late Fusion (MSLF), чтобы снизить производительность RL-обучения, и Multi-query Multi-passage Late Fusion (MMLF) для оптимизации scalable inference.
## Результаты
Мы провели тщательные эксперименты на известных benchmark-датасетах, сравнив MoLER с другими state-of-the-art RAG-системами. Результаты показывают, что MoLER показывает значительные улучшения в document recall и overall performance. Наше решение показывает эффективность в специализированных областях, сравнительно лучше позиционируясь в области domain-aware RAG. Мы также проводили анализ стоимости и выявили, что MSLF позволяет значительно снизить расходы на RL-обучение, не теряя в эффективности.
## Значимость
Предложенный подход имеет широкие возможности применения в таких областях, как поисковые системы, биоинформатика, диагностика и сфера обработки специализированных данных. Метод MoLER привносит значительные преимущества по сравнению с традиционными RAG-системами, включая улучшенную скорость работы, более точный document recall и уменьшенную стоимость обучения. Это может стать ключевым моментом для повышения производительности и эффективности в различных специализированных сферах.
## Выводы
Мы привносили MoLER — мощный domain-aware RAG с методом MoL-Enhanced Reinforcement Learning, который эффективно решает проблемы coarse-ranking. Мы успешно достигли state-of-the-art результатов в benchmark-датасетах и открыли пути для будущих исследований в области domain-aware RAG. Наше развитие возможности ML-систем в специализированных областях может стать ключевым фактором улучшения общей эффективности и стоимости в области Retrieval-Augmented Generation.
Abstract
Retrieval-Augmented Generation (RAG) systems rely heavily on the retrieval
stage, particularly the coarse-ranking process. Existing coarse-ranking
optimization approaches often struggle to balance domain-specific knowledge
learning with query enhencement, resulting in suboptimal retrieval performance.
To address this challenge, we propose MoLER, a domain-aware RAG method that
uses MoL-Enhanced Reinforcement Learning to optimize retrieval. MoLER has a
two-stage pipeline: a continual pre-training (CPT) phase using a Mixture of
Losses (MoL) to balance domain-specific knowledge with general language
capabilities, and a reinforcement learning (RL) phase leveraging Group Relative
Policy Optimization (GRPO) to optimize query and passage generation for
maximizing document recall. A key innovation is our Multi-query Single-passage
Late Fusion (MSLF) strategy, which reduces computational overhead during RL
training while maintaining scalable inference via Multi-query Multi-passage
Late Fusion (MMLF). Extensive experiments on benchmark datasets show that MoLER
achieves state-of-the-art performance, significantly outperforming baseline
methods. MoLER bridges the knowledge gap in RAG systems, enabling robust and
scalable retrieval in specialized domains.
Ссылки и действия
Дополнительные ресурсы: