Domain-Aware RAG: MoL-Enhanced RL for Efficient Training and Scalable Retrieval

2509.06650v1 cs.CL, cs.IR 2025-09-10
Авторы:

Hao Lin, Peitong Xie, Jingxue Chen, Jie Lin, Qingkun Tang, Qianchun Lu

Резюме на русском

## Контекст Одна из главных проблем в области Retrieval-Augmented Generation (RAG) — это неэффективность coarse-ranking процесса в цепочке отбора информации. Большинство существующих подходов стремятся улучшить этот процесс, но часто сталкиваются с проблемами баланса между обучением domain-specific knowledge и улучшением запросов. Это приводит к ухудшению результатов во время комплексного обучения. Недостаточное внимание к domain-aware методам приводит к ограниченной эффективности RAG-систем в специализированных сферах. Этот факт подчеркивает необходимость развития методов, которые могут эффективно обучаться в конкретных областях и сочетать эти навыки с широким языковым репертуаром. ## Метод Мы предлагаем MoLER — метод, основанный на MoL-Enhanced Reinforcement Learning, который адресует сложности coarse-ranking в RAG-системах. Метод MoLER работает в двух этапах: Continuous Pre-training (CPT) и Reinforcement Learning (RL). В первом этапе, используя Mixture of Losses (MoL), мы добиваемся баланса между обучением domain-specific и общим языковым репортажем. Во втором этапе, Group Relative Policy Optimization (GRPO) используется для оптимизации запроса и пассажа для максимального достижения document recall. Мы также предлагаем Multi-query Single-passage Late Fusion (MSLF), чтобы снизить производительность RL-обучения, и Multi-query Multi-passage Late Fusion (MMLF) для оптимизации scalable inference. ## Результаты Мы провели тщательные эксперименты на известных benchmark-датасетах, сравнив MoLER с другими state-of-the-art RAG-системами. Результаты показывают, что MoLER показывает значительные улучшения в document recall и overall performance. Наше решение показывает эффективность в специализированных областях, сравнительно лучше позиционируясь в области domain-aware RAG. Мы также проводили анализ стоимости и выявили, что MSLF позволяет значительно снизить расходы на RL-обучение, не теряя в эффективности. ## Значимость Предложенный подход имеет широкие возможности применения в таких областях, как поисковые системы, биоинформатика, диагностика и сфера обработки специализированных данных. Метод MoLER привносит значительные преимущества по сравнению с традиционными RAG-системами, включая улучшенную скорость работы, более точный document recall и уменьшенную стоимость обучения. Это может стать ключевым моментом для повышения производительности и эффективности в различных специализированных сферах. ## Выводы Мы привносили MoLER — мощный domain-aware RAG с методом MoL-Enhanced Reinforcement Learning, который эффективно решает проблемы coarse-ranking. Мы успешно достигли state-of-the-art результатов в benchmark-датасетах и открыли пути для будущих исследований в области domain-aware RAG. Наше развитие возможности ML-систем в специализированных областях может стать ключевым фактором улучшения общей эффективности и стоимости в области Retrieval-Augmented Generation.

Abstract

Retrieval-Augmented Generation (RAG) systems rely heavily on the retrieval stage, particularly the coarse-ranking process. Existing coarse-ranking optimization approaches often struggle to balance domain-specific knowledge learning with query enhencement, resulting in suboptimal retrieval performance. To address this challenge, we propose MoLER, a domain-aware RAG method that uses MoL-Enhanced Reinforcement Learning to optimize retrieval. MoLER has a two-stage pipeline: a continual pre-training (CPT) phase using a Mixture of Losses (MoL) to balance domain-specific knowledge with general language capabilities, and a reinforcement learning (RL) phase leveraging Group Relative Policy Optimization (GRPO) to optimize query and passage generation for maximizing document recall. A key innovation is our Multi-query Single-passage Late Fusion (MSLF) strategy, which reduces computational overhead during RL training while maintaining scalable inference via Multi-query Multi-passage Late Fusion (MMLF). Extensive experiments on benchmark datasets show that MoLER achieves state-of-the-art performance, significantly outperforming baseline methods. MoLER bridges the knowledge gap in RAG systems, enabling robust and scalable retrieval in specialized domains.

Ссылки и действия