HF-RAG: Hierarchical Fusion-based RAG with Multiple Sources and Rankers

2509.02837v1 cs.IR, cs.AI 2025-09-05
Авторы:

Payel Santra, Madhusudan Ghosh, Debasis Ganguly, Partha Basuchowdhuri, Sudip Kumar Naskar

Резюме на русском

## Контекст В последние годы становится все более ясно, что существует множество ситуаций, где необходимо глубокое понимание и анализ крупных объемов текстовых данных. Ретриев-аугментед генерация (RAG), возникшая в этой области, представляет собой мощный подход, который объединяет возможности текстового понимания и генерации в одном фреймворке. Одна из проблем этой области заключается в том, что реализуемый подход часто ограничивается одним источником данных или одним модельным стратегией. Это существенно ограничивает его конкурентоспособность в решении задач в широких областях применения. Наша исследовательская тумана рассчитана на изучение, каким образом можно оптимизировать RAG с использованием нескольких источников и моделей, а также на обеспечение повышенной гибкости и точности результатов. ## Метод Наше решение, HF-RAG, основывается на ключевой идее, что можно извлечь пользу из разных источников данных (с тэгами и без них), а также из множества ранкингов, чтобы повысить точность и глубину понимания текста. Мы используем технику стандартного фушинга (rank fusion) для слияния результатов от разных IR-моделей для каждого источника. Далее, мы применяем трансформацию z-score для стандартизации распределений скорости в каждом источнике. Это позволяет улучшить сравнение результатов между различными моделями. Наконец, мы объединяем результаты от двух источников (с тэгами и без них), чтобы получить максимальную точность и глубину выводов. ## Результаты Мы проверили наш подход на задаче факт-верификации, где требуется выявлять значимые выводы на основе информации из различных источников. Мы сравнили результаты HF-RAG с отдельными моделями и ранкингами, а также с другими подходами. Наши результаты показали, что HF-RAG постоянно превосходит лучший отдельный ранкинг или источник. Более того, он демонстрирует значительную выгоду в области общей обработки текста, где требуется гибкость и точность в работе с разными типами данных. ## Значимость Наш предложенный подход может применяться в различных областях, где необходима точная интерпретация текстовых данных, таких как моделирование языка, обработка новых образовательных текстов, а также системы поддержки решений в сложных ситуациях. Он предлагает выгоду в своих гибкости и способности объединять различные источники информации, что позволяет получить более валидные и точные выводы. Это может привести к улучшению производительности и точности алгоритмов в более широком контексте применения. ## Выводы HF-RAG демонстрирует, что комбинация различных источников данных и ранкингов мо

Abstract

Leveraging both labeled (input-output associations) and unlabeled data (wider contextual grounding) may provide complementary benefits in retrieval augmented generation (RAG). However, effectively combining evidence from these heterogeneous sources is challenging as the respective similarity scores are not inter-comparable. Additionally, aggregating beliefs from the outputs of multiple rankers can improve the effectiveness of RAG. Our proposed method first aggregates the top-documents from a number of IR models using a standard rank fusion technique for each source (labeled and unlabeled). Next, we standardize the retrieval score distributions within each source by applying z-score transformation before merging the top-retrieved documents from the two sources. We evaluate our approach on the fact verification task, demonstrating that it consistently improves over the best-performing individual ranker or source and also shows better out-of-domain generalization.

Ссылки и действия