HF-RAG: Hierarchical Fusion-based RAG with Multiple Sources and Rankers
2509.02837v1
cs.IR, cs.AI
2025-09-05
Авторы:
Payel Santra, Madhusudan Ghosh, Debasis Ganguly, Partha Basuchowdhuri, Sudip Kumar Naskar
Резюме на русском
## Контекст
В последние годы становится все более ясно, что существует множество ситуаций, где необходимо глубокое понимание и анализ крупных объемов текстовых данных. Ретриев-аугментед генерация (RAG), возникшая в этой области, представляет собой мощный подход, который объединяет возможности текстового понимания и генерации в одном фреймворке. Одна из проблем этой области заключается в том, что реализуемый подход часто ограничивается одним источником данных или одним модельным стратегией. Это существенно ограничивает его конкурентоспособность в решении задач в широких областях применения. Наша исследовательская тумана рассчитана на изучение, каким образом можно оптимизировать RAG с использованием нескольких источников и моделей, а также на обеспечение повышенной гибкости и точности результатов.
## Метод
Наше решение, HF-RAG, основывается на ключевой идее, что можно извлечь пользу из разных источников данных (с тэгами и без них), а также из множества ранкингов, чтобы повысить точность и глубину понимания текста. Мы используем технику стандартного фушинга (rank fusion) для слияния результатов от разных IR-моделей для каждого источника. Далее, мы применяем трансформацию z-score для стандартизации распределений скорости в каждом источнике. Это позволяет улучшить сравнение результатов между различными моделями. Наконец, мы объединяем результаты от двух источников (с тэгами и без них), чтобы получить максимальную точность и глубину выводов.
## Результаты
Мы проверили наш подход на задаче факт-верификации, где требуется выявлять значимые выводы на основе информации из различных источников. Мы сравнили результаты HF-RAG с отдельными моделями и ранкингами, а также с другими подходами. Наши результаты показали, что HF-RAG постоянно превосходит лучший отдельный ранкинг или источник. Более того, он демонстрирует значительную выгоду в области общей обработки текста, где требуется гибкость и точность в работе с разными типами данных.
## Значимость
Наш предложенный подход может применяться в различных областях, где необходима точная интерпретация текстовых данных, таких как моделирование языка, обработка новых образовательных текстов, а также системы поддержки решений в сложных ситуациях. Он предлагает выгоду в своих гибкости и способности объединять различные источники информации, что позволяет получить более валидные и точные выводы. Это может привести к улучшению производительности и точности алгоритмов в более широком контексте применения.
## Выводы
HF-RAG демонстрирует, что комбинация различных источников данных и ранкингов мо
Abstract
Leveraging both labeled (input-output associations) and unlabeled data (wider
contextual grounding) may provide complementary benefits in retrieval augmented
generation (RAG). However, effectively combining evidence from these
heterogeneous sources is challenging as the respective similarity scores are
not inter-comparable. Additionally, aggregating beliefs from the outputs of
multiple rankers can improve the effectiveness of RAG. Our proposed method
first aggregates the top-documents from a number of IR models using a standard
rank fusion technique for each source (labeled and unlabeled). Next, we
standardize the retrieval score distributions within each source by applying
z-score transformation before merging the top-retrieved documents from the two
sources. We evaluate our approach on the fact verification task, demonstrating
that it consistently improves over the best-performing individual ranker or
source and also shows better out-of-domain generalization.
Ссылки и действия
Дополнительные ресурсы: