Decomposed Reasoning with Reinforcement Learning for Relevance Assessment in UGC Platforms
2508.02506v1
cs.IR, cs.AI
2025-08-09
Авторы:
Xiaowei Yuan, Lei Jin, Haoxin Zhang, Yan Gao, Yi Wu, Yao Hu, Ziyang Huang, Jun Zhao, Kang Liu
Резюме на русском
В современных UGC-платформах, где используется объединение восстановления и генерации (RAG) для поиска, точность анализа взаимосвязи запроса и документа является ключевым фактором успешной работы. Однако существуют две основные проблемы: неполный пользовательский отзыв и значительное количество шума в неструктурированных данных. Для решения этих задач предложен модельный подход Reinforced Reasoning Model for Relevance Assessment (R3A), который представляет собой разделенное обучение с подкреплением для достижения более точной оценки соответствия. R3A использует высокоспорядные документы для интерпретации потенциального пользовательского запроса и экстракции связанных фрагментов для подтверждения релевантности. Этот подход уменьшает ошибки, вызванные непонятностью и неструктурированностью данных. Исследовательские эксперименты показали, что R3A превосходит другие модели по метрикам релевантности в оффлайн- и онлайн-тестировании.
Abstract
Retrieval-augmented generation (RAG) plays a critical role in user-generated
content (UGC) platforms, but its effectiveness depends heavily on accurate
relevance assessment of query-document pairs. Despite recent advances in
applying large language models (LLMs) to relevance modeling, UGC platforms
present unique challenges: 1) ambiguous user intent due to sparse user feedback
in RAG scenarios, and 2) substantial noise introduced by informal and
unstructured language. To address these issues, we propose the Reinforced
Reasoning Model for Relevance Assessment (R3A), which introduces a decomposed
reasoning framework over queries and candidate documents before scoring. R3A
first leverages auxiliary high-ranked documents within the platform to infer
latent query intent. It then performs verbatim fragment extraction to justify
relevance decisions, thereby reducing errors caused by noisy UGC. Based on a
reinforcement learning framework, R3A is optimized to mitigate distortions
arising from ambiguous queries and unstructured content. Experimental results
show that R3A significantly outperforms existing baseline methods in terms of
relevance accuracy, across both offline benchmarks and online experiments.
Ссылки и действия
Дополнительные ресурсы: