Decomposed Reasoning with Reinforcement Learning for Relevance Assessment in UGC Platforms

2508.02506v1 cs.IR, cs.AI 2025-08-09
Авторы:

Xiaowei Yuan, Lei Jin, Haoxin Zhang, Yan Gao, Yi Wu, Yao Hu, Ziyang Huang, Jun Zhao, Kang Liu

Резюме на русском

В современных UGC-платформах, где используется объединение восстановления и генерации (RAG) для поиска, точность анализа взаимосвязи запроса и документа является ключевым фактором успешной работы. Однако существуют две основные проблемы: неполный пользовательский отзыв и значительное количество шума в неструктурированных данных. Для решения этих задач предложен модельный подход Reinforced Reasoning Model for Relevance Assessment (R3A), который представляет собой разделенное обучение с подкреплением для достижения более точной оценки соответствия. R3A использует высокоспорядные документы для интерпретации потенциального пользовательского запроса и экстракции связанных фрагментов для подтверждения релевантности. Этот подход уменьшает ошибки, вызванные непонятностью и неструктурированностью данных. Исследовательские эксперименты показали, что R3A превосходит другие модели по метрикам релевантности в оффлайн- и онлайн-тестировании.

Abstract

Retrieval-augmented generation (RAG) plays a critical role in user-generated content (UGC) platforms, but its effectiveness depends heavily on accurate relevance assessment of query-document pairs. Despite recent advances in applying large language models (LLMs) to relevance modeling, UGC platforms present unique challenges: 1) ambiguous user intent due to sparse user feedback in RAG scenarios, and 2) substantial noise introduced by informal and unstructured language. To address these issues, we propose the Reinforced Reasoning Model for Relevance Assessment (R3A), which introduces a decomposed reasoning framework over queries and candidate documents before scoring. R3A first leverages auxiliary high-ranked documents within the platform to infer latent query intent. It then performs verbatim fragment extraction to justify relevance decisions, thereby reducing errors caused by noisy UGC. Based on a reinforcement learning framework, R3A is optimized to mitigate distortions arising from ambiguous queries and unstructured content. Experimental results show that R3A significantly outperforms existing baseline methods in terms of relevance accuracy, across both offline benchmarks and online experiments.

Ссылки и действия