ConvMix: A Mixed-Criteria Data Augmentation Framework for Conversational Dense Retrieval
2508.04001v1
cs.IR, cs.CL
2025-08-09
Авторы:
Fengran Mo, Jinghan Zhang, Yuchen Hui, Jia Ao Sun, Zhichao Xu, Zhan Su, Jian-Yun Nie
Резюме на русском
**Резюме**
В этой работе предлагается ConvMix, новая методология для датуинга в области конверзационного поиска. Основная проблема, которую рассматривают авторы, заключается в нехватке данных для обучения моделей конверзационного поиска. Авторы предложили ConvMix — мультикритерийную систему датуинга, которая расширяет подходы, используемые ранее. За счет применения больших языковых моделей, фреймворк ConvMix позволяет расширить датасеты с помощью двустороннего апгрейда релятивизации, обеспечивая большую модельность в задаче и ряд механизмов качественного контроля, чтобы получить разнообразные и хорошо сбалансированные данные для обучения.
Эксперименты проводились на пяти стандартных бенчмарках, показав, что модель, обученная с помощью ConvMix, существенно превосходит другие базовые модели по метрикам качества. Таким образом, ConvMix демонстрирует свою эффективность и значимость в решении проблемы нехватки данных в конверзационном поиске.
Abstract
Conversational search aims to satisfy users' complex information needs via
multiple-turn interactions. The key challenge lies in revealing real users'
search intent from the context-dependent queries. Previous studies achieve
conversational search by fine-tuning a conversational dense retriever with
relevance judgments between pairs of context-dependent queries and documents.
However, this training paradigm encounters data scarcity issues. To this end,
we propose ConvMix, a mixed-criteria framework to augment conversational dense
retrieval, which covers more aspects than existing data augmentation
frameworks. We design a two-sided relevance judgment augmentation schema in a
scalable manner via the aid of large language models. Besides, we integrate the
framework with quality control mechanisms to obtain semantically diverse
samples and near-distribution supervisions to combine various annotated data.
Experimental results on five widely used benchmarks show that the
conversational dense retriever trained by our ConvMix framework outperforms
previous baseline methods, which demonstrates our superior effectiveness.
Ссылки и действия
Дополнительные ресурсы: