InPars+: Supercharging Synthetic Data Generation for Information Retrieval Systems
2508.13930v1
cs.IR, cs.AI
2025-08-21
Авторы:
Matey Krastev, Miklos Hamar, Danilo Toapanta, Jesse Brouwers, Yibin Lei
Резюме на русском
## Контекст
Синтезированные данные играют ключевую роль в обучении моделей нейронных систем информационного поиска (Neural Information Retrieval, NIR). Однако существуют серьезные проблемы с качеством и количеством таких данных, что приводит к ограниченной точности и неустойчивости моделей. Эта статья фокусируется на улучшении синтетических телеметрических запросов с помощью InPars+, расширенной версии инструмента InPars, который использует телеметрические запросы для обучения моделей NIR. Целью является улучшение качества генерированных запросов, уменьшение необходимости в агрессивном фильтрации и повышение эффективности систем поиска.
## Метод
Исследование основывается на развитии инструмента InPars+, основывающегося на телеметрических запросах и широком использовании гранд-джедайских LLM-моделей. Для работы с трудностями синтеза данных внедряется два основных момента: (1) оптимизация генерации запросов с помощью Contrastive Preference Optimization (CPO), которая позволяет ускорить и улучшить готовые телеметрические модели, и (2) внедрение динамических Chain-of-Thought (CoT) для оптимизации процесса генерации. Методология включает в себя моделирование синтетических запросов, оценку качества результатов и их сравнение с оригинальной InPars-вилки.
## Результаты
Проведенные эксперименты показали, что расширенная платформа InPars+ дает значительные улучшения в поисковых системах. Использование CPO приводит к более качественным телеметрическим запросам, что позволяет уменьшить фильтрацию и увеличить их эффективность. Более того, внедрение CoT-оптимизации приводит к улучшению взаимодействия между моделями и пользователем. Эксперименты проводились на SciFact-бенчмарке, где показали увеличение точности и стабильности результатов в сравнении с оригинальными моделями.
## Значимость
Результаты имеют высокую значимость в области NIR, так как улучшают качество синтетических данных и увеличивают производительность поисковых систем. Инструмент InPars+ может быть применен в различных сферах, включая системы рекомендаций, моделирование языка и поиск специализированной информации. Эта работа также открывает пути для будущих исследований в области гибридного генерации запросов и оптимизации NIR.
## Выводы
Расширенный InPars+ устанавливает новые стандарты для синтетической генерации запросов в NIR. Он улучшает качество данных, уменьшает необходимость в агрессивной фильтрации и повышает точность поисковых систем. Этот инструмент будет полезен для развития новых моделей и систем поиска в будущем. Направлением для будущих расследований является улучшение динамических моделей генерации запросов и их интег
Abstract
This work revisits and extends synthetic query generation pipelines for
Neural Information Retrieval (NIR) by leveraging the InPars Toolkit, a
reproducible, end-to-end framework for generating training data using large
language models (LLMs). We first assess the reproducibility of the original
InPars, InPars-V2, and Promptagator pipelines on the SciFact benchmark and
validate their effectiveness using open-source reranker and generator models.
Building on this foundation, we introduce two key extensions to the pipeline:
(1) fine-tuning a query generator LLM via Contrastive Preference Optimization
(CPO) to improve the signal quality in generated queries, and (2) replacing
static prompt templates with dynamic, Chain-of-Thought (CoT) optimized prompts
using the DSPy framework. Our results show that both extensions reduce the need
for aggressive filtering while improving retrieval performance. All code,
models, and synthetic datasets are publicly released to support further
research at: \href{https://github.com/danilotpnta/IR2-project}{this https URL}.
Ссылки и действия
Дополнительные ресурсы: