InPars+: Supercharging Synthetic Data Generation for Information Retrieval Systems

2508.13930v1 cs.IR, cs.AI 2025-08-21

Авторы:

Matey Krastev, Miklos Hamar, Danilo Toapanta, Jesse Brouwers, Yibin Lei

Резюме на русском

## Контекст Синтезированные данные играют ключевую роль в обучении моделей нейронных систем информационного поиска (Neural Information Retrieval, NIR). Однако существуют серьезные проблемы с качеством и количеством таких данных, что приводит к ограниченной точности и неустойчивости моделей. Эта статья фокусируется на улучшении синтетических телеметрических запросов с помощью InPars+, расширенной версии инструмента InPars, который использует телеметрические запросы для обучения моделей NIR. Целью является улучшение качества генерированных запросов, уменьшение необходимости в агрессивном фильтрации и повышение эффективности систем поиска. ## Метод Исследование основывается на развитии инструмента InPars+, основывающегося на телеметрических запросах и широком использовании гранд-джедайских LLM-моделей. Для работы с трудностями синтеза данных внедряется два основных момента: (1) оптимизация генерации запросов с помощью Contrastive Preference Optimization (CPO), которая позволяет ускорить и улучшить готовые телеметрические модели, и (2) внедрение динамических Chain-of-Thought (CoT) для оптимизации процесса генерации. Методология включает в себя моделирование синтетических запросов, оценку качества результатов и их сравнение с оригинальной InPars-вилки. ## Результаты Проведенные эксперименты показали, что расширенная платформа InPars+ дает значительные улучшения в поисковых системах. Использование CPO приводит к более качественным телеметрическим запросам, что позволяет уменьшить фильтрацию и увеличить их эффективность. Более того, внедрение CoT-оптимизации приводит к улучшению взаимодействия между моделями и пользователем. Эксперименты проводились на SciFact-бенчмарке, где показали увеличение точности и стабильности результатов в сравнении с оригинальными моделями. ## Значимость Результаты имеют высокую значимость в области NIR, так как улучшают качество синтетических данных и увеличивают производительность поисковых систем. Инструмент InPars+ может быть применен в различных сферах, включая системы рекомендаций, моделирование языка и поиск специализированной информации. Эта работа также открывает пути для будущих исследований в области гибридного генерации запросов и оптимизации NIR. ## Выводы Расширенный InPars+ устанавливает новые стандарты для синтетической генерации запросов в NIR. Он улучшает качество данных, уменьшает необходимость в агрессивной фильтрации и повышает точность поисковых систем. Этот инструмент будет полезен для развития новых моделей и систем поиска в будущем. Направлением для будущих расследований является улучшение динамических моделей генерации запросов и их интег

Abstract

This work revisits and extends synthetic query generation pipelines for Neural Information Retrieval (NIR) by leveraging the InPars Toolkit, a reproducible, end-to-end framework for generating training data using large language models (LLMs). We first assess the reproducibility of the original InPars, InPars-V2, and Promptagator pipelines on the SciFact benchmark and validate their effectiveness using open-source reranker and generator models. Building on this foundation, we introduce two key extensions to the pipeline: (1) fine-tuning a query generator LLM via Contrastive Preference Optimization (CPO) to improve the signal quality in generated queries, and (2) replacing static prompt templates with dynamic, Chain-of-Thought (CoT) optimized prompts using the DSPy framework. Our results show that both extensions reduce the need for aggressive filtering while improving retrieval performance. All code, models, and synthetic datasets are publicly released to support further research at: \href{https://github.com/danilotpnta/IR2-project}{this https URL}.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

InPars+: Supercharging Synthetic Data Generation for Information Retrieval Systems

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augme...

Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation

Q-BERT4Rec: Quantized Semantic-ID Representation Learning for Multimodal Recomme...

AskNearby: An LLM-Based Application for Neighborhood Information Retrieval and P...

Evaluating Embedding Models and Pipeline Optimization for AI Search Quality

Навигация