Evaluating the Effectiveness and Scalability of LLM-Based Data Augmentation for Retrieval
2509.16442v1
cs.IR, cs.CL
2025-09-24
Авторы:
Pranjal A. Chitale, Bishal Santra, Yashoteja Prabhu, Amit Sharma
Резюме на русском
#### Контекст
Данная работа рассматривает проблему эффективности и масштабируемости использования больших языковых моделей (LLM) для дата-аугментации в задачах восстановления информации. Несмотря на то, что сжатые модели двухенкодерного типа (compact dual-encoder models) широко используются в решении задач восстановления, они часто оказываются неэффективными по сравнению с полномасштабными моделями. Это связано с ограниченным мировым знанием этих моделей. Дата-аугментация, основанная на LLM, предлагается как потенциальный путь к улучшению эффективности двухенкодерных моделей. Однако существуют недостатки в понимании ее эффективности и масштабируемости в реальных задачах восстановления. Особенно недостаточно исследований по оптимальному масштабу аугментации, необходимости использования больших моделей для аугментации и влиянию разнообразия аугментационных стратегий на общезначимость решений в OOD (out-of-distribution) ситуациях. Наша работа направлена на систематическое исследование эффективности дата-аугментации LLM в задачах восстановления информации.
#### Метод
Методология исследования основывается на экспериментальном анализе более чем 100 комбинаций различных моделей восстановления, моделей для дата-аугментации и стратегий их использования. Мы рассматриваем различные масштабы аугментации, включая различные модели LLM и алгоритмы разнообразия. Также мы проводим сравнительный анализ эффективности аугментации в зависимости от уровня предварительной обученности моделей восстановления. Модели дата-аугментации LLM используются для создания дополнительных данных, а эти данные, в свою очередь, используются для обучения и оценки моделей восстановления. Эксперименты проводятся на разнообразных наборах данных, включая данные с OOD условиями, что позволяет оценить уровень общезначимости решений.
#### Результаты
Наши эксперименты показали, что дата-аугментация действительно улучшает эффективность моделей восстановления, особенно для моделей с недостаточной предварительной обученностью. Однако мы также обнаружили, что преимущества аугментации имеют ограничение, даже при использовании разнообразных стратегий. Мы обнаружили, что необходимость использования больших моделей для дата-аугментации является необязательной, так как модели LLM с меньшим масштабом могут показывать похожий уровень эффективности с большими моделями. Кроме того, мы выявили, что ряд оптимизаций моделей восстановления может улучшить их общезначимость при использовании аугментации.
#### Значимость
Результаты нашего исследования имеют большую значимост
Abstract
Compact dual-encoder models are widely used for retrieval owing to their
efficiency and scalability. However, such models often underperform compared to
their Large Language Model (LLM)-based retrieval counterparts, likely due to
their limited world knowledge. While LLM-based data augmentation has been
proposed as a strategy to bridge this performance gap, there is insufficient
understanding of its effectiveness and scalability to real-world retrieval
problems. Existing research does not systematically explore key factors such as
the optimal augmentation scale, the necessity of using large augmentation
models, and whether diverse augmentations improve generalization, particularly
in out-of-distribution (OOD) settings. This work presents a comprehensive study
of the effectiveness of LLM augmentation for retrieval, comprising over 100
distinct experimental settings of retrieval models, augmentation models and
augmentation strategies. We find that, while augmentation enhances retrieval
performance, its benefits diminish beyond a certain augmentation scale, even
with diverse augmentation strategies. Surprisingly, we observe that
augmentation with smaller LLMs can achieve performance competitive with larger
augmentation models. Moreover, we examine how augmentation effectiveness varies
with retrieval model pre-training, revealing that augmentation provides the
most benefit to models which are not well pre-trained. Our insights pave the
way for more judicious and efficient augmentation strategies, thus enabling
informed decisions and maximizing retrieval performance while being more
cost-effective. Code and augmented datasets accompanying this work are publicly
available at https://aka.ms/DAGR.
Ссылки и действия
Дополнительные ресурсы: