How Do LLM-Generated Texts Impact Term-Based Retrieval Models?
2508.17715v1
cs.IR, cs.CL
2025-08-27
Авторы:
Wei Huang, Keping Bi, Yinqiong Cai, Wei Chen, Jiafeng Guo, Xueqi Cheng
Резюме на русском
#################################
## Контекст
#################################
В последние годы наблюдается значительный рост содержимого, сгенерированного бо LLM (Large Language Models, большие языковые модели). Этот рост повлиял на многие аспекты Интернета, включая информационные системы поиска (IR, Information Retrieval). Из-за этого стала возникать проблема, связанная с различием между текстами, написанными людьми, и текстами, сгенерированными моделями. Эта ситуация вызывает необходимость внедрения новых методов для точного идентифицирования и обработки контента.
Существующие термин-ориентированные модели поиска (term-based retrieval models), такие как BM25, замечаются тем, что они ориентированы на тексты, написанные людьми. Недавние исследования указывают, что новые технологии, вроде моделей типа neural retrievers, могут предпочитать тексты, сгенерированные LLM. Это может привести к засухе в равномерной обработке контента, сгенерированного людьми и моделями.
В данном исследовании мы рассматриваем эти проблемы, определяя, как LLM-generated text (текст, сгенерированный LLM) влияет на термин-ориентированные модели поиска, которые являются эффективными и хорошо универсальными в разных сферах.
#################################
## Метод
#################################
Для изучения влияния LLM-generated text на термин-ориентированные модели поиска, мы приняли следующий подход:
- **Модели и технологии**: Мы использовали несколько термин-ориентированных моделей, включая BM25, а также нейронные модели, оптимизированные для обнаружения текстов, сгенерированных LLM.
- **Методы анализа**: Мы провели тщательный лексический и структурный анализ, сравнивая LLM-generated texts с текстами, написанными людьми. Для этого мы измеряли такие параметры, как Zipf-сложность (Zipf slope), терминозначимость (term specificity) и документ-уровневая разность (document-level diversity).
- **Эксперименты**: Мы провели эксперименты на выборке данных, содержащей как тексты, написанные людьми, так и тексты, сгенерированные LLM. Мы измеряли, насколько эти модели отличают тексты на основе их источника и качества.
#################################
## Результаты
#################################
Наши эксперименты показали следующие результаты:
- **Выявленные тренды**: LLM-generated texts имеют более гладкие высокочастотные тенденции (Zipf slopes) и более резкие низкочастотные тенденции по сравнению с текстами, написанными людьми. Также они проявляют более высокую терминозность (term specificity) и документ-уровневую разность (document-level diversity).
- **Источник-ориентированность моделей**: Мы обнаружили, что term-based retrieval models не проявляют сильного источника-ориентированного биаса (source bias). Эти модели более склонны выбирать документы, которые лучше соответствуют запросу, независимо от их источника.
Эти результаты подсказывают
Abstract
As more content generated by large language models (LLMs) floods into the
Internet, information retrieval (IR) systems now face the challenge of
distinguishing and handling a blend of human-authored and machine-generated
texts. Recent studies suggest that neural retrievers may exhibit a preferential
inclination toward LLM-generated content, while classic term-based retrievers
like BM25 tend to favor human-written documents. This paper investigates the
influence of LLM-generated content on term-based retrieval models, which are
valued for their efficiency and robust generalization across domains. Our
linguistic analysis reveals that LLM-generated texts exhibit smoother
high-frequency and steeper low-frequency Zipf slopes, higher term specificity,
and greater document-level diversity. These traits are aligned with LLMs being
trained to optimize reader experience through diverse and precise expressions.
Our study further explores whether term-based retrieval models demonstrate
source bias, concluding that these models prioritize documents whose term
distributions closely correspond to those of the queries, rather than
displaying an inherent source bias. This work provides a foundation for
understanding and addressing potential biases in term-based IR systems managing
mixed-source content.
Ссылки и действия
Дополнительные ресурсы: