How Do LLM-Generated Texts Impact Term-Based Retrieval Models?

2508.17715v1 cs.IR, cs.CL 2025-08-27
Авторы:

Wei Huang, Keping Bi, Yinqiong Cai, Wei Chen, Jiafeng Guo, Xueqi Cheng

Резюме на русском

################################# ## Контекст ################################# В последние годы наблюдается значительный рост содержимого, сгенерированного бо LLM (Large Language Models, большие языковые модели). Этот рост повлиял на многие аспекты Интернета, включая информационные системы поиска (IR, Information Retrieval). Из-за этого стала возникать проблема, связанная с различием между текстами, написанными людьми, и текстами, сгенерированными моделями. Эта ситуация вызывает необходимость внедрения новых методов для точного идентифицирования и обработки контента. Существующие термин-ориентированные модели поиска (term-based retrieval models), такие как BM25, замечаются тем, что они ориентированы на тексты, написанные людьми. Недавние исследования указывают, что новые технологии, вроде моделей типа neural retrievers, могут предпочитать тексты, сгенерированные LLM. Это может привести к засухе в равномерной обработке контента, сгенерированного людьми и моделями. В данном исследовании мы рассматриваем эти проблемы, определяя, как LLM-generated text (текст, сгенерированный LLM) влияет на термин-ориентированные модели поиска, которые являются эффективными и хорошо универсальными в разных сферах. ################################# ## Метод ################################# Для изучения влияния LLM-generated text на термин-ориентированные модели поиска, мы приняли следующий подход: - **Модели и технологии**: Мы использовали несколько термин-ориентированных моделей, включая BM25, а также нейронные модели, оптимизированные для обнаружения текстов, сгенерированных LLM. - **Методы анализа**: Мы провели тщательный лексический и структурный анализ, сравнивая LLM-generated texts с текстами, написанными людьми. Для этого мы измеряли такие параметры, как Zipf-сложность (Zipf slope), терминозначимость (term specificity) и документ-уровневая разность (document-level diversity). - **Эксперименты**: Мы провели эксперименты на выборке данных, содержащей как тексты, написанные людьми, так и тексты, сгенерированные LLM. Мы измеряли, насколько эти модели отличают тексты на основе их источника и качества. ################################# ## Результаты ################################# Наши эксперименты показали следующие результаты: - **Выявленные тренды**: LLM-generated texts имеют более гладкие высокочастотные тенденции (Zipf slopes) и более резкие низкочастотные тенденции по сравнению с текстами, написанными людьми. Также они проявляют более высокую терминозность (term specificity) и документ-уровневую разность (document-level diversity). - **Источник-ориентированность моделей**: Мы обнаружили, что term-based retrieval models не проявляют сильного источника-ориентированного биаса (source bias). Эти модели более склонны выбирать документы, которые лучше соответствуют запросу, независимо от их источника. Эти результаты подсказывают

Abstract

As more content generated by large language models (LLMs) floods into the Internet, information retrieval (IR) systems now face the challenge of distinguishing and handling a blend of human-authored and machine-generated texts. Recent studies suggest that neural retrievers may exhibit a preferential inclination toward LLM-generated content, while classic term-based retrievers like BM25 tend to favor human-written documents. This paper investigates the influence of LLM-generated content on term-based retrieval models, which are valued for their efficiency and robust generalization across domains. Our linguistic analysis reveals that LLM-generated texts exhibit smoother high-frequency and steeper low-frequency Zipf slopes, higher term specificity, and greater document-level diversity. These traits are aligned with LLMs being trained to optimize reader experience through diverse and precise expressions. Our study further explores whether term-based retrieval models demonstrate source bias, concluding that these models prioritize documents whose term distributions closely correspond to those of the queries, rather than displaying an inherent source bias. This work provides a foundation for understanding and addressing potential biases in term-based IR systems managing mixed-source content.

Ссылки и действия