When Content is Goliath and Algorithm is David: The Style and Semantic Effects of Generative Search Engine

2509.14436v1 cs.IR, cs.AI, H.3.3; I.2.7; J.4 2025-09-20
Авторы:

Lijia Ma, Juan Qin, Xingchen Xu, Yong Tan

Резюме на русском

## Контекст Generative search engines (GEs) используют большие языковые модели (LLMs) для генерирования сводных статей с источниками сайтов. Это создает новые каналы для привлечения пользователей и вносит существенные изменения в ландшафт оптимизации поиска (SEO). Такие поисковые системы преобразуют традиционную модель поиска, где почти вся информация получается из внешних источников, на модель, в которой многое сгенерировано автоматически. Однако GEs всё ещё страдают от недостатка понимания их особенностей и потенциала, что делает анализ их стиля и семантики ключевым для их эффективного развития. ## Метод Мы собираем данные с интеракций с обычными и GEs поисковыми системами. Данные собираются в виде ссылок на сайты, предоставляемых поисковыми системами. Затем мы проводим анализ этих данных с помощью различных методов статистического и аналитического анализа. Особое внимание уделяется моделированию поведения GEs при выборе сайтов и стилевых приоритетов в сгенерированных статьях. Для экспериментов мы используем ретриев-аугментед generation (RAG) APIs, чтобы исследовать влияние LLM на выбор источников и стиль генерирования. ## Результаты Наши результаты показывают, что GEs предпочитают сайты с высокой предсказуемостью для LLMs и семантической близостью между выбранными источниками. Мы также обнаружили, что LLM-полишинг (оптимизация сайтов с использованием LLM) не только увеличивает диверсификацию сгенерированной информации, но и улучшает её качество для разных пользовательских групп. Например, высокообразованные пользователи, проходя экспериментальные задачи, получают выгоду от более быстрого выполнения задач благодаря улучшенному стилю, в то время как менее образованные пользователи приобретают более широкую информационную диверсификацию в своих выполненных задачах. ## Значимость Результаты нашей работы имеют большой потенциал в различных областях, включая оптимизацию сайтов, SEO, информационные системы и генерируемую контентную оптимизацию. Эти возможности могут положительно влиять на развитие интернета, улучшая качество информации и увеличивая доступность ресурсов для разнообразных пользователей. Будущие исследования будут сосредоточены на уточнении моделей LLM для генерирования и оптимизации контента, а также на исследовании дальнейшего влияния GEs на поведение пользователей. ## Выводы Мы проанализировали особенности стиля и семантики в GEs и изучили влияние LLM-полишинга на выбор источников и качество сгенерированной информации. Наши находки подчеркивают важность точного понимания LLM-тенденций для оптимизации сайтов и улучшения пользовательского опыта. Э

Abstract

Generative search engines (GEs) leverage large language models (LLMs) to deliver AI-generated summaries with website citations, establishing novel traffic acquisition channels while fundamentally altering the search engine optimization landscape. To investigate the distinctive characteristics of GEs, we collect data through interactions with Google's generative and conventional search platforms, compiling a dataset of approximately ten thousand websites across both channels. Our empirical analysis reveals that GEs exhibit preferences for citing content characterized by significantly higher predictability for underlying LLMs and greater semantic similarity among selected sources. Through controlled experiments utilizing retrieval augmented generation (RAG) APIs, we demonstrate that these citation preferences emerge from intrinsic LLM tendencies to favor content aligned with their generative expression patterns. Motivated by applications of LLMs to optimize website content, we conduct additional experimentation to explore how LLM-based content polishing by website proprietors alters AI summaries, finding that such polishing paradoxically enhances information diversity within AI summaries. Finally, to assess the user-end impact of LLM-induced information increases, we design a generative search engine and recruit Prolific participants to conduct a randomized controlled experiment involving an information-seeking and writing task. We find that higher-educated users exhibit minimal changes in their final outputs' information diversity but demonstrate significantly reduced task completion time when original sites undergo polishing. Conversely, lower-educated users primarily benefit through enhanced information density in their task outputs while maintaining similar completion times across experimental groups.

Ссылки и действия