When Content is Goliath and Algorithm is David: The Style and Semantic Effects of Generative Search Engine
2509.14436v1
cs.IR, cs.AI, H.3.3; I.2.7; J.4
2025-09-20
Авторы:
Lijia Ma, Juan Qin, Xingchen Xu, Yong Tan
Резюме на русском
## Контекст
Generative search engines (GEs) используют большие языковые модели (LLMs) для генерирования сводных статей с источниками сайтов. Это создает новые каналы для привлечения пользователей и вносит существенные изменения в ландшафт оптимизации поиска (SEO). Такие поисковые системы преобразуют традиционную модель поиска, где почти вся информация получается из внешних источников, на модель, в которой многое сгенерировано автоматически. Однако GEs всё ещё страдают от недостатка понимания их особенностей и потенциала, что делает анализ их стиля и семантики ключевым для их эффективного развития.
## Метод
Мы собираем данные с интеракций с обычными и GEs поисковыми системами. Данные собираются в виде ссылок на сайты, предоставляемых поисковыми системами. Затем мы проводим анализ этих данных с помощью различных методов статистического и аналитического анализа. Особое внимание уделяется моделированию поведения GEs при выборе сайтов и стилевых приоритетов в сгенерированных статьях. Для экспериментов мы используем ретриев-аугментед generation (RAG) APIs, чтобы исследовать влияние LLM на выбор источников и стиль генерирования.
## Результаты
Наши результаты показывают, что GEs предпочитают сайты с высокой предсказуемостью для LLMs и семантической близостью между выбранными источниками. Мы также обнаружили, что LLM-полишинг (оптимизация сайтов с использованием LLM) не только увеличивает диверсификацию сгенерированной информации, но и улучшает её качество для разных пользовательских групп. Например, высокообразованные пользователи, проходя экспериментальные задачи, получают выгоду от более быстрого выполнения задач благодаря улучшенному стилю, в то время как менее образованные пользователи приобретают более широкую информационную диверсификацию в своих выполненных задачах.
## Значимость
Результаты нашей работы имеют большой потенциал в различных областях, включая оптимизацию сайтов, SEO, информационные системы и генерируемую контентную оптимизацию. Эти возможности могут положительно влиять на развитие интернета, улучшая качество информации и увеличивая доступность ресурсов для разнообразных пользователей. Будущие исследования будут сосредоточены на уточнении моделей LLM для генерирования и оптимизации контента, а также на исследовании дальнейшего влияния GEs на поведение пользователей.
## Выводы
Мы проанализировали особенности стиля и семантики в GEs и изучили влияние LLM-полишинга на выбор источников и качество сгенерированной информации. Наши находки подчеркивают важность точного понимания LLM-тенденций для оптимизации сайтов и улучшения пользовательского опыта. Э
Abstract
Generative search engines (GEs) leverage large language models (LLMs) to
deliver AI-generated summaries with website citations, establishing novel
traffic acquisition channels while fundamentally altering the search engine
optimization landscape. To investigate the distinctive characteristics of GEs,
we collect data through interactions with Google's generative and conventional
search platforms, compiling a dataset of approximately ten thousand websites
across both channels. Our empirical analysis reveals that GEs exhibit
preferences for citing content characterized by significantly higher
predictability for underlying LLMs and greater semantic similarity among
selected sources. Through controlled experiments utilizing retrieval augmented
generation (RAG) APIs, we demonstrate that these citation preferences emerge
from intrinsic LLM tendencies to favor content aligned with their generative
expression patterns. Motivated by applications of LLMs to optimize website
content, we conduct additional experimentation to explore how LLM-based content
polishing by website proprietors alters AI summaries, finding that such
polishing paradoxically enhances information diversity within AI summaries.
Finally, to assess the user-end impact of LLM-induced information increases, we
design a generative search engine and recruit Prolific participants to conduct
a randomized controlled experiment involving an information-seeking and writing
task. We find that higher-educated users exhibit minimal changes in their final
outputs' information diversity but demonstrate significantly reduced task
completion time when original sites undergo polishing. Conversely,
lower-educated users primarily benefit through enhanced information density in
their task outputs while maintaining similar completion times across
experimental groups.