GEM-Bench: A Benchmark for Ad-Injected Response Generation within Generative Engine Marketing
2509.14221v1
cs.IR, cs.CL
2025-09-19
Авторы:
Silan Hu, Shiqi Zhang, Yimin Shi, Xiaokui Xiao
Резюме на русском
####################
## Контекст
####################
Generative Engine Marketing (GEM) представляет собой возникающую экосистему для маркетингового использования генерирующих движков, таких как LLM-based chatbots. Основной задачей GEM является сбалансированное внедрение рекламных сообщений в ответы движков без ухудшения качества выдачи информации. Чтобы повысить качество решений в этой области, необходимо развивать инструменты для эффективного тестирования и оценки поведения генерирующих движков в контексте GEM. Несмотря на растущую популярность GEM, существуют мало данных для выявления требований к генерируемым ответам, в том числе по внедрению рекламных сообщений. Это ограничивает возможности проведения исследований в этой области.
*************************
## Метод
*************************
GEM-Bench представляет собой первый полный бенчмарк, ориентированный на генерируемые ответы с внедрением рекламных сообщений в контексте GEM. Он включает три датасета, разработанные для обеспечения захвата различных сценариев, таких как беседы с чатботами и поисковые запросы. Бенчмарк также определяет метрики толерабельности рекламы и удовлетворенности пользователя, что позволяет анализировать качество ответов от нескольких разных углов. Для оценки полученных данных, GEM-Bench предлагает несколько алгоритмов, реализованных в расширяемой многоагентной среде. Такая архитектура позволяет проводить сравнительный анализ разных методов решения задачи.
*************************
## Результаты
*************************
В ходе экспериментов с GEM-Bench были протестированы несколько стратегий внедрения рекламы в ответы. Было выявлено, что простые методы основывающиеся на простых подсказках (prompt-based methods) демонстрируют удовлетворительную заинтересованность пользователей (например, показатели кликабельности), но при этом снижают удовлетворенность пользователя. Обратно, подходы, основанные на предварительной генерации ответов без рекламы, позволяют избежать этой проблемы, но при этом увеличивают накладные расходы. Эти результаты показывают, что для достижения баланса между удовлетворенностью пользователя и эффективностью внедрения рекламы требуется развитие более продвинутых и инновационных подходов.
*************************
## Значимость
*************************
Бенчмарк GEM-Bench открывает новые возможности для изучения проблем возникающих в генерирующих движках с внедрением рекламы. Он может быть применен в разработке новых методов анализа поведения пользователей, в том числе с учетом ситуаций, когда реклама встраивается в ответы. Благодаря развитию таких инструментов можно ожидать повышения качества GEM-систем, т.к. он позволит разрабатывать более эффективные способы внедрения рекламы, сохраняя высокую удовлетворенность пользователей.
****************
Abstract
Generative Engine Marketing (GEM) is an emerging ecosystem for monetizing
generative engines, such as LLM-based chatbots, by seamlessly integrating
relevant advertisements into their responses. At the core of GEM lies the
generation and evaluation of ad-injected responses. However, existing
benchmarks are not specifically designed for this purpose, which limits future
research. To address this gap, we propose GEM-Bench, the first comprehensive
benchmark for ad-injected response generation in GEM. GEM-Bench includes three
curated datasets covering both chatbot and search scenarios, a metric ontology
that captures multiple dimensions of user satisfaction and engagement, and
several baseline solutions implemented within an extensible multi-agent
framework. Our preliminary results indicate that, while simple prompt-based
methods achieve reasonable engagement such as click-through rate, they often
reduce user satisfaction. In contrast, approaches that insert ads based on
pre-generated ad-free responses help mitigate this issue but introduce
additional overhead. These findings highlight the need for future research on
designing more effective and efficient solutions for generating ad-injected
responses in GEM.
Ссылки и действия
Дополнительные ресурсы: