GEM-Bench: A Benchmark for Ad-Injected Response Generation within Generative Engine Marketing

2509.14221v1 cs.IR, cs.CL 2025-09-19
Авторы:

Silan Hu, Shiqi Zhang, Yimin Shi, Xiaokui Xiao

Резюме на русском

#################### ## Контекст #################### Generative Engine Marketing (GEM) представляет собой возникающую экосистему для маркетингового использования генерирующих движков, таких как LLM-based chatbots. Основной задачей GEM является сбалансированное внедрение рекламных сообщений в ответы движков без ухудшения качества выдачи информации. Чтобы повысить качество решений в этой области, необходимо развивать инструменты для эффективного тестирования и оценки поведения генерирующих движков в контексте GEM. Несмотря на растущую популярность GEM, существуют мало данных для выявления требований к генерируемым ответам, в том числе по внедрению рекламных сообщений. Это ограничивает возможности проведения исследований в этой области. ************************* ## Метод ************************* GEM-Bench представляет собой первый полный бенчмарк, ориентированный на генерируемые ответы с внедрением рекламных сообщений в контексте GEM. Он включает три датасета, разработанные для обеспечения захвата различных сценариев, таких как беседы с чатботами и поисковые запросы. Бенчмарк также определяет метрики толерабельности рекламы и удовлетворенности пользователя, что позволяет анализировать качество ответов от нескольких разных углов. Для оценки полученных данных, GEM-Bench предлагает несколько алгоритмов, реализованных в расширяемой многоагентной среде. Такая архитектура позволяет проводить сравнительный анализ разных методов решения задачи. ************************* ## Результаты ************************* В ходе экспериментов с GEM-Bench были протестированы несколько стратегий внедрения рекламы в ответы. Было выявлено, что простые методы основывающиеся на простых подсказках (prompt-based methods) демонстрируют удовлетворительную заинтересованность пользователей (например, показатели кликабельности), но при этом снижают удовлетворенность пользователя. Обратно, подходы, основанные на предварительной генерации ответов без рекламы, позволяют избежать этой проблемы, но при этом увеличивают накладные расходы. Эти результаты показывают, что для достижения баланса между удовлетворенностью пользователя и эффективностью внедрения рекламы требуется развитие более продвинутых и инновационных подходов. ************************* ## Значимость ************************* Бенчмарк GEM-Bench открывает новые возможности для изучения проблем возникающих в генерирующих движках с внедрением рекламы. Он может быть применен в разработке новых методов анализа поведения пользователей, в том числе с учетом ситуаций, когда реклама встраивается в ответы. Благодаря развитию таких инструментов можно ожидать повышения качества GEM-систем, т.к. он позволит разрабатывать более эффективные способы внедрения рекламы, сохраняя высокую удовлетворенность пользователей. ****************

Abstract

Generative Engine Marketing (GEM) is an emerging ecosystem for monetizing generative engines, such as LLM-based chatbots, by seamlessly integrating relevant advertisements into their responses. At the core of GEM lies the generation and evaluation of ad-injected responses. However, existing benchmarks are not specifically designed for this purpose, which limits future research. To address this gap, we propose GEM-Bench, the first comprehensive benchmark for ad-injected response generation in GEM. GEM-Bench includes three curated datasets covering both chatbot and search scenarios, a metric ontology that captures multiple dimensions of user satisfaction and engagement, and several baseline solutions implemented within an extensible multi-agent framework. Our preliminary results indicate that, while simple prompt-based methods achieve reasonable engagement such as click-through rate, they often reduce user satisfaction. In contrast, approaches that insert ads based on pre-generated ad-free responses help mitigate this issue but introduce additional overhead. These findings highlight the need for future research on designing more effective and efficient solutions for generating ad-injected responses in GEM.

Ссылки и действия