KuaiLive: A Real-time Interactive Dataset for Live Streaming Recommendation

2508.05633v1 cs.IR, cs.AI 2025-08-08
Авторы:

Changle Qu, Sunhao Dai, Ke Guo, Liqin Zhao, Yanan Niu, Xiao Zhang, Jun Xu

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные платформы стриминга переживают беспрецедентный рост, превращаясь из нишевого развлечения в доминирующий формат потребления онлайн-контента. Уникальность живых трансляций заключается в трех ключевых характеристиках: динамично изменяющемся контенте, реальном времени взаимодействия между зрителями и стримерами, а также высокой степени вовлечения аудитории. Эти особенности создают фундаментально новые вызовы для систем рекомендаций, которые невозможно адекватно решать традиционными методами, разработанными для статического контента вроде видео на YouTube или товаров в e-commerce. Академическое сообщество сталкивается с критическим барьером в развитии этой области – отсутствием качественных публичных датасетов, которые бы точно отражали динамическую природу сред стриминга. Существующие открытые данные либо не содержат информации о временных рамках трансляций, либо игнорируют многотипные взаимодействия пользователей, либо не предоставляют достаточного контекста о пользователях и стримерах. Это приводит к тому, что большинство исследований проводится на синтетических или частичных данных, что резко ограничивает воспроизводимость результатов и практическую применимость разработанных алгоритмов. Индустрия, обладающая доступом к реальным данным, значительно опережает академию в понимании и решении специфических задач рекомендаций в живом стриминге. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для преодоления разрыва между академией и индустрией авторы разработали KuaiLive – первый в своем роде набор данных, собранный с крупнейшей китайской платформы живых трансляций Kuaishou с аудиторией более 400 миллионов активных пользователей в день. Методология сбора данных была специально спроектирована для захвата всех ключевых аспектов реального взаимодействия пользователей с живым контентом. Датасет охватывает 21-дневный период и содержит детальные логи взаимодействий 23,772 уникальных пользователей с 452,621 стримером. Ключевое техническое решение заключается в точной временной привязке всех событий – авторы записывают точные временные метки начала и окончания каждой трансляции, что позволяет точно моделировать динамику доступного контента. В отличие от существующих решений, KuaiLive включает четыре типа взаимодействий: клики (переход в комнату стримера), комментарии, лайки и отправка виртуальных подарков. Это многоаспектное поведение пользователей позволяет исследовать сложные паттерны вовлеченности. Архитектура данных включает богатую контекстную информацию: демографические и поведенческие признаки пользователей, метаданные стримеров (категория контента, историческая популярность), а также временные характеристики трансляций. Специальное внимание уделено приватности – все идентификаторы были анонимизированы, а чувствительная информация удалена в соответствии с политикой платформы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Комплексный анализ датасета выявил ранее неизвестные паттерны поведения в экосистеме живого стриминга. Статистический анализ показал, что пользователи демонстрируют крайне нестабильный паттерн просмотра – средняя продолжительность пребывания в комнате составляет всего 3.2 минуты, но 5% самых вовлеченных пользователей проводят в стримах более 2 часов в день. Распределение взаимодействий экспоненциально, где 20% стримеров получают 80% всех взаимодействий, что создает значительные вызовы для обеспечения справедливости рекомендаций. Авторы провели систематическую оценку представительных методов рекомендаций на KuaiLive, включая коллаборативную фильтрацию, графовые нейронные сети и последовательные модели. Лучшие результаты показала адаптированная модель GRU4Rec с учетом временной динамики, достигшая MAP@10 = 0.247 для задачи топ-K рекомендаций. Интересно, что традиционные методы, показывающие высокую эффективность на статических данных, продемонстрировали значительное падение производительности (до 40% по NDCG), подчеркивая фундаментальные различия между статическим и живым контентом. Отдельные эксперименты были проведены для задач прогнозирования времени просмотра (RMSE = 1.34 минуты) и стоимости подарков (средняя абсолют

Abstract

Live streaming platforms have become a dominant form of online content consumption, offering dynamically evolving content, real-time interactions, and highly engaging user experiences. These unique characteristics introduce new challenges that differentiate live streaming recommendation from traditional recommendation settings and have garnered increasing attention from industry in recent years. However, research progress in academia has been hindered by the lack of publicly available datasets that accurately reflect the dynamic nature of live streaming environments. To address this gap, we introduce KuaiLive, the first real-time, interactive dataset collected from Kuaishou, a leading live streaming platform in China with over 400 million daily active users. The dataset records the interaction logs of 23,772 users and 452,621 streamers over a 21-day period. Compared to existing datasets, KuaiLive offers several advantages: it includes precise live room start and end timestamps, multiple types of real-time user interactions (click, comment, like, gift), and rich side information features for both users and streamers. These features enable more realistic simulation of dynamic candidate items and better modeling of user and streamer behaviors. We conduct a thorough analysis of KuaiLive from multiple perspectives and evaluate several representative recommendation methods on it, establishing a strong benchmark for future research. KuaiLive can support a wide range of tasks in the live streaming domain, such as top-K recommendation, click-through rate prediction, watch time prediction, and gift price prediction. Moreover, its fine-grained behavioral data also enables research on multi-behavior modeling, multi-task learning, and fairness-aware recommendation. The dataset and related resources are publicly available at https://imgkkk574.github.io/KuaiLive.

Ссылки и действия