KuaiLive: A Real-time Interactive Dataset for Live Streaming Recommendation
2508.05633v1
cs.IR, cs.AI
2025-08-08
Авторы:
Changle Qu, Sunhao Dai, Ke Guo, Liqin Zhao, Yanan Niu, Xiao Zhang, Jun Xu
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Современные платформы стриминга переживают беспрецедентный рост, превращаясь из нишевого развлечения в доминирующий формат потребления онлайн-контента. Уникальность живых трансляций заключается в трех ключевых характеристиках: динамично изменяющемся контенте, реальном времени взаимодействия между зрителями и стримерами, а также высокой степени вовлечения аудитории. Эти особенности создают фундаментально новые вызовы для систем рекомендаций, которые невозможно адекватно решать традиционными методами, разработанными для статического контента вроде видео на YouTube или товаров в e-commerce.
Академическое сообщество сталкивается с критическим барьером в развитии этой области – отсутствием качественных публичных датасетов, которые бы точно отражали динамическую природу сред стриминга. Существующие открытые данные либо не содержат информации о временных рамках трансляций, либо игнорируют многотипные взаимодействия пользователей, либо не предоставляют достаточного контекста о пользователях и стримерах. Это приводит к тому, что большинство исследований проводится на синтетических или частичных данных, что резко ограничивает воспроизводимость результатов и практическую применимость разработанных алгоритмов. Индустрия, обладающая доступом к реальным данным, значительно опережает академию в понимании и решении специфических задач рекомендаций в живом стриминге.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для преодоления разрыва между академией и индустрией авторы разработали KuaiLive – первый в своем роде набор данных, собранный с крупнейшей китайской платформы живых трансляций Kuaishou с аудиторией более 400 миллионов активных пользователей в день. Методология сбора данных была специально спроектирована для захвата всех ключевых аспектов реального взаимодействия пользователей с живым контентом.
Датасет охватывает 21-дневный период и содержит детальные логи взаимодействий 23,772 уникальных пользователей с 452,621 стримером. Ключевое техническое решение заключается в точной временной привязке всех событий – авторы записывают точные временные метки начала и окончания каждой трансляции, что позволяет точно моделировать динамику доступного контента. В отличие от существующих решений, KuaiLive включает четыре типа взаимодействий: клики (переход в комнату стримера), комментарии, лайки и отправка виртуальных подарков. Это многоаспектное поведение пользователей позволяет исследовать сложные паттерны вовлеченности.
Архитектура данных включает богатую контекстную информацию: демографические и поведенческие признаки пользователей, метаданные стримеров (категория контента, историческая популярность), а также временные характеристики трансляций. Специальное внимание уделено приватности – все идентификаторы были анонимизированы, а чувствительная информация удалена в соответствии с политикой платформы.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Комплексный анализ датасета выявил ранее неизвестные паттерны поведения в экосистеме живого стриминга. Статистический анализ показал, что пользователи демонстрируют крайне нестабильный паттерн просмотра – средняя продолжительность пребывания в комнате составляет всего 3.2 минуты, но 5% самых вовлеченных пользователей проводят в стримах более 2 часов в день. Распределение взаимодействий экспоненциально, где 20% стримеров получают 80% всех взаимодействий, что создает значительные вызовы для обеспечения справедливости рекомендаций.
Авторы провели систематическую оценку представительных методов рекомендаций на KuaiLive, включая коллаборативную фильтрацию, графовые нейронные сети и последовательные модели. Лучшие результаты показала адаптированная модель GRU4Rec с учетом временной динамики, достигшая MAP@10 = 0.247 для задачи топ-K рекомендаций. Интересно, что традиционные методы, показывающие высокую эффективность на статических данных, продемонстрировали значительное падение производительности (до 40% по NDCG), подчеркивая фундаментальные различия между статическим и живым контентом.
Отдельные эксперименты были проведены для задач прогнозирования времени просмотра (RMSE = 1.34 минуты) и стоимости подарков (средняя абсолют
Abstract
Live streaming platforms have become a dominant form of online content
consumption, offering dynamically evolving content, real-time interactions, and
highly engaging user experiences. These unique characteristics introduce new
challenges that differentiate live streaming recommendation from traditional
recommendation settings and have garnered increasing attention from industry in
recent years. However, research progress in academia has been hindered by the
lack of publicly available datasets that accurately reflect the dynamic nature
of live streaming environments. To address this gap, we introduce KuaiLive, the
first real-time, interactive dataset collected from Kuaishou, a leading live
streaming platform in China with over 400 million daily active users. The
dataset records the interaction logs of 23,772 users and 452,621 streamers over
a 21-day period. Compared to existing datasets, KuaiLive offers several
advantages: it includes precise live room start and end timestamps, multiple
types of real-time user interactions (click, comment, like, gift), and rich
side information features for both users and streamers. These features enable
more realistic simulation of dynamic candidate items and better modeling of
user and streamer behaviors. We conduct a thorough analysis of KuaiLive from
multiple perspectives and evaluate several representative recommendation
methods on it, establishing a strong benchmark for future research. KuaiLive
can support a wide range of tasks in the live streaming domain, such as top-K
recommendation, click-through rate prediction, watch time prediction, and gift
price prediction. Moreover, its fine-grained behavioral data also enables
research on multi-behavior modeling, multi-task learning, and fairness-aware
recommendation. The dataset and related resources are publicly available at
https://imgkkk574.github.io/KuaiLive.
Ссылки и действия
Дополнительные ресурсы: