Improved Personalized Headline Generation via Denoising Fake Interests from Implicit Feedback
2508.07178v2
cs.CL, cs.AI
2025-08-15
Авторы:
Kejin Liu, Junhong Lian, Xiang Ao, Ningtao Wang, Xing Fu, Yu Cheng, Weiqiang Wang, Xinyu Liu
Резюме на русском
## Контекст
Область исследования, связанная с персонализированным генерированием заголовков, крайне важна для современных платформ, где пользователи получают новости и содержимое на основе своих предпочтений. Однако существуют значительные проблемы, такие как включение в данные нежелательного шума, вызванного кликами на несвязанные с интересами пользователя материалы. Этот шум может приводить к ошибочному профилированию и, в итоге, к получению неточных результатов. Эти проблемы мотивируют разработку методов, которые способны отфильтровать ненужный шум и улучшить точность персонализации.
## Метод
Метод, предложенный в работе, включает несколько ключевых этапов. Вначале используется двойной этап фильтрации для идентификации шума в клик-стриме, заключающегося в кратких посещениях и аномальных клик-бурстах. Затем, данные пропускаются через модель, которая активно учитывает временные изменения в поведении пользователя. Это позволяет динамически профилировать интересы пользователя, учитывая их нескольких аспектов. Такая архитектура обеспечивает более точное и актуальное генерирование заголовков, соответствующих настоящим потребностям пользователя.
## Результаты
На основе проведенных экспериментов был показан эффект работы подхода на реальных данных. Был выделен новый датасет DT-PENS, содержащий клик-поведение 1000 пользователей и почти 10000 персонализированных заголовков с аннотациями по времени просмотра. Эксперименты показали, что предложенная модель существенно улучшает качество генерирования заголовков, повышая точность и соответствие пользовательским интересам. Эти результаты не только подтверждают эффективность метода но и демонстрируют его преимущество перед другими подходами в области персонализации новостей.
## Значимость
Предложенный подход имеет широкие перспективы применения в сферах, где требуется точное профилирование пользователей, такие как новостные платформы, рекламные системы и другие сервисы, ориентированные на пользовательские предпочтения. Он не только улучшает качество получаемой информации но и повышает удовлетворенность пользователей. Благодаря этому, предлагаемый метод может положительно сказаться на эффективности работы платформ, увеличив их конкурентность и пользовательскую активность.
## Выводы
Исследования показали, что предложенный подход способен эффективно устранить шум в клик-стриме и улучшить качество генерирования заголовков. На основе этих результатов, будущие исследования будут сфокусированы на дополнительном оптимизации модели и расширении её возможностей для
Abstract
Accurate personalized headline generation hinges on precisely capturing user
interests from historical behaviors. However, existing methods neglect
personalized-irrelevant click noise in entire historical clickstreams, which
may lead to hallucinated headlines that deviate from genuine user preferences.
In this paper, we reveal the detrimental impact of click noise on personalized
generation quality through rigorous analysis in both user and news dimensions.
Based on these insights, we propose a novel Personalized Headline Generation
framework via Denoising Fake Interests from Implicit Feedback (PHG-DIF).
PHG-DIF first employs dual-stage filtering to effectively remove clickstream
noise, identified by short dwell times and abnormal click bursts, and then
leverages multi-level temporal fusion to dynamically model users' evolving and
multi-faceted interests for precise profiling. Moreover, we release DT-PENS, a
new benchmark dataset comprising the click behavior of 1,000 carefully curated
users and nearly 10,000 annotated personalized headlines with historical dwell
time annotations. Extensive experiments demonstrate that PHG-DIF substantially
mitigates the adverse effects of click noise and significantly improves
headline quality, achieving state-of-the-art (SOTA) results on DT-PENS. Our
framework implementation and dataset are available at
https://github.com/liukejin-up/PHG-DIF.
Ссылки и действия
Дополнительные ресурсы: