Improved Personalized Headline Generation via Denoising Fake Interests from Implicit Feedback

2508.07178v2 cs.CL, cs.AI 2025-08-15
Авторы:

Kejin Liu, Junhong Lian, Xiang Ao, Ningtao Wang, Xing Fu, Yu Cheng, Weiqiang Wang, Xinyu Liu

Резюме на русском

## Контекст Область исследования, связанная с персонализированным генерированием заголовков, крайне важна для современных платформ, где пользователи получают новости и содержимое на основе своих предпочтений. Однако существуют значительные проблемы, такие как включение в данные нежелательного шума, вызванного кликами на несвязанные с интересами пользователя материалы. Этот шум может приводить к ошибочному профилированию и, в итоге, к получению неточных результатов. Эти проблемы мотивируют разработку методов, которые способны отфильтровать ненужный шум и улучшить точность персонализации. ## Метод Метод, предложенный в работе, включает несколько ключевых этапов. Вначале используется двойной этап фильтрации для идентификации шума в клик-стриме, заключающегося в кратких посещениях и аномальных клик-бурстах. Затем, данные пропускаются через модель, которая активно учитывает временные изменения в поведении пользователя. Это позволяет динамически профилировать интересы пользователя, учитывая их нескольких аспектов. Такая архитектура обеспечивает более точное и актуальное генерирование заголовков, соответствующих настоящим потребностям пользователя. ## Результаты На основе проведенных экспериментов был показан эффект работы подхода на реальных данных. Был выделен новый датасет DT-PENS, содержащий клик-поведение 1000 пользователей и почти 10000 персонализированных заголовков с аннотациями по времени просмотра. Эксперименты показали, что предложенная модель существенно улучшает качество генерирования заголовков, повышая точность и соответствие пользовательским интересам. Эти результаты не только подтверждают эффективность метода но и демонстрируют его преимущество перед другими подходами в области персонализации новостей. ## Значимость Предложенный подход имеет широкие перспективы применения в сферах, где требуется точное профилирование пользователей, такие как новостные платформы, рекламные системы и другие сервисы, ориентированные на пользовательские предпочтения. Он не только улучшает качество получаемой информации но и повышает удовлетворенность пользователей. Благодаря этому, предлагаемый метод может положительно сказаться на эффективности работы платформ, увеличив их конкурентность и пользовательскую активность. ## Выводы Исследования показали, что предложенный подход способен эффективно устранить шум в клик-стриме и улучшить качество генерирования заголовков. На основе этих результатов, будущие исследования будут сфокусированы на дополнительном оптимизации модели и расширении её возможностей для

Abstract

Accurate personalized headline generation hinges on precisely capturing user interests from historical behaviors. However, existing methods neglect personalized-irrelevant click noise in entire historical clickstreams, which may lead to hallucinated headlines that deviate from genuine user preferences. In this paper, we reveal the detrimental impact of click noise on personalized generation quality through rigorous analysis in both user and news dimensions. Based on these insights, we propose a novel Personalized Headline Generation framework via Denoising Fake Interests from Implicit Feedback (PHG-DIF). PHG-DIF first employs dual-stage filtering to effectively remove clickstream noise, identified by short dwell times and abnormal click bursts, and then leverages multi-level temporal fusion to dynamically model users' evolving and multi-faceted interests for precise profiling. Moreover, we release DT-PENS, a new benchmark dataset comprising the click behavior of 1,000 carefully curated users and nearly 10,000 annotated personalized headlines with historical dwell time annotations. Extensive experiments demonstrate that PHG-DIF substantially mitigates the adverse effects of click noise and significantly improves headline quality, achieving state-of-the-art (SOTA) results on DT-PENS. Our framework implementation and dataset are available at https://github.com/liukejin-up/PHG-DIF.

Ссылки и действия