Datasets for Navigating Sensitive Topics in Recommendation Systems

2509.07269v1 cs.IR, cs.AI 2025-09-11
Авторы:

Amelia Kovacs, Jerry Chee, Kimia Kazemian, Sarah Dean

Резюме на русском

## Контекст Современные технологии, такие как рекомендательные системы и чат-боты, широко используются для распространения контента среди пользователей на основе анализа их предпочтений. Однако эти системы могут иметь негативные побочные эффекты, включая риск того, что пользователи могут нарваться на вредный или сенситивный контент. Это может привести к негативному воздействию на их устойчивость и общее благополучие. Одной из основных проблем является оценка уровня сенситивности контента и его воздействия на пользователей. Для решения этой проблемы необходимо создание высококачественных данных с подробными описаниями сенситивности контента, чтобы помочь исследователям изучить эти вопросы. ## Метод Для решения этой задачи были созданы две новые выборки данных. Первая сборка данных объединяет оценки пользователей с рекомендациями сайта "Does the Dog Die?" и содержит подробные метки сенситивности. Вторая выборка объединяет данные о взаимодействии с фанфиком с информацией о пользовательских оценках и предупреждениях с использованием сайта Archive of Our Own. Обоих сборок присутствуют подробные метки сенситивности, которые позволяют анализировать не только контент, но и его воздействие на пользователей. ## Результаты Эксперименты показали, что использование этих двух выборок данных позволяет лучше понять, как различные типы контента влияют на пользователей. На основе данных с сайта "Does the Dog Die?" были проведены анализы по риску пользователям нарваться на сенситивный контент, а на основе данных с Archive of Our Own — по изучению связи между оценками пользователей и их взаимодействием с контентом. Эти находки дают перспективу для более точного и эффективного управления содержимым в рекомендательных системах. ## Значимость Данные, представленные в данной статье, могут быть применены в различных областях, включая анализ влияния рекомендательных систем на пользователей, развитие методов управления контентом и повышение уровня свободы выбора. Использование этих данных позволяет не только понять структуру сенситивности контента, но и разработать методы, которые способствуют повышению пользовательского благополучия при использовании рекомендательных систем. ## Выводы Создание этих двух выборок данных является важной шагом в развитии исследований в области контента и рекомендательных систем. Они открывают путь к дальнейшим исследованиям по влиянию контента на пользователей, а также к разработке более сильных и индивидуализированных моделей рекомендаций. В будущем могут быть рассмотрены дополнительные способы создания высококачественных данных для расширения этой области исследований.

Abstract

Personalized AI systems, from recommendation systems to chatbots, are a prevalent method for distributing content to users based on their learned preferences. However, there is growing concern about the adverse effects of these systems, including their potential tendency to expose users to sensitive or harmful material, negatively impacting overall well-being. To address this concern quantitatively, it is necessary to create datasets with relevant sensitivity labels for content, enabling researchers to evaluate personalized systems beyond mere engagement metrics. To this end, we introduce two novel datasets that include a taxonomy of sensitivity labels alongside user-content ratings: one that integrates MovieLens rating data with content warnings from the Does the Dog Die? community ratings website, and another that combines fan-fiction interaction data and user-generated warnings from Archive of Our Own.

Ссылки и действия