What Data is Really Necessary? A Feasibility Study of Inference Data Minimization for Recommender Systems

2508.21547v1 cs.LG, cs.AI, cs.IR 2025-09-02
Авторы:

Jens Leysen, Marco Favier, Bart Goethals

Резюме на русском

## Контекст Рекомендательные системы, используемые в сферах, таких как электронная коммерция, социальные сети и медиа, широко распространены в наше время. Однако они привлекают внимание из-за их требований к объемам данных, которые необходимо сборить и обрабатывать. Эти данные часто включают персональную информацию, чья обработка должна соответствовать законодательству о защите данных, таком как GDPR. Одно из ключевых требований этого закона — принцип данных минимализации, который ограничивает сбор и обработку данных теми, что необходимы для достижения конкретного целевого предназначения. Однако для рекомендательных систем, использующих объемы данных, полученных пользователями, становится сложно определить, какие данные являются "необходимыми". Это ставит перед исследователями задачу разработки методов, которые позволят оптимизировать обработку данных без значительного снижения качества рекомендаций. ## Метод В данном исследовании изучается возможность минимизации данных, используемых для вывода информации в рекомендательных системах, с использованием метода неявного обратного отклика (implicit feedback). Исследователи предлагают новую формулировку задачи, включающую два ключевых вида данных: 1) данные, необходимые для вывода и 2) данные, используемые для проверки эффективности. Они рассмотрены в разных конфигурациях, включая различные модели, уровни сложности пользовательских предпочтений и размер истории пользовательских данных. Эксперименты проводятся на разных наборах данных, используя метрики, которые позволяют оценить качество рекомендаций и степень уменьшения данных. ## Результаты Исследование показало, что можно значимо уменьшить объем необходимых данных для вывода без существенного снижения качества рекомендаций. Например, с помощью специальных алгоритмов сжатия и техники выбора моделей, которые оптимизируют обработку неявного обратного отклика, возможно достичь значительного снижения объема данных. Однако эффективность таких техник зависит от конкретной ситуации, включая целевые показатели производительности, модель, которую используют, и характеристики пользователей, такие как размер их истории данных и сложность их предпочтений. Таким образом, хотя проблему можно решить с точки зрения техники, её практическое применение во многом определяется конкретными обстоятельствами. ## Значимость Это исследование имеет значимую теоретическую и практическую значимость. Оно демонстрирует, что принцип данных минимализации может быть применен в рекомендательных системах, что делает их более соответствующими законым о защите данных. Благодаря этому можно реализовать рекомендательные системы

Abstract

Data minimization is a legal principle requiring personal data processing to be limited to what is necessary for a specified purpose. Operationalizing this principle for recommender systems, which rely on extensive personal data, remains a significant challenge. This paper conducts a feasibility study on minimizing implicit feedback inference data for such systems. We propose a novel problem formulation, analyze various minimization techniques, and investigate key factors influencing their effectiveness. We demonstrate that substantial inference data reduction is technically feasible without significant performance loss. However, its practicality is critically determined by two factors: the technical setting (e.g., performance targets, choice of model) and user characteristics (e.g., history size, preference complexity). Thus, while we establish its technical feasibility, we conclude that data minimization remains practically challenging and its dependence on the technical and user context makes a universal standard for data `necessity' difficult to implement.

Ссылки и действия