SoK: Data Minimization in Machine Learning
2508.10836v1
cs.LG, cs.CR
2025-08-16
Авторы:
Robin Staab, Nikola Jovanović, Kimberly Mai, Prakhar Ganesh, Martin Vechev, Ferdinando Fioretto, Matthew Jagielski
Резюме на русском
## Контекст
Область исследования машинного обучения (ML) становится всё более центральной в широких технических, экономических и социальных сферах. Однако использование больших данных в ML приводит к значительным вызовам в области защиты данных, в частности в отношении принципа хранения минимальных необходимых данных (Data Minimization, DM). Хранение минимальных данных является одним из ключевых принципов устойчивого и эффективного использования данных, охватывая ряд законодательных актов, включая GDPR (Европейский регламент защиты данных) и CPRA (Право жителей Калифорнии на защиту данных). Несоблюдение этого принципа может привести к существенным регулированию, включая штрафы, достигающие сотен миллионов долларов. В ML, где потребность в больших наборах данных для эффективного обучения моделей является существенной, данный принцип является особенно важным. Таким образом, возникла новая область исследований — Data Minimization in Machine Learning (DMML), которая стремится справиться с данными проблемами. Несогласованность в понимании и применении методов DMML среди практиков делает необходимым развитие унифицированного подхода, чтобы облегчить применение и понимание этих принципов.
## Метод
Для решения проблемы несогласованности в понимании и применении методов DMML был разработан унифицированный фреймворк, включающий в себя данное централизированное центром обработки данных. Основной акцент был сделан на развитии методологии, которая позволяет определить точки минимизации в рамках целых процессов по обработке данных. В качестве центрального элемента фреймворка была принята постановка задачи, в которой выделены ключевые моменты, когда данные могут быть минимизированы, включая входные данные, выходные данные и промежуточные метрики. Были также разработаны алгоритмы и аддитивные метрики, которые позволяют измерять эффективность минимизации в различных сценариях. Основной целью было создание модели, которая была бы легко применяемая и понятна для практиков в области ML, независимо от их уровня технического опыта.
## Результаты
Для исследования эффективности разработанного фреймворка были проведены несколько экспериментов с использованием различных данных и задач. Были проанализированы сценарии, в которых применение методов DMML приводит к значительным повышениям эффективности и сокращению рисков. Например, в рамках одного из экспериментов был проведен анализ влияния методов минимизации на качество обучения модели, а также на предсказательную способность. Были изучены различные сценарии, включая обучение модели с минимальным набором данных и сравнение показателей с более широким набором дан
Abstract
Data minimization (DM) describes the principle of collecting only the data
strictly necessary for a given task. It is a foundational principle across
major data protection regulations like GDPR and CPRA. Violations of this
principle have substantial real-world consequences, with regulatory actions
resulting in fines reaching hundreds of millions of dollars. Notably, the
relevance of data minimization is particularly pronounced in machine learning
(ML) applications, which typically rely on large datasets, resulting in an
emerging research area known as Data Minimization in Machine Learning (DMML).
At the same time, existing work on other ML privacy and security topics often
addresses concerns relevant to DMML without explicitly acknowledging the
connection. This disconnect leads to confusion among practitioners,
complicating their efforts to implement DM principles and interpret the
terminology, metrics, and evaluation criteria used across different research
communities. To address this gap, our work introduces a comprehensive framework
for DMML, including a unified data pipeline, adversaries, and points of
minimization. This framework allows us to systematically review the literature
on data minimization and \emph{DM-adjacent} methodologies, for the first time
presenting a structured overview designed to help practitioners and researchers
effectively apply DM principles. Our work facilitates a unified DM-centric
understanding and broader adoption of data minimization strategies in AI/ML.
Ссылки и действия
Дополнительные ресурсы: