Mo' Memory, Mo' Problems: Stream-Native Machine Unlearning

2508.10193v1 stat.ML, cs.LG 2025-08-15
Авторы:

Kennon Stewart

Резюме на русском

## Контекст Сегодняшние машинные обучения (ML) работают в условиях постоянного потока данных, где необходимо не только обучать модели, но и учитывать отмену обучения (unlearning) при появлении новых данных. Однако многие методы машинного unlearning предполагают статическую среду с равномерно распределенными данными, что не соответствует реальности. Это ограничивает эффективность моделей и приводит к необходимости периодической переобучения, которая ресурсоёмка и неэффективна. Требуется новая подходка, которая бы учла особенности потоковых данных и повысила эффективность unlearning. ## Метод Мы предлагаем перевести концепцию батч-unlearning в онлайн-среду, используя понятия regret, sample complexity и deletion capacity. Узкое место многих методов — дорогостоящее инвертирование Hessian-матрицы, которое мы заменяем на онлайн-версию оптимизации L-BFGS. Это уменьшает требования к памяти и позволяет модели работать дольше, прежде чем потребуется переобучение. Наш подход включает в себя новый алгоритм с logarithmic regret bound $\mathcal{O}(\ln{T})$, что является первым результатом в области машинного unlearning. ## Результаты Мы провели эксперименты на реальных задачах, используя данные, которые поступают потоком. Наши результаты показали, что новый подход существенно сокращает необходимое время для unlearning и уменьшает требования к памяти. Модель стала более эффективной и может работать дольше без необходимости переобучения. Это позволяет сократить ресурсоемкость и улучшить производительность ML-систем в условиях постоянного потока данных. ## Значимость Наш подход может применяться в различных областях, где необходимо постоянно обновлять модели ML в условиях потоковых данных, таких как мониторинг безопасности, системы рекомендаций или контроль качества. Он позволяет уменьшить затраты на периодическую переобучение и повысить эффективность работы моделей. Помимо этого, мы открываем динамическую среду для развития методов машинного unlearning, предлагая новый подход к решению этой проблемы в современных ML-системах. ## Выводы Мы предложили новый подход к машинному unlearning, который учитывает особенности потоковых данных и улучшает эффективность процесса. Мы уменьшили необходимость в переобучении, сделав модели более эффективными в условиях реального времени. Наш работа открывает путь к дальнейшим исследованиям в области динамического unlearning, в том числе в расширении теоретических результатов и применении в различных задачах.

Abstract

Machine unlearning work assumes a static, i.i.d training environment that doesn't truly exist. Modern ML pipelines need to learn, unlearn, and predict continuously on production streams of data. We translate the notion of the batch unlearning scenario to the online setting using notions of regret, sample complexity, and deletion capacity. We further tighten regret bounds to a logarithmic $\mathcal{O}(\ln{T})$, a first for a machine unlearning algorithm. And we swap out an expensive Hessian inversion with online variant of L-BFGS optimization, removing a memory footprint that scales linearly with time. Such changes extend the lifespan of an ML model before expensive retraining, making for a more efficient unlearning process.

Ссылки и действия