Mo' Memory, Mo' Problems: Stream-Native Machine Unlearning
2508.10193v1
stat.ML, cs.LG
2025-08-15
Авторы:
Kennon Stewart
Резюме на русском
## Контекст
Сегодняшние машинные обучения (ML) работают в условиях постоянного потока данных, где необходимо не только обучать модели, но и учитывать отмену обучения (unlearning) при появлении новых данных. Однако многие методы машинного unlearning предполагают статическую среду с равномерно распределенными данными, что не соответствует реальности. Это ограничивает эффективность моделей и приводит к необходимости периодической переобучения, которая ресурсоёмка и неэффективна. Требуется новая подходка, которая бы учла особенности потоковых данных и повысила эффективность unlearning.
## Метод
Мы предлагаем перевести концепцию батч-unlearning в онлайн-среду, используя понятия regret, sample complexity и deletion capacity. Узкое место многих методов — дорогостоящее инвертирование Hessian-матрицы, которое мы заменяем на онлайн-версию оптимизации L-BFGS. Это уменьшает требования к памяти и позволяет модели работать дольше, прежде чем потребуется переобучение. Наш подход включает в себя новый алгоритм с logarithmic regret bound $\mathcal{O}(\ln{T})$, что является первым результатом в области машинного unlearning.
## Результаты
Мы провели эксперименты на реальных задачах, используя данные, которые поступают потоком. Наши результаты показали, что новый подход существенно сокращает необходимое время для unlearning и уменьшает требования к памяти. Модель стала более эффективной и может работать дольше без необходимости переобучения. Это позволяет сократить ресурсоемкость и улучшить производительность ML-систем в условиях постоянного потока данных.
## Значимость
Наш подход может применяться в различных областях, где необходимо постоянно обновлять модели ML в условиях потоковых данных, таких как мониторинг безопасности, системы рекомендаций или контроль качества. Он позволяет уменьшить затраты на периодическую переобучение и повысить эффективность работы моделей. Помимо этого, мы открываем динамическую среду для развития методов машинного unlearning, предлагая новый подход к решению этой проблемы в современных ML-системах.
## Выводы
Мы предложили новый подход к машинному unlearning, который учитывает особенности потоковых данных и улучшает эффективность процесса. Мы уменьшили необходимость в переобучении, сделав модели более эффективными в условиях реального времени. Наш работа открывает путь к дальнейшим исследованиям в области динамического unlearning, в том числе в расширении теоретических результатов и применении в различных задачах.
Abstract
Machine unlearning work assumes a static, i.i.d training environment that
doesn't truly exist. Modern ML pipelines need to learn, unlearn, and predict
continuously on production streams of data. We translate the notion of the
batch unlearning scenario to the online setting using notions of regret, sample
complexity, and deletion capacity. We further tighten regret bounds to a
logarithmic $\mathcal{O}(\ln{T})$, a first for a machine unlearning algorithm.
And we swap out an expensive Hessian inversion with online variant of L-BFGS
optimization, removing a memory footprint that scales linearly with time. Such
changes extend the lifespan of an ML model before expensive retraining, making
for a more efficient unlearning process.
Ссылки и действия
Дополнительные ресурсы: