No Prior, No Leakage: Revisiting Reconstruction Attacks in Trained Neural Networks

2509.21296v1 cs.LG, cs.AI, stat.ML 2025-09-27
Авторы:

Yehonatan Refael, Guy Smorodinsky, Ofir Lindenbaum, Itay Safran

Резюме на русском

## Контекст Современные нейронные сети показали замечательные результаты в области машинного обучения, но при этом сталкиваются с значительными проблемами, связанными с приватностью и безопасностью. Одним из ключевых аспектов является **запоминание тренировочных данных** сетями, что может привести к утечке конфиденциальной информации. Недавние исследования показали, что некоторые атаки могут восстановить части тренировочного набора данных непосредственно из параметров сети. Эти методы часто используют ускорение обучения, основанное на максимизации маржинала, что демонстрирует взаимосвязь между устойчивостью к атакам и высоким уровнем общезначимости модели. Тем не менее, на сегодняшний день, эти атаки слабо обоснованы теоретически, а их надежность и ограничения не понятны до конца. В нашей работе мы взглянем на эту проблему с другой стороны, изучив уязвимости и ограничения существующих атак, а также изучив условия, при которых они могут быть неустойчивы. ## Метод Мы применяем **аналитические методы** для рассмотрения базовых свойств моделей и **эмпирические эксперименты** для проверки наших теоретических выводов. Наша модель является обычной нейронной сетью, обученной на задаче классификации, с использованием различных архитектур и настроек. Мы используем методы **gradient descent** для моделирования атак и применяем методы **theoretical bounds** для проверки устойчивости атак в теории. Основной целью нашей работы является изучение условий, под которыми **reconstruction attacks** могут быть неустойчивыми, и определение условий для повышения приватности модели. ## Результаты Мы проводим ряд экспериментов на различных датасетах, таких как **CIFAR-10** и **Fashion-MNIST**, используя разные архитектуры нейронных сетей. Наши результаты показывают, что **reconstruction attacks** могут быть неустойчивы, если не использовать дополнительные предположения о тренировочных данных. Мы доказываем, что в случае отсутствия дополнительных знаний, есть **неограниченное количество решений**, которые могут быть арбитрарно далеки от истинного тренировочного набора. Эмпирические результаты также показывают, что **exact duplication** тренировочных примеров происходит только в редких случаях, что демонстрирует слабость существующих атак. Мы также проверяем, как **more extensive training** может повлиять на устойчивость модели к атакам, и обнаруживаем, что более тщательно обученные модели, на самом деле, являются **less vulnerable** к таким атакам, что является неожиданным результатом. ## Значимость Наше исследование имеет **практическое значение** для понимания условий, при которых могут возникать **privacy leaks** в нейронных сетях. Мы показываем, что **без допол

Abstract

The memorization of training data by neural networks raises pressing concerns for privacy and security. Recent work has shown that, under certain conditions, portions of the training set can be reconstructed directly from model parameters. Some of these methods exploit implicit bias toward margin maximization, suggesting that properties often regarded as beneficial for generalization may actually compromise privacy. Yet despite striking empirical demonstrations, the reliability of these attacks remains poorly understood and lacks a solid theoretical foundation. In this work, we take a complementary perspective: rather than designing stronger attacks, we analyze the inherent weaknesses and limitations of existing reconstruction methods and identify conditions under which they fail. We rigorously prove that, without incorporating prior knowledge about the data, there exist infinitely many alternative solutions that may lie arbitrarily far from the true training set, rendering reconstruction fundamentally unreliable. Empirically, we further demonstrate that exact duplication of training examples occurs only by chance. Our results refine the theoretical understanding of when training set leakage is possible and offer new insights into mitigating reconstruction attacks. Remarkably, we demonstrate that networks trained more extensively, and therefore satisfying implicit bias conditions more strongly -- are, in fact, less susceptible to reconstruction attacks, reconciling privacy with the need for strong generalization in this setting.

Ссылки и действия