On Surjectivity of Neural Networks: Can you elicit any behavior from your model?

2508.19445v1 cs.LG, stat.ML 2025-08-30

Авторы:

Haozhe Jiang, Nika Haghtalab

Резюме на русском

#### Контекст В последние годы нейронные сети стали одним из основных инструментов в области машинного обучения и глубокого обучения. Они применяются в различных сферах, включая обработку естественного языка, анализ изображений, рекомендательные системы и многие другие. Однако с ростом их мощности и применений возникают новые проблемы, одной из которых является **вероятность нарушения моделей**. Нарушение моделей — это процесс, при котором пользователь может вызвать ненамеренное поведение сети. Одним из важных аспектов нарушения является проблема **surjectivity**, то есть возможность модели генерировать любой выход при любом входе. Эта проблема становится критичной в случае генерирующих моделей, где появление вредоносного или нежелательного контента может иметь серьезные последствия. В настоящей работе рассматривается вопрос surjectivity в современных нейронных сетях. #### Метод В данной работе используется методология анализа поведения нейронных сетей с использованием математических моделей и алгоритмов. Авторы фокусируются на изучении **surjectivity** в связи с моделями, использующими наиболее распространенные архитектуры, такие как **pre-layer normalization** и **linear-attention modules**. Алгоритмы используются для исследования свойств нейронных сетей и их направлений, включая **generative frameworks**, такие как GPT-style transformers и diffusion models. Авторы используют математические демонстрации для доказательства того, что многие из этих моделей почти всегда surjective, что означает, что они могут генерировать любой выход. Этот подход позволяет установить связь между свойствами архитектур и их уязвимостью к нарушениям. #### Результаты В ходе исследования авторы доказали, что нейронные сети, использующие **pre-layer normalization** и **linear-attention modules**, почти всегда surjective. Это означает, что в этих сетях можно генерировать любой выход от модели, даже если этот выход был не предусмотрен при обучении. Эти результаты подкрепляются экспериментами на различных данных, включая текстовые и изображения. Особое внимание уделяется таким популярным фреймворкам, как **GPT-style transformers** и **diffusion models**, где показано, что эти модели могут быть использованы для генерирования вредоносных или нежелательных выходов. Эти результаты указывают на возможность **jailbreak vulnerabilities**, которые могут быть использованы для нарушения моделей. #### Значимость Результаты этого исследования имеют значительное значение для развития безопасного применения нейронных сетей. Они показывают, что **surjectivity** является не только теоретическим понятием, но и практическим законом, который затрагивает большинство современных моделей. Эти результаты помогают понять, почему нейронные сети могут быть уязвимыми перед **adversarial attacks** и **jailbreaks**, и что это может имет

Abstract

Given a trained neural network, can any specified output be generated by some input? Equivalently, does the network correspond to a function that is surjective? In generative models, surjectivity implies that any output, including harmful or undesirable content, can in principle be generated by the networks, raising concerns about model safety and jailbreak vulnerabilities. In this paper, we prove that many fundamental building blocks of modern neural architectures, such as networks with pre-layer normalization and linear-attention modules, are almost always surjective. As corollaries, widely used generative frameworks, including GPT-style transformers and diffusion models with deterministic ODE solvers, admit inverse mappings for arbitrary outputs. By studying surjectivity of these modern and commonly used neural architectures, we contribute a formalism that sheds light on their unavoidable vulnerability to a broad class of adversarial attacks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

On Surjectivity of Neural Networks: Can you elicit any behavior from your model?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Breaking Determinism: Stochastic Modeling for Reliable Off-Policy Evaluation in ...

Tuning-Free Structured Sparse Recovery of Multiple Measurement Vectors using Imp...

GaussDetect-LiNGAM:Causal Direction Identification without Gaussianity test

Parameter-Efficient Augment Plugin for Class-Incremental Learning

Mitigating the Curse of Detail: Scaling Arguments for Feature Learning and Sampl...

Навигация