📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Safe-Control: A Safety Patch for Mitigating Unsafe Content in Text-to-Image Generation Models
2025-09-02Авторы:
Xiangtao Meng, Yingkai Dong, Ning Yu, Li Wang, Zheng Li, Shanqing Guo
#### Контекст
Текстово-изображенческие (Text-to-Image, T2I) генерирующие модели позволяют автоматически создавать изображения на основе текстовых описаний. Однако эти модели не освобождены от риска использования в ущемлении, нарушении закона или других негативных целях. Например, модели могут генерировать вредоносное изображение в ответ на вредоносное запроса, что создает серьёзные безопасности. Этот факт делает необходимым развитие систем, которые могут эффективно снижать риск генерирования небезопасного контента. Несмотря на усилия разработчиков моделей, существующие системы безопасности остаются либо разрушимыми под условиями распространения, либо требуют значительных модификаций модели. Это стремится устранить Safe-Control, предложив новый подход к безопасности для T2I-моделей.
#### Метод
Safe-Control представляет собой новую систему безопасности, которая может быть добавлена в существующую модель T2I без необходимости серьёзных модификаций. Её основная идея заключается в использовании данных-основанных стратегий для создания "патчей" безопасности, которые могут адаптироваться к различным моделям. Это достигается путём внедрения специальных управляющих сигналов, которые могут снизить вероятность генерирования вредоносного контента. Метод Safe-Control базируется на технике плагинов, что позволяет ему быть легко применимым к различным моделям с одинаковой архитектурой. Таким образом, можно создавать различные патчи для разных моделей и объединять их в один универсальный.
#### Результаты
В ходе исследования были проанализированы шесть различных текстово-изображенческих моделей с одинаковой архитектурой. Метод Safe-Control был протестирован на генерировании изображений в условиях вредоносных запросов и атак, а также в условиях нормального использования. Результаты показали, что Safe-Control эффективно снижает вероятность генерирования небезопасного контента до 7%, что значительно ниже уровня, достигнутого другими существующими методами (которые в среднем отдают 20%). В то же время, Safe-Control не приводит к потерям в качестве изображения или убыванию текстовой привязки.
#### Значимость
Safe-Control может применяться в различных областях, где необходимо уменьшить риск генерирования вредоносного контента. Это могут быть системы генерирования изображений для учёбы, развлечений, или даже для безопасного использования в коммерческих проектах. Safe-Control обладает высокой гибкостью и может быть адаптирован для разных моделей, что сделает его полезным для различных сценариев использования. Этот подход может способст
Annotation:
Despite the advancements in Text-to-Image (T2I) generation models, their
potential for misuse or even abuse raises serious safety concerns. Model
developers have made tremendous efforts to introduce safety mechanisms that can
address these concerns in T2I models. However, the existing safety mechanisms,
whether external or internal, either remain susceptible to evasion under
distribution shifts or require extensive model-specific adjustments. To address
these limitations, we introduce Safe-Contr...
Авторы:
Amirhossein Nazeri, Wael Hafez
## Контекст
Convolutional Neural Networks (CNNs) являются основой современных систем компьютерного зрения, достигших неподражаемой точности в задачах распознавания изображений. Однако эти сети остаются уязвимыми к атакам с адверсарными помехами — подавленными модификациями входа, которые приводят к неверному классификационному решению с высокой уверенностью. Обнаружение таких вторжений требует, как правило, дорогостоящей ре-тренировки сети, изменения её архитектуры или снижения точности на чистых данных. Однако недавние исследования показали, что адверсарные помехи вызывают отклонения в структуре функций активации CNN, которые могут быть отслежены без изменения модели. Это открытие открыло путь к самодиагностическим системам, которые могут определять адверсарные вторжения в реальном времени без ущерба для производительности.
## Метод
Мы предлагаем метод основанный на энтропии для мониторинга надежности CNN неинвазивным способом. Метод использует многопоточный мониторинг энтропии во входных слоях CNN, оперируя степенью распределения энтропии в выходных функциях. Для экспериментов была использована модель VGG-16, подвергнутай атакам типа FGSM и PGD. Сравнение чистых входных данных с адверсарными помехами проводилось с использованием критерия Шапкирова–Фишера для вычисления разницы между распределениями энтропии. Этот подход позволил выделить существенные отличия в структуре активаций CNN при отклике на адверсарные входы.
## Результаты
Исследования показали, что адверсарные вторжения вызывают существенные отклонения в распределении энтропии во входных слоях VGG-16, особенно в ранних слоях. Эти отклонения отличаются на 7% по сравнению с чистыми входами, что создает возможность выделить адверсарные входы с 90% точностью. Использование критерия Шапкирова–Фишера позволило достичь заметных улучшений в обнаружении с низкими значениями злонамеренных ошибок (фальсиды и false negatives), равными приблизительно 20%. Эти результаты доказывают, что CNN могут быть эффективно мониторины по их энтропийным сигналам, не требуя каких-либо модификаций модели.
## Значимость
Наш подход может быть применен в различных областях, где релевантность и надежность сетей CNN играют ключевую роль, таких как безопасность видеонаблюдения, системы распознавания голоса и медицинское искусственное интеллект. Главными преимуществами являются его инвазивность, низкий расход ресурсов и возможность реализации на реальном железе в реальном времени. Это может стать основой для развития систем, которые не только обнаружят адверсарные вторжения, но и
Annotation:
Convolutional Neural Networks (CNNs) have become the foundation of modern
computer vision, achieving unprecedented accuracy across diverse image
recognition tasks. While these networks excel on in-distribution data, they
remain vulnerable to adversarial perturbations imperceptible input
modifications that cause misclassification with high confidence. However,
existing detection methods either require expensive retraining, modify network
architecture, or degrade performance on clean inputs. Here ...
Авторы:
Jefferson David Rodriguez Chivata, Davide Ghiani, Simone Maurizio La Cava, Marco Micheletto, Giulia Orrù, Federico Lama, Gian Luca Marcialis
## Контекст
ICAO-совместимые лицевые изображения, разработанные для безопасных биометрических паспортов, набирают важность в различных сферах, включая контроль пассажиров на границах, цифровые документы для путешествий и финансовые услуги. Их стандартизация обеспечивает глобальную интераптерабильность, но также становится причиной новых проблем, таких как морфинг и глубокое подделывание (deepfakes). Эти технологии могут использоваться для злонамеренных целей, включая кражу личности и незаконное распространение документов. Существующие методы, такие как Presentation Attack Detection (PAD), ограничены во времени и не могут обеспечить пост-съемочную защиту. В этой статье предлагается рассмотреть цифровой водяной знак и стеганографию как дополнительные подходы, которые позволяют внедрять в изображение устойчивые к подделке сигналы, обеспечивая непрерывный пост-съемочный контроль без нарушения стандартов ICAO.
## Метод
Работа посвящена исследованию цифровых водяных знаков и стеганографии в рамках их применения к ICAO-совместимым изображениям. Основная методология включает анализ существующих техник в трех основных направлениях: (1) оценка качества внедрения сигнала в изображения, (2) измерение уровня защиты от модификаций и (3) оценка повреждения качества изображения. Для этого используется трёххэш-анализ, метрики PSNR и SSIM, а также специальные методы для выявления морфинга и deepfakes. Технические решения включают различные алгоритмы водяных знаков и стеганографические подходы, оптимизированные для требований ICAO. Данные используются из открытых баз, таких как MORPH-II и CASIA-Iris, а также стандартные ICAO-совместимые выборки.
## Результаты
Проведенные эксперименты демонстрируют высокую эффективность внедрения водяных знаков и стеганографических сигналов в ICAO-совместимые изображения без существенного повреждения их качества. Был доказан устойчивость внедренных сигналов к модификациям, в том числе морфингу и deepfake-технологиям. В частности, стеганографические подходы показали высокую устойчивость к скрытому изменению изображения без потерь в качестве или видимых повреждений. Исследования также показали, что внедрение сигналов не влияет на стандартные требования ICAO, такие как разрешение и формат файла.
## Значимость
Такие подходы имеют широкие применения в системах безопасности, в частности в защите документов, контроле пассажиров и проверке личности в финансовых услугах. Они обеспечивают непрерывную проверку вне зависимости от момента съемки или модификации и
Annotation:
ICAO-compliant facial images, initially designed for secure biometric
passports, are increasingly becoming central to identity verification in a wide
range of application contexts, including border control, digital travel
credentials, and financial services. While their standardization enables global
interoperability, it also facilitates practices such as morphing and deepfakes,
which can be exploited for harmful purposes like identity theft and illegal
sharing of identity documents. Traditional...
Авторы:
Naen Xu, Jinghuai Zhang, Changjiang Li, Zhi Chen, Chunyi Zhou, Qingming Li, Tianyu Du, Shouling Ji
## Контекст
Современные текстово-видео диффузионные модели (Text-to-Video, T2V) позволяют генерировать видео по текстовым описаниям, что делает их привлекательными для различных приложений. Однако это расширяет возможности их недобросовестного использования, включая создание нежелательного или вредоносного контента. Это связано с тем, что модели обучаются на больших датасетах, включающих незаконные идентификации, искусственные работы и вредоносные материалы. Эти факторы приводят к непредсказуемости и потенциальной опасности использования таких моделей. Необходимо разработать методы, обеспечивающие контроль над контентом, генерируемым этими моделями.
## Метод
Мы предлагаем VideoEraser, тренировка-бесплатную систему, которая предотвращает генерацию видео с нежелательными концепциями. Даже при явном указании пользователем, VideoEraser может не учитывать эти фрагменты в процессе генерации. Работа модели основывается на двух главных этапах:
1. **Selective Prompt Adjustment (SPEA)** – модификация запроса в процессе обучения, чтобы игнорировать нежелательные концепции.
2. **Adversarial-Resilient Noise Guidance (ARNG)** – добавление укрепляющего шума для устойчивости к атакам, которые могут повлиять на модель.
VideoEraser работает как модуль, который может быть интегрирован с любыми T2V диффузионными моделями, не требуя их переобучения.
## Результаты
Мы провели эксперименты на четырёх типах задач:
- **Object Erasure**: Удаление объектов из видео.
- **Artistic Style Erasure**: Удаление искусственных стилей.
- **Celebrity Erasure**: Удаление личностей.
- **Explicit Content Erasure**: Удаление нецензурного контента.
Данные были извлечены из публичных источников, и для каждой задачи проанализированы результаты с VideoEraser и без него. Эксперименты показали, что VideoEraser существенно превосходит базовые модели по критериям точности, эффективности и устойчивости к атакам. Например, в задаче объектного удаления, VideoEraser повысил точность до 92%, что превышает базовую модель на 46%.
## Значимость
VideoEraser может применяться в различных областях, включая защиту чести, юридические приложения и безопасность информации. Он обеспечивает улучшение контроля над контентом, создаваемым диффузионными моделями, уменьшая вероятность генерации вредоносных материалов. Кроме того, VideoEraser может повысить уровень безопасности и конфиденциальности во взаимодействии с текстовыми видео моделями.
## Выводы
Мы представили VideoEraser – уникальное решение для контроля над контентом в диффузионных моделях T2V. Наши результаты показывают, что модель показывает высокую точность и устойчивость в задачах удаления нежелательного контента. Будущи
Annotation:
The rapid growth of text-to-video (T2V) diffusion models has raised concerns
about privacy, copyright, and safety due to their potential misuse in
generating harmful or misleading content. These models are often trained on
numerous datasets, including unauthorized personal identities, artistic
creations, and harmful materials, which can lead to uncontrolled production and
distribution of such content. To address this, we propose VideoEraser, a
training-free framework that prevents T2V diffusion ...
Показано 11 -
14
из 14 записей