Where to Start Alignment? Diffusion Large Language Model May Demand a Distinct Position
2508.12398v1
cs.CR, cs.AI, cs.CL
2025-08-19
Авторы:
Zhixin Xie, Xurui Song, Jun Luo
Резюме на русском
#### Контекст
Diffusion Large Language Models (dLLMs) представляют собой неоткрытый поток информации, отличающийся уникальным подходом к обучению и интерпретации. Однако пока что недостаточно изучена их безопасность, которая является ключевой задачей в их применении. Это создает мотивацию для разработки систем, обеспечивающих безопасность и эффективность в их работе, так как безопасное применение dLLMs в реальной среде обеспечивает доверие к их решениям и снижает риск нежелательных последствий.
#### Метод
Мы проводим тщательный анализ безопасности dLLMs, описывая критические особенности их генерирования. Методом глубокого анализа мы выявляем критические точки в процессе генерирования, помогающие сохранить безопасность выдаваемых ответов. Для обеспечения безопасности разрабатывается новая методика - Middle-tOken Safety Alignment (MOSA), которая направлена на прямое выравнивание структуры модели к безопасным отказам. Мы применяем к этому подходу методы реINFOнифорсментной машинной обучаемости, чтобы усилить эффективность.
#### Результаты
Мы проводим эксперименты с двумя наборами данных, представляющими собой базовые тесты на безопасность dLLMs. Метод MOSA показывает выдающиеся результаты, быстро и эффективно обеспечивая безопасность модели. Мы проводим сравнение с другими методами, показывая превосходство MOSA в рефузе безопасного генерирования. Также проводим эксперименты на тестировании универсальных знаний, таких как кодинг, математика и общие задачи реального мира. Результаты демонстрируют высокую эффективность и безопасность dLLMs с MOSA.
#### Значимость
Метод MOSA имеет множество потенциальных применений, включая технические решения, безопасность и создание безопасных моделей языковой модели. Он предлагает уникальное преимущество в своих свойствах, особенно в защите от внешних воздействий. Этот подход может сыграть важную роль в развитии безопасности и улучшении практических решений для охраны моделей данных.
#### Выводы
Разработанный подход MOSA открывает новые возможности для улучшения безопасности dLLMs и другого применения технологий моделирования языка. Мы планируем продолжить развитие этого подхода, ориентируясь на расширение его потенциала и применения в различных сферах. Эти найденные результаты станут основой для будущих исследований в области безопасности моделей языковых моделей.
Abstract
Diffusion Large Language Models (dLLMs) have recently emerged as a
competitive non-autoregressive paradigm due to their unique training and
inference approach. However, there is currently a lack of safety study on this
novel architecture. In this paper, we present the first analysis of dLLMs'
safety performance and propose a novel safety alignment method tailored to
their unique generation characteristics. Specifically, we identify a critical
asymmetry between the defender and attacker in terms of security. For the
defender, we reveal that the middle tokens of the response, rather than the
initial ones, are more critical to the overall safety of dLLM outputs; this
seems to suggest that aligning middle tokens can be more beneficial to the
defender. The attacker, on the contrary, may have limited power to manipulate
middle tokens, as we find dLLMs have a strong tendency towards a sequential
generation order in practice, forcing the attack to meet this distribution and
diverting it from influencing the critical middle tokens. Building on this
asymmetry, we introduce Middle-tOken Safety Alignment (MOSA), a novel method
that directly aligns the model's middle generation with safe refusals
exploiting reinforcement learning. We implement MOSA and compare its security
performance against eight attack methods on two benchmarks. We also test the
utility of MOSA-aligned dLLM on coding, math, and general reasoning. The
results strongly prove the superiority of MOSA.
Ссылки и действия
Дополнительные ресурсы: