Where to Start Alignment? Diffusion Large Language Model May Demand a Distinct Position

2508.12398v1 cs.CR, cs.AI, cs.CL 2025-08-19
Авторы:

Zhixin Xie, Xurui Song, Jun Luo

Резюме на русском

#### Контекст Diffusion Large Language Models (dLLMs) представляют собой неоткрытый поток информации, отличающийся уникальным подходом к обучению и интерпретации. Однако пока что недостаточно изучена их безопасность, которая является ключевой задачей в их применении. Это создает мотивацию для разработки систем, обеспечивающих безопасность и эффективность в их работе, так как безопасное применение dLLMs в реальной среде обеспечивает доверие к их решениям и снижает риск нежелательных последствий. #### Метод Мы проводим тщательный анализ безопасности dLLMs, описывая критические особенности их генерирования. Методом глубокого анализа мы выявляем критические точки в процессе генерирования, помогающие сохранить безопасность выдаваемых ответов. Для обеспечения безопасности разрабатывается новая методика - Middle-tOken Safety Alignment (MOSA), которая направлена на прямое выравнивание структуры модели к безопасным отказам. Мы применяем к этому подходу методы реINFOнифорсментной машинной обучаемости, чтобы усилить эффективность. #### Результаты Мы проводим эксперименты с двумя наборами данных, представляющими собой базовые тесты на безопасность dLLMs. Метод MOSA показывает выдающиеся результаты, быстро и эффективно обеспечивая безопасность модели. Мы проводим сравнение с другими методами, показывая превосходство MOSA в рефузе безопасного генерирования. Также проводим эксперименты на тестировании универсальных знаний, таких как кодинг, математика и общие задачи реального мира. Результаты демонстрируют высокую эффективность и безопасность dLLMs с MOSA. #### Значимость Метод MOSA имеет множество потенциальных применений, включая технические решения, безопасность и создание безопасных моделей языковой модели. Он предлагает уникальное преимущество в своих свойствах, особенно в защите от внешних воздействий. Этот подход может сыграть важную роль в развитии безопасности и улучшении практических решений для охраны моделей данных. #### Выводы Разработанный подход MOSA открывает новые возможности для улучшения безопасности dLLMs и другого применения технологий моделирования языка. Мы планируем продолжить развитие этого подхода, ориентируясь на расширение его потенциала и применения в различных сферах. Эти найденные результаты станут основой для будущих исследований в области безопасности моделей языковых моделей.

Abstract

Diffusion Large Language Models (dLLMs) have recently emerged as a competitive non-autoregressive paradigm due to their unique training and inference approach. However, there is currently a lack of safety study on this novel architecture. In this paper, we present the first analysis of dLLMs' safety performance and propose a novel safety alignment method tailored to their unique generation characteristics. Specifically, we identify a critical asymmetry between the defender and attacker in terms of security. For the defender, we reveal that the middle tokens of the response, rather than the initial ones, are more critical to the overall safety of dLLM outputs; this seems to suggest that aligning middle tokens can be more beneficial to the defender. The attacker, on the contrary, may have limited power to manipulate middle tokens, as we find dLLMs have a strong tendency towards a sequential generation order in practice, forcing the attack to meet this distribution and diverting it from influencing the critical middle tokens. Building on this asymmetry, we introduce Middle-tOken Safety Alignment (MOSA), a novel method that directly aligns the model's middle generation with safe refusals exploiting reinforcement learning. We implement MOSA and compare its security performance against eight attack methods on two benchmarks. We also test the utility of MOSA-aligned dLLM on coding, math, and general reasoning. The results strongly prove the superiority of MOSA.

Ссылки и действия