Steering MoE LLMs via Expert (De)Activation

2509.09660v1 cs.CL, cs.LG 2025-09-13
Авторы:

Mohsen Fayyaz, Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Ryan Rossi, Trung Bui, Hinrich Schütze, Nanyun Peng

Резюме на русском

## Контекст Mixture-of-Experts (MoE) — это архитектурная компонента в Больших Лингвистических Моделях (LLMs), которая позволяет эффективно обрабатывать входные данные, путем перенаправления каждого токена через определенную подсистему специализированных Feed-Forward Networks (FFN), называемых экспертами (experts). Хотя MoE позволяет решать задачи, такие как эффективность вычислений и настройка моделей, он также создает проблемы с фиксацией конкретных поведенческих характеристик модели, таких как безопасность и точность. Наличие таких проблем мотивирует разработку новых методов управления поведением моделей, которые могут быть применены без переукладки модели или изменения весов. ## Метод Мы предлагаем SteerMoE — рамочную модель для управления поведением MoE-LLMs, основанную на детектировании и контроле экспертов, связанных с конкретными поведенческими характеристиками. Метод детектирования определяет эксперты, отличающиеся по активации при различных входных парах, отображающих контрастирующие поведения. Эти эксперты могут быть выключены или включены во время инференса, что позволяет контролировать поведение модели, такие как надежность и безопасность, без переуничтожения модели. Инновационной чертой SteerMoE является его гибкость в управлении поведением, которая обеспечивается без изменения весов модели. ## Результаты Мы провестим эксперименты на 11 бенчмарках и 6 LLMs, включая модели серий Mixture-of-Experts (Mixture-of-Experts) и GPT-3. Мы показали, что SteerMoE может улучшить безопасность модели на до 20% и увеличить надежность на 27%, выполняя это непосредственно во время инференса. Более того, мы протестировали SteerMoE в режиме атаки адверсариального характера, показывая, что модель может уменьшить безопасность системы до -41%, и даже до -100%, когда сочетается с другими методами обхода защитных механизмов. Эти результаты открывают новую грань в анализе поведенческих аспектов больших моделей языкового моделирования. ## Значимость Мы видим широкие области применения SteerMoE в сферах, где требуется контроль безопасности и точности моделей, таких как модели для здравоохранения, финансовые системы и поисковые системы. Эта модель демонстрирует возможность подготовки модели к конкретным сценариям без необходимости переучивать модель целиком. Наш подход демонстрирует новую степень гибкости в управлении поведением, который может помочь обнаружить и устранить проблемы в системах с людьми в центре, таких как взаимодействие с пользователем или решение этических задач. ## Выводы Мы представили SteerMoE — мощный подход к управлению поведением моделе

Abstract

Mixture-of-Experts (MoE) in Large Language Models (LLMs) routes each token through a subset of specialized Feed-Forward Networks (FFN), known as experts. We present SteerMoE, a framework for steering MoE models by detecting and controlling behavior-linked experts. Our detection method identifies experts with distinct activation patterns across paired inputs exhibiting contrasting behaviors. By selectively (de)activating such experts during inference, we control behaviors like faithfulness and safety without retraining or modifying weights. Across 11 benchmarks and 6 LLMs, our steering raises safety by up to +20% and faithfulness by +27%. In adversarial attack mode, it drops safety by -41% alone, and -100% when combined with existing jailbreak methods, bypassing all safety guardrails and exposing a new dimension of alignment faking hidden within experts.

Ссылки и действия