MASteer: Multi-Agent Adaptive Steer Strategy for End-to-End LLM Trustworthiness Repair
2508.06963v1
cs.AI, cs.LG
2025-08-13
Авторы:
Changqing Li, Tianlin Li, Xiaohan Zhang, Aishan Liu, Li Pan
Резюме на русском
#### Контекст
Large Language Models (LLMs) становятся все более важными для решения различных задач, но столкнулись с проблемами, связанными с надежностью и доверием к результатам. Ошибки, связанные с предрассудками, ошибками в логике и несоответствиями фактов, остаются значительной проблемой. Обычные подходы, такие как supervised fine-tuning (SFT) и reinforcement learning with human feedback (RLHF), требуют больших затрат на время и ресурсы, что делает их менее эффективными для быстрого и гибкого использования. Другие подходы, такие как prompt engineering, либо недостаточно устойчивы, либо не могут масштабироваться для сложных сценариев. Репрезентационное обучение, которое использует внедрение целевых векторов для управления поведением модели, представляет собой легковесный и не требующий обучения подход. Тем не менее, существующие решения ограничиваются фиксированными стратегиями и не поддерживают автоматизацию и адаптацию. Мы предлагаем MASteer, первый полностью адаптивный фреймворк для ремонта надежности LLMs, который автоматизирует и оптимизирует процесс ремонта надежности.
#### Метод
MASteer состоит из двух основных компонентов: AutoTester и AutoRepairer. AutoTester является многоагентной системой, которая генерирует разнообразные, высококачественные сэмплы для тестирования и настройки модели. Эти сэмплы создаются с учетом различных сценариев и потребностей разработчиков. AutoRepairer, в свою очередь, создает адаптивные стратегии управления, используя анкорные векторы для автоматического выбора стратегии во время выполнения. Это делает процесс управления более гибким и автоматизированным. MASteer использует принципы representation engineering для внедрения концептуальных векторов во время выполнения, чтобы корректировать поведение модели в зависимости от контекста. Это позволяет MASteer легко адаптироваться к различным задачам и сценариям без необходимости дорогостоящих тренировочных процессов.
#### Результаты
Мы провели эксперименты на нескольких наборах данных, включая LLaMA-3.1-8B-Chat и Qwen-3-8B-Chat. MASteer показал существенные улучшения в метриках надежности по сравнению с текущими подходами. На LLaMA-3.1-8B-Chat, MASteer повысил производительность на 15,36%, а на Qwen-3-8B-Chat - на 4,21%. Эти результаты демонстрируют высокую эффективность MASteer в устранении проблем надежности без потери общих возможностей модели. Было также продемонстрировано, что MASteer значительно улучшает устойчивость и общую гибкость модели в различных сценариях. Эти результаты подтверждают мощь MASteer в создании легковесного, эффективного и адаптивного инструмента для ремонта надежности LLMs.
#### Значимость
MASteer предлагает новый подход к решению проблемы надежно
Abstract
Large Language Models (LLMs) face persistent and evolving trustworthiness
issues, motivating developers to seek automated and flexible repair methods
that enable convenient deployment across diverse scenarios. Existing repair
methods like supervised fine-tuning (SFT) and reinforcement learning with human
feedback (RLHF) are costly and slow, while prompt engineering lacks robustness
and scalability. Representation engineering, which steers model behavior by
injecting targeted concept vectors during inference, offers a lightweight,
training-free alternative. However, current approaches depend on manually
crafted samples and fixed steering strategies, limiting automation and
adaptability. To overcome these challenges, we propose MASteer, the first
end-to-end framework for trustworthiness repair in LLMs based on representation
engineering. MASteer integrates two core components: AutoTester, a multi-agent
system that generates diverse, high-quality steer samples tailored to developer
needs; and AutoRepairer, which constructs adaptive steering strategies with
anchor vectors for automated, context-aware strategy selection during
inference. Experiments on standard and customized trustworthiness tasks show
MASteer consistently outperforms baselines, improving metrics by 15.36% on
LLaMA-3.1-8B-Chat and 4.21% on Qwen-3-8B-Chat, while maintaining general model
capabilities. MASteer demonstrates strong robustness, generalization, and
practical value for scalable, efficient trustworthiness repair.
Ссылки и действия
Дополнительные ресурсы: