MASteer: Multi-Agent Adaptive Steer Strategy for End-to-End LLM Trustworthiness Repair

2508.06963v1 cs.AI, cs.LG 2025-08-13
Авторы:

Changqing Li, Tianlin Li, Xiaohan Zhang, Aishan Liu, Li Pan

Резюме на русском

#### Контекст Large Language Models (LLMs) становятся все более важными для решения различных задач, но столкнулись с проблемами, связанными с надежностью и доверием к результатам. Ошибки, связанные с предрассудками, ошибками в логике и несоответствиями фактов, остаются значительной проблемой. Обычные подходы, такие как supervised fine-tuning (SFT) и reinforcement learning with human feedback (RLHF), требуют больших затрат на время и ресурсы, что делает их менее эффективными для быстрого и гибкого использования. Другие подходы, такие как prompt engineering, либо недостаточно устойчивы, либо не могут масштабироваться для сложных сценариев. Репрезентационное обучение, которое использует внедрение целевых векторов для управления поведением модели, представляет собой легковесный и не требующий обучения подход. Тем не менее, существующие решения ограничиваются фиксированными стратегиями и не поддерживают автоматизацию и адаптацию. Мы предлагаем MASteer, первый полностью адаптивный фреймворк для ремонта надежности LLMs, который автоматизирует и оптимизирует процесс ремонта надежности. #### Метод MASteer состоит из двух основных компонентов: AutoTester и AutoRepairer. AutoTester является многоагентной системой, которая генерирует разнообразные, высококачественные сэмплы для тестирования и настройки модели. Эти сэмплы создаются с учетом различных сценариев и потребностей разработчиков. AutoRepairer, в свою очередь, создает адаптивные стратегии управления, используя анкорные векторы для автоматического выбора стратегии во время выполнения. Это делает процесс управления более гибким и автоматизированным. MASteer использует принципы representation engineering для внедрения концептуальных векторов во время выполнения, чтобы корректировать поведение модели в зависимости от контекста. Это позволяет MASteer легко адаптироваться к различным задачам и сценариям без необходимости дорогостоящих тренировочных процессов. #### Результаты Мы провели эксперименты на нескольких наборах данных, включая LLaMA-3.1-8B-Chat и Qwen-3-8B-Chat. MASteer показал существенные улучшения в метриках надежности по сравнению с текущими подходами. На LLaMA-3.1-8B-Chat, MASteer повысил производительность на 15,36%, а на Qwen-3-8B-Chat - на 4,21%. Эти результаты демонстрируют высокую эффективность MASteer в устранении проблем надежности без потери общих возможностей модели. Было также продемонстрировано, что MASteer значительно улучшает устойчивость и общую гибкость модели в различных сценариях. Эти результаты подтверждают мощь MASteer в создании легковесного, эффективного и адаптивного инструмента для ремонта надежности LLMs. #### Значимость MASteer предлагает новый подход к решению проблемы надежно

Abstract

Large Language Models (LLMs) face persistent and evolving trustworthiness issues, motivating developers to seek automated and flexible repair methods that enable convenient deployment across diverse scenarios. Existing repair methods like supervised fine-tuning (SFT) and reinforcement learning with human feedback (RLHF) are costly and slow, while prompt engineering lacks robustness and scalability. Representation engineering, which steers model behavior by injecting targeted concept vectors during inference, offers a lightweight, training-free alternative. However, current approaches depend on manually crafted samples and fixed steering strategies, limiting automation and adaptability. To overcome these challenges, we propose MASteer, the first end-to-end framework for trustworthiness repair in LLMs based on representation engineering. MASteer integrates two core components: AutoTester, a multi-agent system that generates diverse, high-quality steer samples tailored to developer needs; and AutoRepairer, which constructs adaptive steering strategies with anchor vectors for automated, context-aware strategy selection during inference. Experiments on standard and customized trustworthiness tasks show MASteer consistently outperforms baselines, improving metrics by 15.36% on LLaMA-3.1-8B-Chat and 4.21% on Qwen-3-8B-Chat, while maintaining general model capabilities. MASteer demonstrates strong robustness, generalization, and practical value for scalable, efficient trustworthiness repair.

Ссылки и действия