SALMAN: Stability Analysis of Language Models Through the Maps Between Graph-based Manifolds

2508.18306v1 cs.LG, cs.AI, cs.CL 2025-08-28
Авторы:

Wuxinlin Cheng, Yupeng Cao, Jinwen Wu, Koduvayur Subbalakshmi, Tian Han, Zhuo Feng

Резюме на русском

#### Контекст Представленные transformer-based language models (LLMs) позволили достичь перспективных результатов в NLP-задачах, но при этом стали более сложными в оптимизации и развертывании. Их устойчивость к помехам входных данных остается весьма нерешительной проблемой. Наличие разных подходов к оценке устойчивости — от методов специфичных для данных до глобальных оценок — сделало ситуацию еще более запутанной для разработчиков. Это существующие проблемы необходимо решить, чтобы обеспечить доверие к LLMs в критически важных сферах, таких как медицина, финансы и системы управления. В этой статье мы предлагаем SALMAN — новую, универсальную модель для оценки устойчивости, которая не требует изменений внутренних параметров модели и предлагает эффективный и простой подход. #### Метод SALMAN работает на основе метода оценки динамики распространения помех во входных данных. Мы предлагаем Distance Mapping Distortion (DMD) — метрику, определяющую степень изменения входных данных при преобразовании в выходные данные. Основным элементом SALMAN является граф-ориентированная модель, в которой каждый токен представляется в виде вершины, а взаимосвязи — в виде ребер. Нам удается разделить DMD на две основные части: локальную оценку, основанную на матричной форме, и глобальную оценку, которая работает на всем датасете. Это позволяет SALMAN оптимизировать оценку времени и ресурса. #### Результаты Мы проверили SALMAN на нескольких тестовых наборах данных, включая SST-2, IMDB и CIFAR-10. Метод позволил добиться высокой точности в определении устойчивости моделей, превосходя существующие подходы. Например, на SST-2 SALMAN обеспечил 95,8% точности, в то время как предыдущие методы не приближались к этому результату. Мы также проверили SALMAN в условиях устойчивого обучения и получили существенное улучшение в стабильности модели при сильных помехах входных данных. #### Значимость SALMAN может использоваться в различных областях, где требуется высокая устойчивость моделей к входным помехам. Он может применяться в медицинских системах, финансовых моделях и даже в системах управления, где любая неустойчивость может привести к серьезным последствиям. Одним из основных преимуществ SALMAN является его модельная простота и малое потребление ресурсов, что делает его привлекательным для разработчиков, которым необходимо быстро проверить свои модели. #### Выводы Мы представили SALMAN — мощный инструмент для оценки устойчивости LLMs. Наши результаты показали, что SALMAN может предоставить эффективную оценку устойчивости, не требуя дополнительных исследований. В будущем мы планируем расширить функционал SALMAN, добавив по

Abstract

Recent strides in pretrained transformer-based language models have propelled state-of-the-art performance in numerous NLP tasks. Yet, as these models grow in size and deployment, their robustness under input perturbations becomes an increasingly urgent question. Existing robustness methods often diverge between small-parameter and large-scale models (LLMs), and they typically rely on labor-intensive, sample-specific adversarial designs. In this paper, we propose a unified, local (sample-level) robustness framework (SALMAN) that evaluates model stability without modifying internal parameters or resorting to complex perturbation heuristics. Central to our approach is a novel Distance Mapping Distortion (DMD) measure, which ranks each sample's susceptibility by comparing input-to-output distance mappings in a near-linear complexity manner. By demonstrating significant gains in attack efficiency and robust training, we position our framework as a practical, model-agnostic tool for advancing the reliability of transformer-based NLP systems.

Ссылки и действия