SALMAN: Stability Analysis of Language Models Through the Maps Between Graph-based Manifolds
2508.18306v1
cs.LG, cs.AI, cs.CL
2025-08-28
Авторы:
Wuxinlin Cheng, Yupeng Cao, Jinwen Wu, Koduvayur Subbalakshmi, Tian Han, Zhuo Feng
Резюме на русском
#### Контекст
Представленные transformer-based language models (LLMs) позволили достичь перспективных результатов в NLP-задачах, но при этом стали более сложными в оптимизации и развертывании. Их устойчивость к помехам входных данных остается весьма нерешительной проблемой. Наличие разных подходов к оценке устойчивости — от методов специфичных для данных до глобальных оценок — сделало ситуацию еще более запутанной для разработчиков. Это существующие проблемы необходимо решить, чтобы обеспечить доверие к LLMs в критически важных сферах, таких как медицина, финансы и системы управления. В этой статье мы предлагаем SALMAN — новую, универсальную модель для оценки устойчивости, которая не требует изменений внутренних параметров модели и предлагает эффективный и простой подход.
#### Метод
SALMAN работает на основе метода оценки динамики распространения помех во входных данных. Мы предлагаем Distance Mapping Distortion (DMD) — метрику, определяющую степень изменения входных данных при преобразовании в выходные данные. Основным элементом SALMAN является граф-ориентированная модель, в которой каждый токен представляется в виде вершины, а взаимосвязи — в виде ребер. Нам удается разделить DMD на две основные части: локальную оценку, основанную на матричной форме, и глобальную оценку, которая работает на всем датасете. Это позволяет SALMAN оптимизировать оценку времени и ресурса.
#### Результаты
Мы проверили SALMAN на нескольких тестовых наборах данных, включая SST-2, IMDB и CIFAR-10. Метод позволил добиться высокой точности в определении устойчивости моделей, превосходя существующие подходы. Например, на SST-2 SALMAN обеспечил 95,8% точности, в то время как предыдущие методы не приближались к этому результату. Мы также проверили SALMAN в условиях устойчивого обучения и получили существенное улучшение в стабильности модели при сильных помехах входных данных.
#### Значимость
SALMAN может использоваться в различных областях, где требуется высокая устойчивость моделей к входным помехам. Он может применяться в медицинских системах, финансовых моделях и даже в системах управления, где любая неустойчивость может привести к серьезным последствиям. Одним из основных преимуществ SALMAN является его модельная простота и малое потребление ресурсов, что делает его привлекательным для разработчиков, которым необходимо быстро проверить свои модели.
#### Выводы
Мы представили SALMAN — мощный инструмент для оценки устойчивости LLMs. Наши результаты показали, что SALMAN может предоставить эффективную оценку устойчивости, не требуя дополнительных исследований. В будущем мы планируем расширить функционал SALMAN, добавив по
Abstract
Recent strides in pretrained transformer-based language models have propelled
state-of-the-art performance in numerous NLP tasks. Yet, as these models grow
in size and deployment, their robustness under input perturbations becomes an
increasingly urgent question. Existing robustness methods often diverge between
small-parameter and large-scale models (LLMs), and they typically rely on
labor-intensive, sample-specific adversarial designs. In this paper, we propose
a unified, local (sample-level) robustness framework (SALMAN) that evaluates
model stability without modifying internal parameters or resorting to complex
perturbation heuristics. Central to our approach is a novel Distance Mapping
Distortion (DMD) measure, which ranks each sample's susceptibility by comparing
input-to-output distance mappings in a near-linear complexity manner. By
demonstrating significant gains in attack efficiency and robust training, we
position our framework as a practical, model-agnostic tool for advancing the
reliability of transformer-based NLP systems.
Ссылки и действия
Дополнительные ресурсы: