Model Interpretability and Rationale Extraction by Input Mask Optimization

2508.11388v1 cs.CL, cs.CV, cs.LG 2025-08-19

Авторы:

Marc Brinner, Sina Zarriess

Резюме на русском

## Контекст Модели на основе нейронных сетей, особенно в области естественного языка и компьютерного зрения, продвигаются с поразительной скоростью. Однако, несмотря на их высокую точность, эти модели часто остаются черными ящиками, которые не дают понятных ответов о причинах своих решений. Это приводит к потребности в разработке методов, которые могут объяснить решения моделей. Более того, нередко необходимо не только объяснить решение, но и извлечь причины, которые стали основой для этого получения. Мы предлагаем новый подход, основанный на маскировании частей входных данных, которые модель считает некритичными для целевого класса. Это достигается с помощью оптимизации градиентов и регуляризационного схемы, которая гарантирует, что маскируемые части данных не только не влияют на решение, но и достаточны для поддержки этого решения. Этот подход позволяет сочетать модельные подходы к моделированию интерпретируемости и выделению причин. ## Метод Предлагаемый подход основывается на маскировании частей входных данных с помощью градиентной оптимизации. Мы используем регуляризационную схему, которая включает в себя три основных условия: существенность, полноту и компактность. Эти условия гарантируют, что исключенные части входных данных не только не влияют на решение модели, но и достаточны для того, чтобы поддержать его. Оптимизация происходит в два этапа: в первом этапе, мы определяем части входных данных, которые не влияют на решение модели; во втором этапе, мы оптимизируем эти части, чтобы они были достаточно информативными для поддержки решения. Этот подход может быть применен как к текстовым, так и к изображениям. ## Результаты Мы проверяли наш подход на текстовых данных и изображениях. Для текстовых данных, мы показали, что наш метод может стабильно выделять конкретные фрагменты текста, которые становятся причиной решения модели. Для изображений, мы получили выделение конкретных областей на изображении, которые становятся ключевыми для корректного распознавания моделью. Мы также проверили наш подход на множестве моделей и задач, показав, что он может быть применен к различным моделям и задачам. ## Значимость Предлагаемый подход может быть применен во многих областях, где необходимо понимание решений моделей. Это могут быть приложения в области естественного языка, компьютерного зрения, медицины и даже финансов. Наш подход имеет очевидные преимущества перед другими методами. Во-первых, он не требует тренировки дополнительных моделей для получения причин, что упрощает процесс. Во-вторых, он может быть применен к различным типам входных данных, что демонстрирует его очень высокую гибкость.

Abstract

Concurrent to the rapid progress in the development of neural-network based models in areas like natural language processing and computer vision, the need for creating explanations for the predictions of these black-box models has risen steadily. We propose a new method to generate extractive explanations for predictions made by neural networks, that is based on masking parts of the input which the model does not consider to be indicative of the respective class. The masking is done using gradient-based optimization combined with a new regularization scheme that enforces sufficiency, comprehensiveness and compactness of the generated explanation, three properties that are known to be desirable from the related field of rationale extraction in natural language processing. In this way, we bridge the gap between model interpretability and rationale extraction, thereby proving that the latter of which can be performed without training a specialized model, only on the basis of a trained classifier. We further apply the same method to image inputs and obtain high quality explanations for image classifications, which indicates that the conditions proposed for rationale extraction in natural language processing are more broadly applicable to different input types.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Model Interpretability and Rationale Extraction by Input Mask Optimization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TWEO: Transformers Without Extreme Outliers Enables FP8 Training And Quantizatio...

DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generati...

Words That Make Language Models Perceive

FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on ...

ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Atten...

Навигация