Rationalizing Transformer Predictions via End-To-End Differentiable Self-Training
2508.11393v1
cs.CL, cs.LG
2025-08-19
Авторы:
Marc Brinner, Sina Zarrieß
Резюме на русском
#### Контекст
Трансформеры стали важной компонентой современной ИИ, позволяя решать задачи классификации с высокой точностью. Однако, необходимость в интерпретируемости моделей приводит к трудностям: традиционное разделение на рационализаторы и классификаторы приводит к нестепенности и нестабильности тренировки. Многие существующие подходы страдают от этих проблем, что негативно сказывается на их универсальности и применимости. Мотивацией для настоящего исследования является создание системы, объединяющей классификацию и рационализацию в единой модели, обеспечивающей прозрачность и устойчивость тренировки.
#### Метод
Мы предлагаем end-to-end differentiable training paradigm, в котором единая модель выполняет три функции: классификации, выделения рациональных фрагментов и оценки их вклада в классификацию. Мы используем three-player-game с упрощенным подходом, где модель выполняет все три роли. Это устраняет распространенные проблемы стабильности тренировки и упрощает архитектуру. Для рационального выделения мы используем parameterizing и regularizing, что позволяет повысить точность и согласованность с человеческими аннотациями. Такой подход не только улучшает стабильность, но и позволяет производить class-wise rationales, улучшая их качество и соответствие рукописным аннотациям.
#### Результаты
Мы проводили эксперименты на различных датасетах, включая IMDB и SST-2, чтобы проверить эффективность нашего подхода. Мы сравнивали нашу модель с традиционными three-player-game системами и показали, что наш подход существенно выигрывает в стабильности и точности классификации. Мы также показали, что наша модель лучше выполняет class-wise rationales, согласовываясь с рукописными аннотациями без явного наблюдения за ними в процессе обучения. Эти результаты подтверждают, что наш подход является state-of-the-art в области рационализации трансформеров.
#### Значимость
Наш подход открывает широкие возможности для применения в различных областях, где необходима прозрачность и уверенность в классификации. Он может быть использован в медицине, юриспруденции, финансах, где важно понимать, почему модель приняла конкретное решение. Мы также отмечаем преимущества state-of-the-art alignment с рукописными аннотациями, что значительно повышает надежность и предсказуемость модели. Мы планируем расширить наш подход, включив возможность повышенной спецификации и фокусировки на задаче, что может сделать нашу модель еще более универсальной и эффективной.
#### Выводы
Мы представили end-to-end differentiable training paradigm, который объединяет классификацию и рационализацию в единую модель, повышая стабильность и точность. Мы показали, что наш подход лучше выпо
Abstract
We propose an end-to-end differentiable training paradigm for stable training
of a rationalized transformer classifier. Our approach results in a single
model that simultaneously classifies a sample and scores input tokens based on
their relevance to the classification. To this end, we build on the widely-used
three-player-game for training rationalized models, which typically relies on
training a rationale selector, a classifier and a complement classifier. We
simplify this approach by making a single model fulfill all three roles,
leading to a more efficient training paradigm that is not susceptible to the
common training instabilities that plague existing approaches. Further, we
extend this paradigm to produce class-wise rationales while incorporating
recent advances in parameterizing and regularizing the resulting rationales,
thus leading to substantially improved and state-of-the-art alignment with
human annotations without any explicit supervision.
Ссылки и действия
Дополнительные ресурсы: