CausalSent: Interpretable Sentiment Classification with RieszNet

2508.17576v2 cs.CL, cs.LG, 68T50 2025-08-27
Авторы:

Daniel Frees, Martin Pollack

Резюме на русском

#### Контекст Область исследования связана с применением методов глубокого обучения в задачах классификации и анализа текста, а также с поиском способов улучшения интерпретируемости моделей. Несмотря на высокую точность современных моделей NLP, их решения часто остаются непонятными для пользователей, что сказывается на доверии к их результатам. В этой статье авторы адресуют эту проблему, сосредотачиваясь на развитии моделей, которые не только демонстрируют высокую точность, но и обеспечивают понятную визуализацию принятых решений. Отдельно отмечается, что существующие подходы к регуляризации моделей часто теряются между компромиссом между точностью и интерпретируемостью. Мотивацией для этой работы является необходимость создания моделей, которые были бы как эффективными, так и прозрачными. #### Метод Авторы предлагают архитектуру двухголовенной нейронной сети, названную RieszNet. Она состоит из двух подсетей: одной, которая предсказывает класс текста, и другой, которая оценивает эффект текстового признака (например, слова) на класс. Эта многозадачная архитектура позволяет одновременно выполнять классификацию и анализ влияния отдельных факторов на результат. Алгоритм призван решать две задачи: точно классифицировать текст и предоставить понятное объяснение решения. Авторы используют RieszMonte Carlo-аппроксимацию для точного вычисления эффектов и улучшают их стабильность и точность. #### Результаты Для проверки модели был проведен эксперимент на двух наборах данных: синтетических Civil Comments и реальных IMDB-рецензиях. Результаты показали, что CausalSent уменьшает Mean Absolute Error (MAE) для оценки эффектов на 2-3 раза по сравнению с моделью Bansal et al. На IMDB-данных, например, CausalSent показала MAE в 2.9%, в то время как Bansal et al. получили 7.8%. Кроме того, авторы провели случайный эксперимент на слове "love" в IMDB-данных и обнаружили, что его присутствие повышает вероятность положительного отзыва на 2.9%. Эти результаты выявили важность слова "love" в формировании положительного сентимента. #### Значимость Результаты CausalSent имеют значительное значение для приложений в области медицины, финансов и маркетинга, где точность классификации и интерпретируемость решений критически важны. Интерпретация моделей позволяет пользователям понять условия, под которыми они работают, и уменьшить риск ошибок принятия решений. Авторы отмечают, что интерпретируемые модели не только повышают доверие к результатам, но и облегчают отладку и тестирование моделей. Это делает их привлекательными для приложений, где понимание причинных связей имеет решающее значение. #### Вывод

Abstract

Despite the overwhelming performance improvements offered by recent natural language processing (NLP) models, the decisions made by these models are largely a black box. Towards closing this gap, the field of causal NLP combines causal inference literature with modern NLP models to elucidate causal effects of text features. We replicate and extend Bansal et al's work on regularizing text classifiers to adhere to estimated effects, focusing instead on model interpretability. Specifically, we focus on developing a two-headed RieszNet-based neural network architecture which achieves better treatment effect estimation accuracy. Our framework, CausalSent, accurately predicts treatment effects in semi-synthetic IMDB movie reviews, reducing MAE of effect estimates by 2-3x compared to Bansal et al's MAE on synthetic Civil Comments data. With an ensemble of validated models, we perform an observational case study on the causal effect of the word "love" in IMDB movie reviews, finding that the presence of the word "love" causes a +2.9% increase in the probability of a positive sentiment.

Ссылки и действия