CURE: Controlled Unlearning for Robust Embeddings -- Mitigating Conceptual Shortcuts in Pre-Trained Language Models

2509.05230v1 cs.CL, cs.AI, cs.LG 2025-09-09
Авторы:

Aysenur Kocak, Shuo Yang, Bardh Prenkaj, Gjergji Kasneci

Резюме на русском

#### Контекст Pre-trained language models (PLMs) достигли великолепных успехов во многих задачах естественного языка, однако остаются чувствительными к спуравидным, концептуальным отношениям, которые могут привести к спуравидным корреляциям. Эти отношения не только снижают надежность и справедливость модели, но и ограничивают её пригодность для применения в реальных условиях. В этой работе мы предлагаем CURE (Controlled Unlearning for Robust Embeddings), новый фреймворк, который активно призван устранить ключевые недостатки, связанные с концептуальными корреляциями, при этом сохранив основную текстовую информацию. #### Метод CURE предлагает трехэтапный подход к решению проблемы. Во-первых, с помощью **dedicated content extractor**, мы извлекаем представления, которые не затрагивают ключевые концепты, но при этом сохраняют смысловую нагрузку. Этот этап подкрепляется системой **reversal network**, которая обеспечивает минимальную потерю полезной информации. Во-вторых, мы вводим **controllable debiasing module**, который использует контрастное обучение для тонкого управления влиянием оставшихся концептуальных признаков. Это позволяет модели либо уменьшить негативные корреляции, либо, наоборот, использовать полезные признаки в зависимости от целевой задачи. Заметно, что CURE оптимизирована для лёгкого и эффективного использования, не требуя тяжёлых модификаций существующих PLMs. #### Результаты Мы проверили CURE на двух значимых датасетах — IMDB и Yelp. На IMDB, наши эксперименты показали абсолютный прирост в F1-меру на +10 баллов, что свидетельствует о сильном изменении в способности модели различать положительные и отрицательные отзывы. На Yelp, где задача была более сложной из-за меньшего количества признаков, CURE показала прирост в F1-меру на +2 балла. Эти результаты были достигнуты с незначительным дополнительным вычислительным накладным. Мы также проверили модель на спуравидных данных, где CURE показала существенное улучшение в справедливости и стабильности в сравнении с оригинальными PLMs. #### Значимость CURE предлагает универсальный подход к контролируемому удалению предрассудков в предрасположенных моделях. Он может быть применён в различных задачах, включая классификацию отзывов, моделирование мнений и генерацию текстов. Основные преимущества CURE включают: 1. **Улучшение справедливости и надежности** моделей в условиях, где спуравидные корреляции могут привести к несправедливости результатов. 2. **Минимальный накладываемый накладный эффект**, что делает её пригодной для практических задач. 3. **Гибкость**, позволяющая применять CURE в различных сценариях, от устранения ошибок до усиления нужных признаков. #### Выводы

Abstract

Pre-trained language models have achieved remarkable success across diverse applications but remain susceptible to spurious, concept-driven correlations that impair robustness and fairness. In this work, we introduce CURE, a novel and lightweight framework that systematically disentangles and suppresses conceptual shortcuts while preserving essential content information. Our method first extracts concept-irrelevant representations via a dedicated content extractor reinforced by a reversal network, ensuring minimal loss of task-relevant information. A subsequent controllable debiasing module employs contrastive learning to finely adjust the influence of residual conceptual cues, enabling the model to either diminish harmful biases or harness beneficial correlations as appropriate for the target task. Evaluated on the IMDB and Yelp datasets using three pre-trained architectures, CURE achieves an absolute improvement of +10 points in F1 score on IMDB and +2 points on Yelp, while introducing minimal computational overhead. Our approach establishes a flexible, unsupervised blueprint for combating conceptual biases, paving the way for more reliable and fair language understanding systems.

Ссылки и действия