CURE: Controlled Unlearning for Robust Embeddings -- Mitigating Conceptual Shortcuts in Pre-Trained Language Models
2509.05230v1
cs.CL, cs.AI, cs.LG
2025-09-09
Авторы:
Aysenur Kocak, Shuo Yang, Bardh Prenkaj, Gjergji Kasneci
Резюме на русском
#### Контекст
Pre-trained language models (PLMs) достигли великолепных успехов во многих задачах естественного языка, однако остаются чувствительными к спуравидным, концептуальным отношениям, которые могут привести к спуравидным корреляциям. Эти отношения не только снижают надежность и справедливость модели, но и ограничивают её пригодность для применения в реальных условиях. В этой работе мы предлагаем CURE (Controlled Unlearning for Robust Embeddings), новый фреймворк, который активно призван устранить ключевые недостатки, связанные с концептуальными корреляциями, при этом сохранив основную текстовую информацию.
#### Метод
CURE предлагает трехэтапный подход к решению проблемы. Во-первых, с помощью **dedicated content extractor**, мы извлекаем представления, которые не затрагивают ключевые концепты, но при этом сохраняют смысловую нагрузку. Этот этап подкрепляется системой **reversal network**, которая обеспечивает минимальную потерю полезной информации. Во-вторых, мы вводим **controllable debiasing module**, который использует контрастное обучение для тонкого управления влиянием оставшихся концептуальных признаков. Это позволяет модели либо уменьшить негативные корреляции, либо, наоборот, использовать полезные признаки в зависимости от целевой задачи. Заметно, что CURE оптимизирована для лёгкого и эффективного использования, не требуя тяжёлых модификаций существующих PLMs.
#### Результаты
Мы проверили CURE на двух значимых датасетах — IMDB и Yelp. На IMDB, наши эксперименты показали абсолютный прирост в F1-меру на +10 баллов, что свидетельствует о сильном изменении в способности модели различать положительные и отрицательные отзывы. На Yelp, где задача была более сложной из-за меньшего количества признаков, CURE показала прирост в F1-меру на +2 балла. Эти результаты были достигнуты с незначительным дополнительным вычислительным накладным. Мы также проверили модель на спуравидных данных, где CURE показала существенное улучшение в справедливости и стабильности в сравнении с оригинальными PLMs.
#### Значимость
CURE предлагает универсальный подход к контролируемому удалению предрассудков в предрасположенных моделях. Он может быть применён в различных задачах, включая классификацию отзывов, моделирование мнений и генерацию текстов. Основные преимущества CURE включают:
1. **Улучшение справедливости и надежности** моделей в условиях, где спуравидные корреляции могут привести к несправедливости результатов.
2. **Минимальный накладываемый накладный эффект**, что делает её пригодной для практических задач.
3. **Гибкость**, позволяющая применять CURE в различных сценариях, от устранения ошибок до усиления нужных признаков.
#### Выводы
Abstract
Pre-trained language models have achieved remarkable success across diverse
applications but remain susceptible to spurious, concept-driven correlations
that impair robustness and fairness. In this work, we introduce CURE, a novel
and lightweight framework that systematically disentangles and suppresses
conceptual shortcuts while preserving essential content information. Our method
first extracts concept-irrelevant representations via a dedicated content
extractor reinforced by a reversal network, ensuring minimal loss of
task-relevant information. A subsequent controllable debiasing module employs
contrastive learning to finely adjust the influence of residual conceptual
cues, enabling the model to either diminish harmful biases or harness
beneficial correlations as appropriate for the target task. Evaluated on the
IMDB and Yelp datasets using three pre-trained architectures, CURE achieves an
absolute improvement of +10 points in F1 score on IMDB and +2 points on Yelp,
while introducing minimal computational overhead. Our approach establishes a
flexible, unsupervised blueprint for combating conceptual biases, paving the
way for more reliable and fair language understanding systems.
Ссылки и действия
Дополнительные ресурсы: