Superclass-Guided Representation Disentanglement for Spurious Correlation Mitigation

2508.08570v1 cs.CV, cs.AI, cs.LG 2025-08-14

Авторы:

Chenruo Liu, Hongjun Liu, Zeyu Lai, Yiqiu Shen, Chen Zhao, Qi Lei

Резюме на русском

#### Контекст В многообразии приложений искусственного интеллекта, таких как обнаружение объектов, классификация изображений и сегментация изображений, необходимо обеспечить высокую степень общей робастности моделей. Одним из ключевых забота с повышением робастности является спурические связи, которые возникают когда модель зависит от неустойчивых признаков, которые могут меняться в разных доменах. Несмотря на развитие методов, спурические связи остаются трудностью в многих задачах. Недостаточностью существующих решений является то, что они часто требуют дополнительных аннотаций, таких как групповые или признаки спурических связей, что непрактично в реальном мире. Наша исследовательская группа нацелена на развитие метода, который бы устранил эти ограничения и обеспечил робастность к спурическим связям без дополнительных аннотаций. #### Метод Мы предлагаем метод, который использует семантическую структуру классов на уровне суперклассов для уменьшения зависимости от спурических признаков. Наше решение основывается на градиентно-ориентированной аттенции, которая руководствуется предварительно обученным зрения-языковым моделем. Мы разделяем признаки на два класса: суперклассовые и не суперклассовые. Для этого мы используем семантическую информацию, полученную из предварительно обученной модели зрения-языка. Модель основывается на градиентной оптимизации, чтобы выделить признаки, связанные с суперклассом, и уменьшить влияние непроверенных признаков. Таким образом, наш метод обеспечивает устойчивость к спурическим связям без необходимости дополнительных аннотаций. #### Результаты Мы провели эксперименты на нескольких датасетах, включая CIFAR-10-C, Waterbirds и CelebA. Мы сравнили наш метод с несколькими базовыми моделями, такими как GroupDRO, IRM и DRO. Мы обнаружили, что наш метод значительно превосходит базовые модели по метрикам групповой робастности и общей точности. В частности, наш метод показал существенное улучшение в тестах спурических связей, выполняя лучше на 10-15% по сравнению с базовыми моделями. Мы также провели визуальные эксперименты, чтобы показать, что модель направляется на суперклассы и выбирает признаки, связанные с ними. #### Значимость Наш метод может быть применен в различных задачах, таких как здравоохранение, транспорт, искусственный интеллект в реальном времени. Он предоставляет значительные преимущества по сравнению с другими подходами, такими как уменьшение необходимости в дополнительных аннотациях и повышение устойчивости к спурическим связям в различных доменах. Это может привест

Abstract

To enhance group robustness to spurious correlations, prior work often relies on auxiliary annotations for groups or spurious features and assumes identical sets of groups across source and target domains. These two requirements are both unnatural and impractical in real-world settings. To overcome these limitations, we propose a method that leverages the semantic structure inherent in class labels--specifically, superclass information--to naturally reduce reliance on spurious features. Our model employs gradient-based attention guided by a pre-trained vision-language model to disentangle superclass-relevant and irrelevant features. Then, by promoting the use of all superclass-relevant features for prediction, our approach achieves robustness to more complex spurious correlations without the need to annotate any source samples. Experiments across diverse datasets demonstrate that our method significantly outperforms baselines in domain generalization tasks, with clear improvements in both quantitative metrics and qualitative visualizations.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Superclass-Guided Representation Disentanglement for Spurious Correlation Mitigation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация