On the Reproducibility of "FairCLIP: Harnessing Fairness in Vision-Language Learning''

2509.06535v1 cs.CV, cs.AI, cs.LG 2025-09-10

Авторы:

Hua Chang Bakker, Stan Fris, Angela Madelon Bernardy, Stan Deutekom

Резюме на русском

## Контекст Биомедицинские приложения искусственного интеллекта (ИИ), такие как анализ медицинских сканов и клинических записей, приобрели важное значение в современной медицине. Однако существуют значительные проблемы с целесообразностью, аккуратностью и справедливостью (fairness) в этих системах. CLIP (Contrastive Language-Image Pre-training), представленный Radford et al. (2021), широко используется для визуально-языковых задач. Однако существуют серьезные сомнения в том, что CLIP обеспечивает справедливость (fairness) в классификации глаукомы с использованием медицинских сканов и клинических записей. FairCLIP, предложенная Luo et al. (2024), предназначена для улучшения справедливости (fairness) CLIP за счет уменьшения разрывов в соответствии с группами значимости (sensitive groups) с помощью минимизации расстояния Шинха (Sinkhorn distance). Однако существуют различия между описанием модели в работе Luo et al. (2024) и ее реальной реализацией. Это создало необходимость в повторном исследовании и разработке новых моделей для лучшего понимания этих проблем. ## Метод Для изучения FairCLIP был проведен реплицированный эксперимент, основанный на оригинальной работе Luo et al. (2024). Однако из-за различий между описанием и реальной реализацией была разработана новая модель A-FairCLIP. Для расширения FairCLIP была предложена модель FairCLIP+, которая включает несколько атрибутов в свой подход к оптимизации. Эксперименты проводились с использованием медицинских сканов и клинических записей из Harvard-FairVLMed dataset. Результаты этих экспериментов были сравнены с оригинальными результатами, чтобы оценить эффективность FairCLIP в улучшении справедливости (fairness) и производительности. ## Результаты Эксперименты показали, что CLIP демонстрирует биаз, ориентированный на определенные демографические группы при классификации глаукомы с помощью медицинских сканов и клинических записей. Однако ни оригинальная реализация FairCLIP, ни A-FairCLIP не смогли значительно улучшить производительность или справедливость (fairness) в нулевой задаче классификации глаукомы. Хотя регуляризационный объектив снижает расстояние Шинха, результаты экспериментов не подтвердили, что FairCLIP значительно улучшает справедливость (fairness) или производительность в отношении классификации глаукомы. ## Значимость Результаты этих исследований имеют значительное значение для развития биомедицинских приложений ИИ. В частности, они подчеркивают необходимость в детальном анализе и реализации алгоритмов, чтобы гарантировать их справедливость (fairness) и эффективность. Проектирование новых моделей, таких как A-FairCLIP и FairCLIP+, п

Abstract

We investigated the reproducibility of FairCLIP, proposed by Luo et al. (2024), for improving the group fairness of CLIP (Radford et al., 2021) by minimizing image-text similarity score disparities across sensitive groups using the Sinkhorn distance. The experimental setup of Luo et al. (2024) was reproduced to primarily investigate the research findings for FairCLIP. The model description by Luo et al. (2024) was found to differ from the original implementation. Therefore, a new implementation, A-FairCLIP, is introduced to examine specific design choices. Furthermore, FairCLIP+ is proposed to extend the FairCLIP objective to include multiple attributes. Additionally, the impact of the distance minimization on FairCLIP's fairness and performance was explored. In alignment with the original authors, CLIP was found to be biased towards certain demographics when applied to zero-shot glaucoma classification using medical scans and clinical notes from the Harvard-FairVLMed dataset. However, the experimental results on two datasets do not support their claim that FairCLIP improves the performance and fairness of CLIP. Although the regularization objective reduces Sinkhorn distances, both the official implementation and the aligned implementation, A-FairCLIP, were not found to improve performance nor fairness in zero-shot glaucoma classification.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

On the Reproducibility of "FairCLIP: Harnessing Fairness in Vision-Language Learning''

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация