On the Reproducibility of "FairCLIP: Harnessing Fairness in Vision-Language Learning''
2509.06535v1
cs.CV, cs.AI, cs.LG
2025-09-10
Авторы:
Hua Chang Bakker, Stan Fris, Angela Madelon Bernardy, Stan Deutekom
Резюме на русском
## Контекст
Биомедицинские приложения искусственного интеллекта (ИИ), такие как анализ медицинских сканов и клинических записей, приобрели важное значение в современной медицине. Однако существуют значительные проблемы с целесообразностью, аккуратностью и справедливостью (fairness) в этих системах. CLIP (Contrastive Language-Image Pre-training), представленный Radford et al. (2021), широко используется для визуально-языковых задач. Однако существуют серьезные сомнения в том, что CLIP обеспечивает справедливость (fairness) в классификации глаукомы с использованием медицинских сканов и клинических записей. FairCLIP, предложенная Luo et al. (2024), предназначена для улучшения справедливости (fairness) CLIP за счет уменьшения разрывов в соответствии с группами значимости (sensitive groups) с помощью минимизации расстояния Шинха (Sinkhorn distance). Однако существуют различия между описанием модели в работе Luo et al. (2024) и ее реальной реализацией. Это создало необходимость в повторном исследовании и разработке новых моделей для лучшего понимания этих проблем.
## Метод
Для изучения FairCLIP был проведен реплицированный эксперимент, основанный на оригинальной работе Luo et al. (2024). Однако из-за различий между описанием и реальной реализацией была разработана новая модель A-FairCLIP. Для расширения FairCLIP была предложена модель FairCLIP+, которая включает несколько атрибутов в свой подход к оптимизации. Эксперименты проводились с использованием медицинских сканов и клинических записей из Harvard-FairVLMed dataset. Результаты этих экспериментов были сравнены с оригинальными результатами, чтобы оценить эффективность FairCLIP в улучшении справедливости (fairness) и производительности.
## Результаты
Эксперименты показали, что CLIP демонстрирует биаз, ориентированный на определенные демографические группы при классификации глаукомы с помощью медицинских сканов и клинических записей. Однако ни оригинальная реализация FairCLIP, ни A-FairCLIP не смогли значительно улучшить производительность или справедливость (fairness) в нулевой задаче классификации глаукомы. Хотя регуляризационный объектив снижает расстояние Шинха, результаты экспериментов не подтвердили, что FairCLIP значительно улучшает справедливость (fairness) или производительность в отношении классификации глаукомы.
## Значимость
Результаты этих исследований имеют значительное значение для развития биомедицинских приложений ИИ. В частности, они подчеркивают необходимость в детальном анализе и реализации алгоритмов, чтобы гарантировать их справедливость (fairness) и эффективность. Проектирование новых моделей, таких как A-FairCLIP и FairCLIP+, п
Abstract
We investigated the reproducibility of FairCLIP, proposed by Luo et al.
(2024), for improving the group fairness of CLIP (Radford et al., 2021) by
minimizing image-text similarity score disparities across sensitive groups
using the Sinkhorn distance. The experimental setup of Luo et al. (2024) was
reproduced to primarily investigate the research findings for FairCLIP. The
model description by Luo et al. (2024) was found to differ from the original
implementation. Therefore, a new implementation, A-FairCLIP, is introduced to
examine specific design choices. Furthermore, FairCLIP+ is proposed to extend
the FairCLIP objective to include multiple attributes. Additionally, the impact
of the distance minimization on FairCLIP's fairness and performance was
explored. In alignment with the original authors, CLIP was found to be biased
towards certain demographics when applied to zero-shot glaucoma classification
using medical scans and clinical notes from the Harvard-FairVLMed dataset.
However, the experimental results on two datasets do not support their claim
that FairCLIP improves the performance and fairness of CLIP. Although the
regularization objective reduces Sinkhorn distances, both the official
implementation and the aligned implementation, A-FairCLIP, were not found to
improve performance nor fairness in zero-shot glaucoma classification.
Ссылки и действия
Дополнительные ресурсы: