Freeze and Reveal: Exposing Modality Bias in Vision-Language Models
2508.07432v1
cs.CV, cs.AI
2025-08-13
Авторы:
Vivek Hruday Kavuri, Vysishtya Karanam, Venkata Jahnavi Venkamsetty, Kriti Madumadukala, Lakshmipathi Balaji Darur, Ponnurangam Kumaraguru
Резюме на русском
#### Контекст
Vision-Language Models (VLMs) показали выдающиеся результаты в области мультимодального понимания, но часто унаследовали гендерные базы из своих данных тренировки. Эти базы могут возникать как из модальности изображений, так и из модальности текста. Несбалансированность таких моделей может привести к неточностям и несправедливости в реальном мире. В данной работе мы расследуем источники этих баз, применяя специальные методы дебаисинга и оценивая их эффективность на классических задачах с контролируемыми данными.
#### Метод
Мы применяем два основных метода дебаисинга: Counterfactual Data Augmentation (CDA) и Task Vector (TV). CDA заключается в добавлении стереотипических и нестереотипических примеров в тренировочный набор, чтобы снизить ошибки модели в распознавании гендера. Task Vector использвает векторные представления задач, чтобы скорректировать вклад каждой модальности в процессе обучения. Для улучшения данных без дополнительного расхода, мы предлагаем DAUDoS - Data Augmentation Using Degree of Stereotypicality. Этот подход определяет степень стереотипичности каждого примера и добавляет новые сценарии, сбалансировав стереотипы. Мы используем новую метрику, Degree of Stereotypicality, для оценки степени стереотипичности примеров в тренировочных данных.
#### Результаты
Мы провели эксперименты на датасете VisoGender, анализируя степень вклада каждой модальности в гендерные базы. Наша оценка показала, что CDA снижает гендерный гэп на 6%, в то время как DAUDoS — на 3%, но с применением трети меньше данных. Также оба метода улучшили точность распознавания гендера на 3%. Мы также выявили, что CLIP Vision Encoder и PaliGemma2 Text Encoder являются главными источниками гендерных баз, что позволяет нам вести более точные и эффективные дебаисинговые методы.
#### Значимость
Наша работа демонстрирует важность анализа источников гендерных баз в мультимодальных моделях и предлагает новые методы для их устранения. Мы предлагаем DAUDoS как эффективное средство для снижения баз с минимальным вычислительным вкладом. Модели с более сбалансированным пониманием гендера могут быть применены в различных областях, таких как диагностика, трудовая справедливость и социальные сети, чтобы уменьшить неточности и повысить справедливость.
#### Выводы
Мы успешно демонстрируем, что гендерные базы в VLMs могут быть снижены с помощью точечных методов дебаисинга, таких как CDA и DAUDoS. Наше исследование представляет собой залог для будущих исследований в области снижения гендерных баз в мультимодальных моделях, с целью создания более справедливых и эффективных систем. Мы также обосновываем необходимость подробного анализа источников
Abstract
Vision Language Models achieve impressive multi-modal performance but often
inherit gender biases from their training data. This bias might be coming from
both the vision and text modalities. In this work, we dissect the contributions
of vision and text backbones to these biases by applying targeted debiasing
using Counterfactual Data Augmentation and Task Vector methods. Inspired by
data-efficient approaches in hate-speech classification, we introduce a novel
metric, Degree of Stereotypicality and a corresponding debiasing method, Data
Augmentation Using Degree of Stereotypicality - DAUDoS, to reduce bias with
minimal computational cost. We curate a gender annotated dataset and evaluate
all methods on VisoGender benchmark to quantify improvements and identify
dominant source of bias. Our results show that CDA reduces the gender gap by 6%
and DAUDoS by 3% but using only one-third of the data. Both methods also
improve the model's ability to correctly identify gender in images by 3%, with
DAUDoS achieving this improvement using only almost one-third of training data.
From our experiment's, we observed that CLIP's vision encoder is more biased
whereas PaliGemma2's text encoder is more biased. By identifying whether bias
stems more from vision or text encoders, our work enables more targeted and
effective bias mitigation strategies in future multi-modal systems.
Ссылки и действия
Дополнительные ресурсы: