Freeze and Reveal: Exposing Modality Bias in Vision-Language Models

2508.07432v1 cs.CV, cs.AI 2025-08-13

Авторы:

Vivek Hruday Kavuri, Vysishtya Karanam, Venkata Jahnavi Venkamsetty, Kriti Madumadukala, Lakshmipathi Balaji Darur, Ponnurangam Kumaraguru

Резюме на русском

#### Контекст Vision-Language Models (VLMs) показали выдающиеся результаты в области мультимодального понимания, но часто унаследовали гендерные базы из своих данных тренировки. Эти базы могут возникать как из модальности изображений, так и из модальности текста. Несбалансированность таких моделей может привести к неточностям и несправедливости в реальном мире. В данной работе мы расследуем источники этих баз, применяя специальные методы дебаисинга и оценивая их эффективность на классических задачах с контролируемыми данными. #### Метод Мы применяем два основных метода дебаисинга: Counterfactual Data Augmentation (CDA) и Task Vector (TV). CDA заключается в добавлении стереотипических и нестереотипических примеров в тренировочный набор, чтобы снизить ошибки модели в распознавании гендера. Task Vector использвает векторные представления задач, чтобы скорректировать вклад каждой модальности в процессе обучения. Для улучшения данных без дополнительного расхода, мы предлагаем DAUDoS - Data Augmentation Using Degree of Stereotypicality. Этот подход определяет степень стереотипичности каждого примера и добавляет новые сценарии, сбалансировав стереотипы. Мы используем новую метрику, Degree of Stereotypicality, для оценки степени стереотипичности примеров в тренировочных данных. #### Результаты Мы провели эксперименты на датасете VisoGender, анализируя степень вклада каждой модальности в гендерные базы. Наша оценка показала, что CDA снижает гендерный гэп на 6%, в то время как DAUDoS — на 3%, но с применением трети меньше данных. Также оба метода улучшили точность распознавания гендера на 3%. Мы также выявили, что CLIP Vision Encoder и PaliGemma2 Text Encoder являются главными источниками гендерных баз, что позволяет нам вести более точные и эффективные дебаисинговые методы. #### Значимость Наша работа демонстрирует важность анализа источников гендерных баз в мультимодальных моделях и предлагает новые методы для их устранения. Мы предлагаем DAUDoS как эффективное средство для снижения баз с минимальным вычислительным вкладом. Модели с более сбалансированным пониманием гендера могут быть применены в различных областях, таких как диагностика, трудовая справедливость и социальные сети, чтобы уменьшить неточности и повысить справедливость. #### Выводы Мы успешно демонстрируем, что гендерные базы в VLMs могут быть снижены с помощью точечных методов дебаисинга, таких как CDA и DAUDoS. Наше исследование представляет собой залог для будущих исследований в области снижения гендерных баз в мультимодальных моделях, с целью создания более справедливых и эффективных систем. Мы также обосновываем необходимость подробного анализа источников

Abstract

Vision Language Models achieve impressive multi-modal performance but often inherit gender biases from their training data. This bias might be coming from both the vision and text modalities. In this work, we dissect the contributions of vision and text backbones to these biases by applying targeted debiasing using Counterfactual Data Augmentation and Task Vector methods. Inspired by data-efficient approaches in hate-speech classification, we introduce a novel metric, Degree of Stereotypicality and a corresponding debiasing method, Data Augmentation Using Degree of Stereotypicality - DAUDoS, to reduce bias with minimal computational cost. We curate a gender annotated dataset and evaluate all methods on VisoGender benchmark to quantify improvements and identify dominant source of bias. Our results show that CDA reduces the gender gap by 6% and DAUDoS by 3% but using only one-third of the data. Both methods also improve the model's ability to correctly identify gender in images by 3%, with DAUDoS achieving this improvement using only almost one-third of training data. From our experiment's, we observed that CLIP's vision encoder is more biased whereas PaliGemma2's text encoder is more biased. By identifying whether bias stems more from vision or text encoders, our work enables more targeted and effective bias mitigation strategies in future multi-modal systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Freeze and Reveal: Exposing Modality Bias in Vision-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация