Vision-Language Models display a strong gender bias

2508.11262v1 cs.CV, cs.AI 2025-08-19
Авторы:

Aiswarya Konavoor, Raj Abhijit Dandekar, Rajat Dandekar, Sreedath Panat

Резюме на русском

#### Контекст Визуально-языковые модели (Vision-Language Models, VLM) становятся все более популярными в области обработки и анализа изображений и текстов. Они алгоритмически вырабатывают пространства, в которых изображения и тексты эффективно хранятся и взаимодействуют. Несмотря на их полезность в задачах восстановления информации и нулевого-словных переводах, эти модели могут нечаянно сохранять или даже усиливать социальные стереотипы. Одна из самых видимых проблем — стереотипы, связанные с полом. Мы исследуем, влияет ли VLM на способность ассоциировать гендерные стереотипы с отдельными стимулами, такими как лица и представленные в тексте профессии и ролевые характеристики. #### Метод Мы создали набор данных, состоящий из 220 лицевых фотографий, разделенных по просматриваемому половому признаку (с учетом текущих ограничений на определение пола). К каждой фотографии был привязан набор 150 уникальных утверждений, разделенных по шести категориям: эмоциональное, когнитивное и домашнее трудовое, техническое, профессиональные роли и физическое трудовое. Все изображения и тексты были представлены в виде векторов (embeddings) в общем пространстве. Мы использовали метод косного схожести (cosine similarity) для вычисления степени схожести этих векторов. Для оценки степени стереотипического упоминания каждого вида труда или роли мы вычисляли среднее значение схожести по каждой категории для каждого пола. Для получения узнаваемых интервалов доверия мы использовали метод бутстрэпа. Особенностью метода является тестирование гипотезы о том, что при случайной перестановке меток гендера (label-swap) средние значения схожести должны быть примерно равными. #### Результаты Мы получили карту гендерных ассоциаций для каждой категории труда в пространстве VLM. Наши результаты показали, что в некоторых категориях, таких как домашнее и эмоциональное трудовое, модель сильнее связывает лица по женскому полу с этими направлениями. Наоборот, модель сильнее связывает лица по мужскому полу с техническими и профессиональными ролями. Результаты доступны в виде графических интерфейсов, демонстрирующих распределение степени стереотипической ассоциации по категориям. Кроме того, мы провели сравнение с лабильным нолевым моделем (label-swap null model), которая показала значительное расхождение с реальными значениями, подтверждая наличие стереотипов. #### Значимость Наши результаты показали, что VLM могут не только сильно поддерживать существующие гендерные стереотипы, но и усиливать их в результате своей операции. Эти модели могут быть применены в сферах, где нежелательная а

Abstract

Vision-language models (VLM) align images and text in a shared representation space that is useful for retrieval and zero-shot transfer. Yet, this alignment can encode and amplify social stereotypes in subtle ways that are not obvious from standard accuracy metrics. In this study, we test whether the contrastive vision-language encoder exhibits gender-linked associations when it places embeddings of face images near embeddings of short phrases that describe occupations and activities. We assemble a dataset of 220 face photographs split by perceived binary gender and a set of 150 unique statements distributed across six categories covering emotional labor, cognitive labor, domestic labor, technical labor, professional roles, and physical labor. We compute unit-norm image embeddings for every face and unit-norm text embeddings for every statement, then define a statement-level association score as the difference between the mean cosine similarity to the male set and the mean cosine similarity to the female set, where positive values indicate stronger association with the male set and negative values indicate stronger association with the female set. We attach bootstrap confidence intervals by resampling images within each gender group, aggregate by category with a separate bootstrap over statements, and run a label-swap null model that estimates the level of mean absolute association we would expect if no gender structure were present. The outcome is a statement-wise and category-wise map of gender associations in a contrastive vision-language space, accompanied by uncertainty, simple sanity checks, and a robust gender bias evaluation framework.

Ссылки и действия