AesBiasBench: Evaluating Bias and Alignment in Multimodal Language Models for Personalized Image Aesthetic Assessment
2509.11620v1
cs.CL, cs.CY
2025-09-17
Авторы:
Kun Li, Lai-Man Po, Hongzheng Yang, Xuyuan Xu, Kangcheng Liu, Yuzhi Zhao
Резюме на русском
## Контекст
Область исследования связана с подтверждением того, что Multimodal Large Language Models (MLLMs) все чаще используются в Personalized Image Aesthetic Assessment (PIAA), как эффективный аналог экспертных оценок. Однако, необходимость оценивать их биазы и убедиться в том, что их результаты соответствуют реальным житейским предпочтениям, стала ключевой проблемой. Эта необходимость возникает из-за потенциальных скрытых биаз, возникающих в моделях в зависимости от таких факторов, как гендер, возраст и уровень образования. Методом решения этой проблемы выступает AesBiasBench, бенчмарк, ориентированный на измерение не только стероитпных биаз, но и на оценку того, насколько модели соответствуют реальным предпочтениям пользователей.
## Метод
AesBiasBench включает в себя три подзадачи: Aesthetic Perception, Assessment и Empathy. Он предлагает структурированные метрики IFD, NRD, AAS для измерения стероитпных биаз и уровня соответствия моделей реальным людям. Метрики IFD и NRD измеряют насколько биаз отражается в этических и нейрологических компонентах, а AAS является метрикой, которая позволяет измерить то, насколько эти модели похожи на житейские предпочтения. Использовались 19 моделей, включая GPT-4o, Claude-3.5-Sonnet, InternVL-2.5 и Qwen2.5-VL. Модели были оценены на 3000 изображениях с помощью 1000 демографических групп.
## Результаты
Из результатов оказалось, что меньшие модели демонстрируют более сильные стероитпные биазы, в то время как более крупные модели ближе выражают житейские предпочтения. Модели, которые используют информацию об идентичности, показали сильные стероитпные биазы, особенно в задаче Emotional Judgment. Например, лучшие результаты по этическому компоненту были показаны более крупными моделями, такими как GPT-4o, которая показала более точное соответствие реальным пользовательским предпочтениям. Однако эти модели показали сильные стероитпные биазы в задаче Emotional Judgment.
## Значимость
AesBiasBench может быть применен в различных сферах, включая личностный аудит моделей, улучшение этимологических моделей, и создание более точных алгоритмов в PIAA. Он предоставляет новые технические решения и метрики для оценки биаз и алignment, которые могут быть использованы для улучшения моделей в сфере PIAA. Благодаря этому бенчмарку можно улучшить понимание как стероитпных биаз, так и возможностей MLLMs в сложных визуально-языковых задачах.
## Выводы
Основные достижения включают разработку AesBiasBench, который позволяет проводить полную оценку MLLMs в PIAA с учетом стероитпных биаз и соответствия реальным предпочтениям. Бенчмарк показал, что более крупные модели вы most closely align with human preferences, но сильно демонст
Abstract
Multimodal Large Language Models (MLLMs) are increasingly applied in
Personalized Image Aesthetic Assessment (PIAA) as a scalable alternative to
expert evaluations. However, their predictions may reflect subtle biases
influenced by demographic factors such as gender, age, and education. In this
work, we propose AesBiasBench, a benchmark designed to evaluate MLLMs along two
complementary dimensions: (1) stereotype bias, quantified by measuring
variations in aesthetic evaluations across demographic groups; and (2)
alignment between model outputs and genuine human aesthetic preferences. Our
benchmark covers three subtasks (Aesthetic Perception, Assessment, Empathy) and
introduces structured metrics (IFD, NRD, AAS) to assess both bias and
alignment. We evaluate 19 MLLMs, including proprietary models (e.g., GPT-4o,
Claude-3.5-Sonnet) and open-source models (e.g., InternVL-2.5, Qwen2.5-VL).
Results indicate that smaller models exhibit stronger stereotype biases,
whereas larger models align more closely with human preferences. Incorporating
identity information often exacerbates bias, particularly in emotional
judgments. These findings underscore the importance of identity-aware
evaluation frameworks in subjective vision-language tasks.
Ссылки и действия
Дополнительные ресурсы: