AesBiasBench: Evaluating Bias and Alignment in Multimodal Language Models for Personalized Image Aesthetic Assessment

2509.11620v1 cs.CL, cs.CY 2025-09-17

Авторы:

Kun Li, Lai-Man Po, Hongzheng Yang, Xuyuan Xu, Kangcheng Liu, Yuzhi Zhao

Резюме на русском

## Контекст Область исследования связана с подтверждением того, что Multimodal Large Language Models (MLLMs) все чаще используются в Personalized Image Aesthetic Assessment (PIAA), как эффективный аналог экспертных оценок. Однако, необходимость оценивать их биазы и убедиться в том, что их результаты соответствуют реальным житейским предпочтениям, стала ключевой проблемой. Эта необходимость возникает из-за потенциальных скрытых биаз, возникающих в моделях в зависимости от таких факторов, как гендер, возраст и уровень образования. Методом решения этой проблемы выступает AesBiasBench, бенчмарк, ориентированный на измерение не только стероитпных биаз, но и на оценку того, насколько модели соответствуют реальным предпочтениям пользователей. ## Метод AesBiasBench включает в себя три подзадачи: Aesthetic Perception, Assessment и Empathy. Он предлагает структурированные метрики IFD, NRD, AAS для измерения стероитпных биаз и уровня соответствия моделей реальным людям. Метрики IFD и NRD измеряют насколько биаз отражается в этических и нейрологических компонентах, а AAS является метрикой, которая позволяет измерить то, насколько эти модели похожи на житейские предпочтения. Использовались 19 моделей, включая GPT-4o, Claude-3.5-Sonnet, InternVL-2.5 и Qwen2.5-VL. Модели были оценены на 3000 изображениях с помощью 1000 демографических групп. ## Результаты Из результатов оказалось, что меньшие модели демонстрируют более сильные стероитпные биазы, в то время как более крупные модели ближе выражают житейские предпочтения. Модели, которые используют информацию об идентичности, показали сильные стероитпные биазы, особенно в задаче Emotional Judgment. Например, лучшие результаты по этическому компоненту были показаны более крупными моделями, такими как GPT-4o, которая показала более точное соответствие реальным пользовательским предпочтениям. Однако эти модели показали сильные стероитпные биазы в задаче Emotional Judgment. ## Значимость AesBiasBench может быть применен в различных сферах, включая личностный аудит моделей, улучшение этимологических моделей, и создание более точных алгоритмов в PIAA. Он предоставляет новые технические решения и метрики для оценки биаз и алignment, которые могут быть использованы для улучшения моделей в сфере PIAA. Благодаря этому бенчмарку можно улучшить понимание как стероитпных биаз, так и возможностей MLLMs в сложных визуально-языковых задачах. ## Выводы Основные достижения включают разработку AesBiasBench, который позволяет проводить полную оценку MLLMs в PIAA с учетом стероитпных биаз и соответствия реальным предпочтениям. Бенчмарк показал, что более крупные модели вы most closely align with human preferences, но сильно демонст

Abstract

Multimodal Large Language Models (MLLMs) are increasingly applied in Personalized Image Aesthetic Assessment (PIAA) as a scalable alternative to expert evaluations. However, their predictions may reflect subtle biases influenced by demographic factors such as gender, age, and education. In this work, we propose AesBiasBench, a benchmark designed to evaluate MLLMs along two complementary dimensions: (1) stereotype bias, quantified by measuring variations in aesthetic evaluations across demographic groups; and (2) alignment between model outputs and genuine human aesthetic preferences. Our benchmark covers three subtasks (Aesthetic Perception, Assessment, Empathy) and introduces structured metrics (IFD, NRD, AAS) to assess both bias and alignment. We evaluate 19 MLLMs, including proprietary models (e.g., GPT-4o, Claude-3.5-Sonnet) and open-source models (e.g., InternVL-2.5, Qwen2.5-VL). Results indicate that smaller models exhibit stronger stereotype biases, whereas larger models align more closely with human preferences. Incorporating identity information often exacerbates bias, particularly in emotional judgments. These findings underscore the importance of identity-aware evaluation frameworks in subjective vision-language tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AesBiasBench: Evaluating Bias and Alignment in Multimodal Language Models for Personalized Image Aesthetic Assessment

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Identifying attributions of causality in political text

Sycophancy Claims about Language Models: The Missing Human-in-the-Loop

CAIRNS: Balancing Readability and Scientific Accuracy in Climate Adaptation Ques...

Gender Bias in Emotion Recognition by Large Language Models

Analysing Personal Attacks in U.S. Presidential Debates

Навигация