## Контекст
Область исследования связана с подтверждением того, что Multimodal Large Language Models (MLLMs) все чаще используются в Personalized Image Aesthetic Assessment (PIAA), как эффективный аналог экспертных оценок. Однако, необходимость оценивать их биазы и убедиться в том, что их результаты соответствуют реальным житейским предпочтениям, стала ключевой проблемой. Эта необходимость возникает из-за потенциальных скрытых биаз, возникающих в моделях в зависимости от таких факторов, как гендер, возраст и уровень образования. Методом решения этой проблемы выступает AesBiasBench, бенчмарк, ориентированный на измерение не только стероитпных биаз, но и на оценку того, насколько модели соответствуют реальным предпочтениям пользователей.
## Метод
AesBiasBench включает в себя три подзадачи: Aesthetic Perception, Assessment и Empathy. Он предлагает структурированные метрики IFD, NRD, AAS для измерения стероитпных биаз и уровня соответствия моделей реальным людям. Метрики IFD и NRD измеряют насколько биаз отражается в этических и нейрологических компонентах, а AAS является метрикой, которая позволяет измерить то, насколько эти модели похожи на житейские предпочтения. Использовались 19 моделей, включая GPT-4o, Claude-3.5-Sonnet, InternVL-2.5 и Qwen2.5-VL. Модели были оценены на 3000 изображениях с помощью 1000 демографических групп.
## Результаты
Из результатов оказалось, что меньшие модели демонстрируют более сильные стероитпные биазы, в то время как более крупные модели ближе выражают житейские предпочтения. Модели, которые используют информацию об идентичности, показали сильные стероитпные биазы, особенно в задаче Emotional Judgment. Например, лучшие результаты по этическому компоненту были показаны более крупными моделями, такими как GPT-4o, которая показала более точное соответствие реальным пользовательским предпочтениям. Однако эти модели показали сильные стероитпные биазы в задаче Emotional Judgment.
## Значимость
AesBiasBench может быть применен в различных сферах, включая личностный аудит моделей, улучшение этимологических моделей, и создание более точных алгоритмов в PIAA. Он предоставляет новые технические решения и метрики для оценки биаз и алignment, которые могут быть использованы для улучшения моделей в сфере PIAA. Благодаря этому бенчмарку можно улучшить понимание как стероитпных биаз, так и возможностей MLLMs в сложных визуально-языковых задачах.
## Выводы
Основные достижения включают разработку AesBiasBench, который позволяет проводить полную оценку MLLMs в PIAA с учетом стероитпных биаз и соответствия реальным предпочтениям. Бенчмарк показал, что более крупные модели вы most closely align with human preferences, но сильно демонст