ColorBlindnessEval: Can Vision-Language Models Pass Color Blindness Tests?
2509.19070v1
cs.CV, cs.CL
2025-09-25
Авторы:
Zijian Ling, Han Zhang, Yazhuo Zhou, Jiahao Cui
Резюме на русском
## Контекст
Визуально-языковые модели (VLMs) — это мощные инструменты способные работать с текстом и изображениями. Однако они часто сталкиваются с проблемами в сложных визуальных средах, например, при распознавании объектов в условиях помех или в задачах, требующих точного интерпретирования контекста. Одна из таких проблем — распознавание цвета и цифр в ситуациях, подобных ишихаровским тестам по диагностике цветового слепота. Эти тесты представляют собой изображения с цифрами, оформленными таким образом, чтобы люди с цветовым слепом их не могли распознавать. Эта проблема имеет реальное применение в медицинских инстрментах и интерфейсах, где точность интерпретации цветов и цифр критична. "ColorBlindnessEval" — это инновационный бенчмарк, разработанный для оценки творческой стороны VLMs в столкновении с такими тестовыми средами.
## Метод
"ColorBlindnessEval" состоит из 500 изображений, стилизованных в стиле Ишихара, где вместо представляемых цифр используются различные цветовые схемы. Это позволяет проверить точность распознавания чисел в условиях сильного визуального шума. Модели оцениваются как с помощью простых "да/нет" запросов, так и с более сложными открытыми вопросами, которые требуют понимания контекста. Для сравнения результатов с людьми проводились эксперименты, в которых участники выполняли тесты с теми же изображениями. Архитектура исследования основывается на сравнении производительности моделей с человеческими результатами, чтобы выявить потенциальные слабые места и ограничения.
## Результаты
Эксперименты показали, что даже мощные VLMs страдают от проблем с точностью распознавания в таких сложных условиях. Например, модели показали незначительное превосходство над случайным угадыванием в открытых задачах и часто давали неверные ответы на простые "да/нет" вопросы. В частности, модели часто "видели" цифры, которые не существовали, что называется "халлуцинациями", и пропускали информацию, которая была на самом деле видна. Эти результаты говорят о значительных ограничениях VLMs в обработке цвета и цифр в контексте сильного визуального шума.
## Значимость
"ColorBlindnessEval" может применяться в различных областях, где цвет и цифры играют критическую роль, например, в инструментах диагностики, в интерактивных приложениях, и в тестах для людей с ограниченными возможностями. Он позволяет выявлять уязвимости моделей и стимулирует развитие новых методов, которые могут улучшить их точность и надежность. Этот бенчмарк может стать ключевым инструментом для преодоления трудностей в тестировании
Abstract
This paper presents ColorBlindnessEval, a novel benchmark designed to
evaluate the robustness of Vision-Language Models (VLMs) in visually
adversarial scenarios inspired by the Ishihara color blindness test. Our
dataset comprises 500 Ishihara-like images featuring numbers from 0 to 99 with
varying color combinations, challenging VLMs to accurately recognize numerical
information embedded in complex visual patterns. We assess 9 VLMs using Yes/No
and open-ended prompts and compare their performance with human participants.
Our experiments reveal limitations in the models' ability to interpret numbers
in adversarial contexts, highlighting prevalent hallucination issues. These
findings underscore the need to improve the robustness of VLMs in complex
visual environments. ColorBlindnessEval serves as a valuable tool for
benchmarking and improving the reliability of VLMs in real-world applications
where accuracy is critical.
Ссылки и действия
Дополнительные ресурсы: