ColorBlindnessEval: Can Vision-Language Models Pass Color Blindness Tests?

2509.19070v1 cs.CV, cs.CL 2025-09-25

Авторы:

Zijian Ling, Han Zhang, Yazhuo Zhou, Jiahao Cui

Резюме на русском

## Контекст Визуально-языковые модели (VLMs) — это мощные инструменты способные работать с текстом и изображениями. Однако они часто сталкиваются с проблемами в сложных визуальных средах, например, при распознавании объектов в условиях помех или в задачах, требующих точного интерпретирования контекста. Одна из таких проблем — распознавание цвета и цифр в ситуациях, подобных ишихаровским тестам по диагностике цветового слепота. Эти тесты представляют собой изображения с цифрами, оформленными таким образом, чтобы люди с цветовым слепом их не могли распознавать. Эта проблема имеет реальное применение в медицинских инстрментах и интерфейсах, где точность интерпретации цветов и цифр критична. "ColorBlindnessEval" — это инновационный бенчмарк, разработанный для оценки творческой стороны VLMs в столкновении с такими тестовыми средами. ## Метод "ColorBlindnessEval" состоит из 500 изображений, стилизованных в стиле Ишихара, где вместо представляемых цифр используются различные цветовые схемы. Это позволяет проверить точность распознавания чисел в условиях сильного визуального шума. Модели оцениваются как с помощью простых "да/нет" запросов, так и с более сложными открытыми вопросами, которые требуют понимания контекста. Для сравнения результатов с людьми проводились эксперименты, в которых участники выполняли тесты с теми же изображениями. Архитектура исследования основывается на сравнении производительности моделей с человеческими результатами, чтобы выявить потенциальные слабые места и ограничения. ## Результаты Эксперименты показали, что даже мощные VLMs страдают от проблем с точностью распознавания в таких сложных условиях. Например, модели показали незначительное превосходство над случайным угадыванием в открытых задачах и часто давали неверные ответы на простые "да/нет" вопросы. В частности, модели часто "видели" цифры, которые не существовали, что называется "халлуцинациями", и пропускали информацию, которая была на самом деле видна. Эти результаты говорят о значительных ограничениях VLMs в обработке цвета и цифр в контексте сильного визуального шума. ## Значимость "ColorBlindnessEval" может применяться в различных областях, где цвет и цифры играют критическую роль, например, в инструментах диагностики, в интерактивных приложениях, и в тестах для людей с ограниченными возможностями. Он позволяет выявлять уязвимости моделей и стимулирует развитие новых методов, которые могут улучшить их точность и надежность. Этот бенчмарк может стать ключевым инструментом для преодоления трудностей в тестировании

Abstract

This paper presents ColorBlindnessEval, a novel benchmark designed to evaluate the robustness of Vision-Language Models (VLMs) in visually adversarial scenarios inspired by the Ishihara color blindness test. Our dataset comprises 500 Ishihara-like images featuring numbers from 0 to 99 with varying color combinations, challenging VLMs to accurately recognize numerical information embedded in complex visual patterns. We assess 9 VLMs using Yes/No and open-ended prompts and compare their performance with human participants. Our experiments reveal limitations in the models' ability to interpret numbers in adversarial contexts, highlighting prevalent hallucination issues. These findings underscore the need to improve the robustness of VLMs in complex visual environments. ColorBlindnessEval serves as a valuable tool for benchmarking and improving the reliability of VLMs in real-world applications where accuracy is critical.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ColorBlindnessEval: Can Vision-Language Models Pass Color Blindness Tests?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация