Beyond the Visible: Benchmarking Occlusion Perception in Multimodal Large Language Models
2508.04059v1
cs.CV
2025-08-09
Авторы:
Zhaochen Liu, Kaiwen Gao, Shuyi Liang, Bin Xiao, Limeng Qiao, Lin Ma, Tingting Jiang
Резюме на русском
**Резюме**
В данной работе представлена первая в своем роде проверка оккультного восприятия с помощью оккультно-визуальных задач для многоmodalных больших языковых моделей (МЛЛМ). Несмотря на то, что МЛЛМы продемонстрировали выдающиеся результаты во многих областях, их возможности по оккультному восприятию остаются недостаточно изученными. Для решения этой проблемы авторы предложили O-Bench — новую визуальную тестовую среду, построенную на базе SA-1B и охватывающую 1,365 синтетических изображений с оккультными ситуациями. На основе этой среды были созданы 4,588 вопросов-ответов, разделенных на 5 задач. Авторы проанализировали результаты 22 МЛЛМ, включая самые современные модели. Оказалось, что МЛЛМы превосходством в оккультном восприятии не сводятся к простому увеличению размера модели или улучшению процесса мышления, а сами по себе имеют серьезные ограничения. Авторы также выделили три типичных недостатка моделей: предвзятость к осторожности, чувствительность к некоторым локальным факторам, а также сложность с расчетными задачами. Таким образом, O-Bench может стать важной инструментой для развития МЛЛМ и их использования в области зрительных технологий.
Abstract
Occlusion perception, a critical foundation for human-level spatial
understanding, embodies the challenge of integrating visual recognition and
reasoning. Though multimodal large language models (MLLMs) have demonstrated
remarkable capabilities, their performance on occlusion perception remains
under-explored. To address this gap, we introduce O-Bench, the first visual
question answering (VQA) benchmark specifically designed for occlusion
perception. Based on SA-1B, we construct 1,365 images featuring semantically
coherent occlusion scenarios through a novel layered synthesis approach. Upon
this foundation, we annotate 4,588 question-answer pairs in total across five
tailored tasks, employing a reliable, semi-automatic workflow. Our extensive
evaluation of 22 representative MLLMs against the human baseline reveals a
significant performance gap between current MLLMs and humans, which, we find,
cannot be sufficiently bridged by model scaling or thinking process. We further
identify three typical failure patterns, including an overly conservative bias,
a fragile gestalt prediction, and a struggle with quantitative tasks. We
believe O-Bench can not only provide a vital evaluation tool for occlusion
perception, but also inspire the development of MLLMs for better visual
intelligence. Our benchmark will be made publicly available upon paper
publication.
Ссылки и действия
Дополнительные ресурсы: