Can Multimodal LLMs Solve the Basic Perception Problems of Percept-V?

2508.21143v1 cs.CL, cs.CV 2025-09-02

Авторы:

Samrajnee Ghosh, Naman Agarwal, Hemanshu Garg, Chinmay Mittal, Mausam, Parag Singla

Резюме на русском

## Контекст В последнее время много внимания уделяется развитию многомодальных значительно масштабных языковых моделей (Multimodal Large Language Models, MLLMs), которые показали отличные результаты в подходах к решению задач в области кодинга, математики и науки. Однако, несмотря на их достижения в области высокосложности, гораздо меньше экспериментов проводились для оценки их потенциала в базовых задачах восприятия, таких как распознавание простых образов и структур. Это недостаток подчеркивает важность расширения исследований в этом направлении, так как качество их выполнения в базовых задачах способствует улучшению их решений даже для более сложных случаев. Одним из основных мотивов для разработки этого исследования является необходимость оценить, насколько эффективны MLLMs в решении задач, требующих простого восприятия. Данный вопрос имеет большую значимость в связи с тем, что хорошо проработанное восприятие является фундаментом для успеха в более сложных задачах, таких как логическое моделирование и вывод. Таким образом, этот аспект требует дополнительного изучения. ## Метод Для этого исследования был разработан набор данных **Percept-V**, содержащий 7200 программно-генерируемых изображений, разделенных на 30 категорий. Каждая категория представляет собой задачу, требующую разных уровней восприятия, включая распознавание фигур, отношений между объектами, цветов и т.д. Изображения были специально созданы для того, чтобы оценить простые, но важные восприятие реальных объектов и ситуаций. Для оценки эффективности MLLMs в решении этих задач, использовались современные модели, такие как GPT-4o, Gemini, Claude, OpenAI o4-mini и DeepSeek R1. Эти модели были применены для предсказания ответов на задачи Percept-V, а достигнутые результаты были измерены с помощью метрик точности и достоверности. Эксперименты проводились с разными уровнями сложности задач, чтобы определить, насколько эффективно модели справляются с задачами восприятия на разных уровнях. ## Результаты Изучение результатов показывает, что MLLMs, несмотря на их выдающиеся результаты в сложных задачах, имеют значительные ограничения в решении задач, требующих базового восприятия. Точность работы моделей снижается с увеличением сложности задачи в каждой категории. Было выявлено, что некоторые типы задач восприятия, например, распознавание отношений между фигурами, требуют большего усилия моделей, чем другие. Проанализировав результаты, было отмечено, что современные MLLMs демонстрируют схожую тенденцию по результатам в различных категориях, но предлагают различные уровни точности в работе. Э

Abstract

The reasoning abilities of Multimodal Large Language Models (MLLMs) have garnered a lot of attention in recent times, with advances made in frontiers like coding, mathematics, and science. However, very limited experiments have been done to assess their performance in simple perception tasks performed over uncontaminated, generated images containing basic shapes and structures. To address this issue, the paper introduces a dataset, Percept-V, containing a total of 7200 program-generated images equally divided into 30 categories, each testing a combination of visual perception skills. Unlike previously proposed datasets, Percept-V comprises very basic tasks of varying complexity that test the perception abilities of MLLMs. This dataset is then tested on state-of-the-art MLLMs like GPT-4o, Gemini, and Claude as well as Large Reasoning Models (LRMs) like OpenAI o4-mini and DeepSeek R1 to gauge their performance. Contrary to the evidence that MLLMs excel in many complex tasks, our experiments show a significant drop in the models' performance with increasing problem complexity across all categories. An analysis of the performances also reveals that the tested MLLMs exhibit a similar trend in accuracy across categories, testing a particular cognitive skill and find some skills to be more difficult than others.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Can Multimodal LLMs Solve the Basic Perception Problems of Percept-V?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Visual Puns from Idioms: An Iterative LLM-T2IM-MLLM Framework

Optimizing Multimodal Language Models through Attention-based Interpretability

Bangla Sign Language Translation: Dataset Creation Challenges, Benchmarking and ...

Do Vision-Language Models Understand Visual Persuasiveness?

Arctic-Extract Technical Report

Навигация