Can Multimodal LLMs Solve the Basic Perception Problems of Percept-V?
2508.21143v1
cs.CL, cs.CV
2025-09-02
Авторы:
Samrajnee Ghosh, Naman Agarwal, Hemanshu Garg, Chinmay Mittal, Mausam, Parag Singla
Резюме на русском
## Контекст
В последнее время много внимания уделяется развитию многомодальных значительно масштабных языковых моделей (Multimodal Large Language Models, MLLMs), которые показали отличные результаты в подходах к решению задач в области кодинга, математики и науки. Однако, несмотря на их достижения в области высокосложности, гораздо меньше экспериментов проводились для оценки их потенциала в базовых задачах восприятия, таких как распознавание простых образов и структур. Это недостаток подчеркивает важность расширения исследований в этом направлении, так как качество их выполнения в базовых задачах способствует улучшению их решений даже для более сложных случаев.
Одним из основных мотивов для разработки этого исследования является необходимость оценить, насколько эффективны MLLMs в решении задач, требующих простого восприятия. Данный вопрос имеет большую значимость в связи с тем, что хорошо проработанное восприятие является фундаментом для успеха в более сложных задачах, таких как логическое моделирование и вывод. Таким образом, этот аспект требует дополнительного изучения.
## Метод
Для этого исследования был разработан набор данных **Percept-V**, содержащий 7200 программно-генерируемых изображений, разделенных на 30 категорий. Каждая категория представляет собой задачу, требующую разных уровней восприятия, включая распознавание фигур, отношений между объектами, цветов и т.д. Изображения были специально созданы для того, чтобы оценить простые, но важные восприятие реальных объектов и ситуаций.
Для оценки эффективности MLLMs в решении этих задач, использовались современные модели, такие как GPT-4o, Gemini, Claude, OpenAI o4-mini и DeepSeek R1. Эти модели были применены для предсказания ответов на задачи Percept-V, а достигнутые результаты были измерены с помощью метрик точности и достоверности. Эксперименты проводились с разными уровнями сложности задач, чтобы определить, насколько эффективно модели справляются с задачами восприятия на разных уровнях.
## Результаты
Изучение результатов показывает, что MLLMs, несмотря на их выдающиеся результаты в сложных задачах, имеют значительные ограничения в решении задач, требующих базового восприятия. Точность работы моделей снижается с увеличением сложности задачи в каждой категории. Было выявлено, что некоторые типы задач восприятия, например, распознавание отношений между фигурами, требуют большего усилия моделей, чем другие.
Проанализировав результаты, было отмечено, что современные MLLMs демонстрируют схожую тенденцию по результатам в различных категориях, но предлагают различные уровни точности в работе. Э
Abstract
The reasoning abilities of Multimodal Large Language Models (MLLMs) have
garnered a lot of attention in recent times, with advances made in frontiers
like coding, mathematics, and science. However, very limited experiments have
been done to assess their performance in simple perception tasks performed over
uncontaminated, generated images containing basic shapes and structures. To
address this issue, the paper introduces a dataset, Percept-V, containing a
total of 7200 program-generated images equally divided into 30 categories, each
testing a combination of visual perception skills. Unlike previously proposed
datasets, Percept-V comprises very basic tasks of varying complexity that test
the perception abilities of MLLMs. This dataset is then tested on
state-of-the-art MLLMs like GPT-4o, Gemini, and Claude as well as Large
Reasoning Models (LRMs) like OpenAI o4-mini and DeepSeek R1 to gauge their
performance. Contrary to the evidence that MLLMs excel in many complex tasks,
our experiments show a significant drop in the models' performance with
increasing problem complexity across all categories. An analysis of the
performances also reveals that the tested MLLMs exhibit a similar trend in
accuracy across categories, testing a particular cognitive skill and find some
skills to be more difficult than others.
Ссылки и действия
Дополнительные ресурсы: