RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation

2508.13968v2 cs.CV, cs.AI, cs.CL 2025-08-21
Авторы:

Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal

Резюме на русском

## Контекст Одной из основных задач многомодальных бо LLM (MLLM) является выявление и интерпретация контекстных связей внутри изображений. Несмотря на то, что человеческая перцепция способна легко определять ориентацию изображений, даже при их многообразии, авторы указывают на возможную слабость моделей в распознавании ориентаций, особенно при поворотах на 90° и 270°. Это проблема может быть связана с недостаточной способностью моделей выполнять геометрическое и спациальное разумование, необходимое для выявления характерных признаков. Мотивация появления RotBench -- создать манновую базу данных для измерения этих способностей на современных MLLM-моделях. ## Метод Разработанный RotBench состоит из 350 ручному фильтрованию изображений, разделенных на 3 класса: лендинги, портреты и стиль жизни. Изображения были поворачиваны на разные углы: 0°, 90°, 180° и 270°. Для оценки моделей использовался тест на выявление направления вращения. Модели оценивались с использованием аудиокапций, вспомогательных данных и прочих технических решений, таких как chain-of-thought prompting. ## Результаты Результаты свидетельствуют, что самые мощные модели, включая GPT-5 и Gemini, не способны выявлять поворот на 90° и 270° с высокой точностью, даже при использовании дополнительных подсказок. Однако они успешно распознают поворот на 0° и, в определенных случаях, на 180°. Увеличение количества вариантов одного изображения с разными поворотами повышало точность, но не достигало значительных улучшений. Файн-тюнинг, в том числе с использованием цепочки мыслей, улучшал только распознавание на 180°, не влияя на 90° и 270°. ## Значимость Результаты RotBench показывают, что существует значительная разница между способностями MLLM и человеческой способностью распознавать ориентацию изображений. Данные модели слабо подходят для решения задач, которые требуют большого контекстного понимания и геометрического визуального рассуждения. RotBench может использоваться в качестве бенчмарка для развития новых моделей с улучшенными способностями визуального и логического рассуждения. ## Выводы Результаты исследования RotBench показывают, что текущие MLLM-модели имеют существующие проблемы в обработке задач, требующих высокого уровня визуального и геометрического рассуждения. Будущие исследования должны сфокусироваться на развитии моделей, которые способны лучше интерпретировать контекст и выполнять геометрическое визуальное рассуждение, чтобы закрыть нынешние пробелы в способностях моделей.

Abstract

We investigate to what extent Multimodal Large Language Models (MLLMs) can accurately identify the orientation of input images rotated 0{\deg}, 90{\deg}, 180{\deg}, and 270{\deg}. This task demands robust visual reasoning capabilities to detect rotational cues and contextualize spatial relationships within images, regardless of their orientation. To evaluate MLLMs on these abilities, we introduce RotBench -- a 350-image manually-filtered benchmark comprising lifestyle, portrait, and landscape images. Despite the relatively simple nature of this task, we show that several state-of-the-art open and proprietary MLLMs, including GPT-5, o3, and Gemini-2.5-Pro, do not reliably identify rotation in input images. Providing models with auxiliary information -- including captions, depth maps, and more -- or using chain-of-thought prompting offers only small and inconsistent improvements. Our results indicate that most models are able to reliably identify right-side-up (0{\deg}) images, while certain models are able to identify upside-down (180{\deg}) images. None can reliably distinguish between 90{\deg} and 270{\deg}. Simultaneously showing the image rotated in different orientations leads to moderate performance gains for reasoning models, while a modified setup using voting improves the performance of weaker models. We further show that fine-tuning does not improve models' ability to distinguish 90{\deg} and 270{\deg} rotations, despite substantially improving the identification of 180{\deg} images. Together, these results reveal a significant gap between MLLMs' spatial reasoning capabilities and human perception in identifying rotation.

Ссылки и действия