Re:Verse -- Can Your VLM Read a Manga?

2508.08508v1 cs.CV, cs.CL 2025-08-14
Авторы:

Aaditya Baranwal, Madhav Kataria, Naitik Agrawal, Yogesh S Rawat, Shruti Vyas

Резюме на русском

Да ## Контекст Многомодальные модели (Multimodal Models, VLMs) широко используются для обработки и анализа изображений и текста в сочетании. Однако они часто стремятся к пониманию поверхностных признаков, не достигая глубокого развития логического и последовательного рассуждения. Это особенно важно при обработке последовательной визуальной истории, такой как манга, где требуется интерактивное умение понимать текст, изображения и связь между ними. Наша мотивация заключается в изучении этих проблем и развитии методов для улучшения понимания последовательных визуальных историй. ## Метод Мы представляем новую фреймворк для оценки возможностей моделей многомодального понимания в манге. Основные элементы нашего подхода: 1. **Аннотационный протокол** — связь визуальных элементов с текстовой историей, используя текст связанных легких романов. 2. **Многоуровневый процесс оценки** — включающий непосредственную интерпретацию, рассуждение по тексту, и кросс-модальную аналитику. 3. **Применение генеративных моделей** — для оценки моделей на производительности в трех ключевых областях: генерирование последовательного текста, контекстуальное обоснование диалога и разумное понимание времени в последовательности. ## Результаты Мы провели анализ на 11 главах манги Re:Zero, содержащих 308 отмеченных панелей. Наши результаты показали, что текущие модели способны правильно интерпретировать отдельные панели, но систематически не могут построить глубокую взаимосвязь между панелями. Например, модели слабо выполняют задачи, которые требуют понимания временных событий или характеров. Наши результаты также показали, что модели часто пропускают нелинейные сюжетные линии и не могут верно оценивать контекстную когницию. ## Значимость Наша работа имеет значимость в следующих областях: - **Применение** — модели могут быть использованы для улучшения взаимодействия с пользователем в сценариях, где необходим глубокий рассужденный подход к изображениям и тексту. - **Преимущества** — наше подход создает новый стандарт для оценки и понимания последовательных визуальных историй, который может быть применен в области роботов-компаньонов, мультимедийной системы и визуальных историях. - **Потенциальное влияние** — наша работа может способствовать улучшению глубокого понимания последовательных моделей, что в свою очередь повысит качество интерактивных систем. ## Выводы Наши исследования установили систематические ограничения текущих моделей в многомодальном понимании последовательных визуальных историй. Мы представили новую методологию, позволяющую си

Abstract

Current Vision Language Models (VLMs) demonstrate a critical gap between surface-level recognition and deep narrative reasoning when processing sequential visual storytelling. Through a comprehensive investigation of manga narrative understanding, we reveal that while recent large multimodal models excel at individual panel interpretation, they systematically fail at temporal causality and cross-panel cohesion, core requirements for coherent story comprehension. We introduce a novel evaluation framework that combines fine-grained multimodal annotation, cross-modal embedding analysis, and retrieval-augmented assessment to systematically characterize these limitations. Our methodology includes (i) a rigorous annotation protocol linking visual elements to narrative structure through aligned light novel text, (ii) comprehensive evaluation across multiple reasoning paradigms, including direct inference and retrieval-augmented generation, and (iii) cross-modal similarity analysis revealing fundamental misalignments in current VLMs' joint representations. Applying this framework to Re:Zero manga across 11 chapters with 308 annotated panels, we conduct the first systematic study of long-form narrative understanding in VLMs through three core evaluation axes: generative storytelling, contextual dialogue grounding, and temporal reasoning. Our findings demonstrate that current models lack genuine story-level intelligence, struggling particularly with non-linear narratives, character consistency, and causal inference across extended sequences. This work establishes both the foundation and practical methodology for evaluating narrative intelligence, while providing actionable insights into the capability of deep sequential understanding of Discrete Visual Narratives beyond basic recognition in Multimodal Models.

Ссылки и действия