Re:Verse -- Can Your VLM Read a Manga?

2508.08508v2 cs.CV, cs.CL 2025-08-15
Авторы:

Aaditya Baranwal, Madhav Kataria, Naitik Agrawal, Yogesh S Rawat, Shruti Vyas

Резюме на русском

## Контекст Модели Vision Language Models (VLMs) позволяют обрабатывать и анализировать текстовые и визуальные данные, однако существует существенная проблема в их понимании последовательных визуальных историй. Это связано с ограниченным пониманием логики и контекста, а также с недостатком в глубоком рассуждении последовательностей. Особенно заметна эта проблема при обработке манги, которая требует не только интерпретации отдельных кадров, но и умения сопоставлять их в целостную, логичную историю. Наша исследовательская цель заключается в изучении этой проблемы и предложении решения, которое позволит VLMs лучше понимать и рассуждать над визуальными историями. ## Метод Мы разработали совершенно новую методологию для измерения и изучения глубины понимания VLMs в области визуальных историй. Метод нашего подхода включает три ключевых аспекта: (i) создание нового протокола аннотации, который связывает визуальные элементы с текстовым содержимым, (ii) разработка ряда задач, включая генерирование рассказов, контекстная звуковая трассировка и применение расширенного анализа, (iii) использование кросс-модального анализа для выявления недостатков в совместных представлениях VLMs. Мы применили эти методы к манге "Re:Zero", проанализировав 11 глав с 308 аннотированными кадрами. Это позволило нам получить подробный анализ проблем, с которыми сталкиваются VLMs при обработке последовательных историй. ## Результаты Наши результаты показали, что текущие VLMs имеют существенные ограничения в нелинейных историях, в том числе в управлении характерами, контекстной звуковой трассировке и логической связи между кадрами. Они систематически проваливаются в тестах на временное рассуждение и контекстное понимание. Обнаружились значительные несоответствия в многомодальных представлениях, которые сказываются на их выполнении. Наша новая модель демонстрирует существенное улучшение в сравнении с традиционными VLMs, но также выявляет глубинные ограничения в их понимании. ## Значимость Наша работа имеет большое значение для области глубокого рассуждения визуальных историй. Она может быть применена в различных областях, таких как робототехника, искусственный интеллект в медиа и развитие новых методов обучения. Наш подход предоставляет новый способ измерения и сравнения VLMs, а также позволяет расширять возможности понимания визуальных историй для пользователей. ## Выводы Мы установили новый стандарт для оценки глубины понимания визуальных историй VLMs. Однако текущие модели по-прежнему страдают от широких ограничений в логическом и контекстном понимании

Abstract

Current Vision Language Models (VLMs) demonstrate a critical gap between surface-level recognition and deep narrative reasoning when processing sequential visual storytelling. Through a comprehensive investigation of manga narrative understanding, we reveal that while recent large multimodal models excel at individual panel interpretation, they systematically fail at temporal causality and cross-panel cohesion, core requirements for coherent story comprehension. We introduce a novel evaluation framework that combines fine-grained multimodal annotation, cross-modal embedding analysis, and retrieval-augmented assessment to systematically characterize these limitations. Our methodology includes (i) a rigorous annotation protocol linking visual elements to narrative structure through aligned light novel text, (ii) comprehensive evaluation across multiple reasoning paradigms, including direct inference and retrieval-augmented generation, and (iii) cross-modal similarity analysis revealing fundamental misalignments in current VLMs' joint representations. Applying this framework to Re:Zero manga across 11 chapters with 308 annotated panels, we conduct the first systematic study of long-form narrative understanding in VLMs through three core evaluation axes: generative storytelling, contextual dialogue grounding, and temporal reasoning. Our findings demonstrate that current models lack genuine story-level intelligence, struggling particularly with non-linear narratives, character consistency, and causal inference across extended sequences. This work establishes both the foundation and practical methodology for evaluating narrative intelligence, while providing actionable insights into the capability of deep sequential understanding of Discrete Visual Narratives beyond basic recognition in Multimodal Models. Project Page: https://re-verse.vercel.app

Ссылки и действия