Re:Verse -- Can Your VLM Read a Manga?
2508.08508v1
cs.CV, cs.CL
2025-08-14
Авторы:
Aaditya Baranwal, Madhav Kataria, Naitik Agrawal, Yogesh S Rawat, Shruti Vyas
Резюме на русском
Да
## Контекст
Многомодальные модели (Multimodal Models, VLMs) широко используются для обработки и анализа изображений и текста в сочетании. Однако они часто стремятся к пониманию поверхностных признаков, не достигая глубокого развития логического и последовательного рассуждения. Это особенно важно при обработке последовательной визуальной истории, такой как манга, где требуется интерактивное умение понимать текст, изображения и связь между ними. Наша мотивация заключается в изучении этих проблем и развитии методов для улучшения понимания последовательных визуальных историй.
## Метод
Мы представляем новую фреймворк для оценки возможностей моделей многомодального понимания в манге. Основные элементы нашего подхода:
1. **Аннотационный протокол** — связь визуальных элементов с текстовой историей, используя текст связанных легких романов.
2. **Многоуровневый процесс оценки** — включающий непосредственную интерпретацию, рассуждение по тексту, и кросс-модальную аналитику.
3. **Применение генеративных моделей** — для оценки моделей на производительности в трех ключевых областях: генерирование последовательного текста, контекстуальное обоснование диалога и разумное понимание времени в последовательности.
## Результаты
Мы провели анализ на 11 главах манги Re:Zero, содержащих 308 отмеченных панелей. Наши результаты показали, что текущие модели способны правильно интерпретировать отдельные панели, но систематически не могут построить глубокую взаимосвязь между панелями. Например, модели слабо выполняют задачи, которые требуют понимания временных событий или характеров. Наши результаты также показали, что модели часто пропускают нелинейные сюжетные линии и не могут верно оценивать контекстную когницию.
## Значимость
Наша работа имеет значимость в следующих областях:
- **Применение** — модели могут быть использованы для улучшения взаимодействия с пользователем в сценариях, где необходим глубокий рассужденный подход к изображениям и тексту.
- **Преимущества** — наше подход создает новый стандарт для оценки и понимания последовательных визуальных историй, который может быть применен в области роботов-компаньонов, мультимедийной системы и визуальных историях.
- **Потенциальное влияние** — наша работа может способствовать улучшению глубокого понимания последовательных моделей, что в свою очередь повысит качество интерактивных систем.
## Выводы
Наши исследования установили систематические ограничения текущих моделей в многомодальном понимании последовательных визуальных историй. Мы представили новую методологию, позволяющую си
Abstract
Current Vision Language Models (VLMs) demonstrate a critical gap between
surface-level recognition and deep narrative reasoning when processing
sequential visual storytelling. Through a comprehensive investigation of manga
narrative understanding, we reveal that while recent large multimodal models
excel at individual panel interpretation, they systematically fail at temporal
causality and cross-panel cohesion, core requirements for coherent story
comprehension. We introduce a novel evaluation framework that combines
fine-grained multimodal annotation, cross-modal embedding analysis, and
retrieval-augmented assessment to systematically characterize these
limitations.
Our methodology includes (i) a rigorous annotation protocol linking visual
elements to narrative structure through aligned light novel text, (ii)
comprehensive evaluation across multiple reasoning paradigms, including direct
inference and retrieval-augmented generation, and (iii) cross-modal similarity
analysis revealing fundamental misalignments in current VLMs' joint
representations. Applying this framework to Re:Zero manga across 11 chapters
with 308 annotated panels, we conduct the first systematic study of long-form
narrative understanding in VLMs through three core evaluation axes: generative
storytelling, contextual dialogue grounding, and temporal reasoning. Our
findings demonstrate that current models lack genuine story-level intelligence,
struggling particularly with non-linear narratives, character consistency, and
causal inference across extended sequences. This work establishes both the
foundation and practical methodology for evaluating narrative intelligence,
while providing actionable insights into the capability of deep sequential
understanding of Discrete Visual Narratives beyond basic recognition in
Multimodal Models.
Ссылки и действия
Дополнительные ресурсы: