Story2Board: A Training-Free Approach for Expressive Storyboard Generation
2508.09983v1
cs.CV, cs.GR, cs.LG
2025-08-15
Авторы:
David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski
Резюме на русском
#### Контекст
Описание области исследования: генерация выразительных сторибордов на основе естественного языка — это сложная задача, требующая учета многих аспектов визуальной истории, таких как специфика сюжета, пауза, размеры и расположение панелей, а также их внутренняя структура. Однако предыдущие подходы либо ограничивались описанием лиц и объектов, либо требовали значительного обучения и моделей с тяжелым размером.
Мотивация: Это привело к недостатку в гибкости и динамичности генерируемых сторибордов. Нужен подход, который бы учёл эти ограничения, без необходимости полного обучения, и позволил бы улучшить соблюдение контекста и логики в генерируемых работах.
#### Метод
**Описание методологии:**
Story2Board — это новая простая фреймворк, не требующий обучения модели. Он включает в себя два основных компонента:
1. **Latent Panel Anchoring** — это система, которая позволяет сохранять взаимосвязь между персонажами и сценами в разных панелях.
2. **Reciprocal Attention Value Mixing** — это механизм, который смешивает визуальные признаки между сильно связанными токенами, чтобы улучшить логическую консистенцию и динамику старости.
**Технические решения и архитектура:**
Framework использует существующие модели разметки рассказов (off-the-shelf language model), которые преобразуют свободный текст в пространство промежуточных проявлений. Затем эти проявления подаются на вход модели Diffusion, которая генерирует выходные сториборды.
#### Результаты
**Эксперименты и данные:**
Использовались несколько различных тестовых баз данных, включая различные жанры рассказов. Данные были собраны для оценки различных аспектов генерируемых сторибордов:
- Консистенции персонажей и сцен.
- Динамики и разнообразия визуальных элементов.
- Логической последовательности в генерируемом результате.
**Результаты:**
На тестируемых базах данных, Story2Board показал высокую степень динамичности и консистентности по сравнению с другими подходам. Улучшения были заметны в сценах, где требовалась глубокая контекстная интерпретация и выразительность.
#### Значимость
**Области применения:**
Story2Board может использоваться в различных областях, таких как:
- Генерация выразительных комиксов и сериалов.
- Обучение глубокого понимания текста в контексте сюжетных работ.
- Автоматическое создание визуальных рассказов для развлекательных и образовательных целей.
**Преимущества:**
Его легковесная архитектура и отсутствие необходимости в обучении делают его более эффективным по сравнению с обучаемыми моделями.
**Потенциальное влияние:**
Этот подход мож
Abstract
We present Story2Board, a training-free framework for expressive storyboard
generation from natural language. Existing methods narrowly focus on subject
identity, overlooking key aspects of visual storytelling such as spatial
composition, background evolution, and narrative pacing. To address this, we
introduce a lightweight consistency framework composed of two components:
Latent Panel Anchoring, which preserves a shared character reference across
panels, and Reciprocal Attention Value Mixing, which softly blends visual
features between token pairs with strong reciprocal attention. Together, these
mechanisms enhance coherence without architectural changes or fine-tuning,
enabling state-of-the-art diffusion models to generate visually diverse yet
consistent storyboards. To structure generation, we use an off-the-shelf
language model to convert free-form stories into grounded panel-level prompts.
To evaluate, we propose the Rich Storyboard Benchmark, a suite of open-domain
narratives designed to assess layout diversity and background-grounded
storytelling, in addition to consistency. We also introduce a new Scene
Diversity metric that quantifies spatial and pose variation across storyboards.
Our qualitative and quantitative results, as well as a user study, show that
Story2Board produces more dynamic, coherent, and narratively engaging
storyboards than existing baselines.
Ссылки и действия
Дополнительные ресурсы: