ShoulderShot: Generating Over-the-Shoulder Dialogue Videos
2508.07597v1
cs.CV, cs.AI
2025-08-13
Авторы:
Yuang Zhang, Junqi Cheng, Haoyu Zhao, Jiaxi Gu, Fangyuan Zou, Zenghui Lu, Peng Shu
Резюме на русском
#### Контекст
Область исследования связана с генерацией видео, в которых диалоги осуществляются с использованием перспективы вида "сзади плеча" (over-the-shoulder). Эти видео широко используются в кино, кратких драматических релизах и рекламе, так как они создают вариативность визуального оформления и усиливают эмоциональную заинтересованность зрителя. Однако, несмотря на их важность, данный тип диалоговых видео значительно мало исследован в рамках автоматической генерации видео. Основные проблемы заключаются в сохранении консистентности характеров в разных сценах, обеспечении продолжительности диалога, а также в создании визуальной и спациальной гармонии. Наша мотивация заключается в развитии методики, которая устранит эти проблемы и позволит генерировать диалоговые видео более длинных и естественных.
#### Метод
Мы предлагаем ShoulderShot, рамочный подход, который использует двойную генерацию видео и техники циклического воспроизведения. Основной идеей является повторное использование видео-клипа для создания лонгвиты диалога, сохраняя в то же время высокую производительность и качество. Метод состоит из двух основных этапов: генерация клипа с обратного взгляда (shot-reverse-shot) и циклической обработки для поддержания продолжительности. Мы также внедрили систему контроля консистентности характеров, чтобы обеспечить постоянность характеров в разных сценах. Это разработанное решение объединяет технологии моделирования видео, обучения с подкреплением (reinforcement learning) и мультимодальных генераций.
#### Результаты
Для проверки нашего подхода, мы провели эксперименты на различных наборах данных, включающих различные сцены диалогов и характеров. Мы сравнивали ShoulderShot с существующими методами, оценивая его показатели в трех ключевых областях: логичность локаций, продолжительность диалога и качество визуализации. Наши результаты показали, что ShoulderShot превосходит существующие подходы в техническом плане, обеспечивая более высокую степень продолжительности видео, гармоничность визуальных элементов и лучшее качество в выводе. Мы также продемонстрировали гибкость в генерации диалогов различных длин, что делает ShoulderShot более универсальным для практического применения.
#### Значимость
Наша разработка имеет широкие применения в кино, рекламе и коммуникативных технологиях. Она может быть применена для создания видео-контента, где важно сохранить продолжительность и качество диалогов. Одним из основных преимуществ ShoulderShot является его универсальность и гибкость в генерации видео диалогов, а такж
Abstract
Over-the-shoulder dialogue videos are essential in films, short dramas, and
advertisements, providing visual variety and enhancing viewers' emotional
connection. Despite their importance, such dialogue scenes remain largely
underexplored in video generation research. The main challenges include
maintaining character consistency across different shots, creating a sense of
spatial continuity, and generating long, multi-turn dialogues within limited
computational budgets. Here, we present ShoulderShot, a framework that combines
dual-shot generation with looping video, enabling extended dialogues while
preserving character consistency. Our results demonstrate capabilities that
surpass existing methods in terms of shot-reverse-shot layout, spatial
continuity, and flexibility in dialogue length, thereby opening up new
possibilities for practical dialogue video generation. Videos and comparisons
are available at https://shouldershot.github.io.
Ссылки и действия
Дополнительные ресурсы: