ShoulderShot: Generating Over-the-Shoulder Dialogue Videos

2508.07597v1 cs.CV, cs.AI 2025-08-13

Авторы:

Yuang Zhang, Junqi Cheng, Haoyu Zhao, Jiaxi Gu, Fangyuan Zou, Zenghui Lu, Peng Shu

Резюме на русском

#### Контекст Область исследования связана с генерацией видео, в которых диалоги осуществляются с использованием перспективы вида "сзади плеча" (over-the-shoulder). Эти видео широко используются в кино, кратких драматических релизах и рекламе, так как они создают вариативность визуального оформления и усиливают эмоциональную заинтересованность зрителя. Однако, несмотря на их важность, данный тип диалоговых видео значительно мало исследован в рамках автоматической генерации видео. Основные проблемы заключаются в сохранении консистентности характеров в разных сценах, обеспечении продолжительности диалога, а также в создании визуальной и спациальной гармонии. Наша мотивация заключается в развитии методики, которая устранит эти проблемы и позволит генерировать диалоговые видео более длинных и естественных. #### Метод Мы предлагаем ShoulderShot, рамочный подход, который использует двойную генерацию видео и техники циклического воспроизведения. Основной идеей является повторное использование видео-клипа для создания лонгвиты диалога, сохраняя в то же время высокую производительность и качество. Метод состоит из двух основных этапов: генерация клипа с обратного взгляда (shot-reverse-shot) и циклической обработки для поддержания продолжительности. Мы также внедрили систему контроля консистентности характеров, чтобы обеспечить постоянность характеров в разных сценах. Это разработанное решение объединяет технологии моделирования видео, обучения с подкреплением (reinforcement learning) и мультимодальных генераций. #### Результаты Для проверки нашего подхода, мы провели эксперименты на различных наборах данных, включающих различные сцены диалогов и характеров. Мы сравнивали ShoulderShot с существующими методами, оценивая его показатели в трех ключевых областях: логичность локаций, продолжительность диалога и качество визуализации. Наши результаты показали, что ShoulderShot превосходит существующие подходы в техническом плане, обеспечивая более высокую степень продолжительности видео, гармоничность визуальных элементов и лучшее качество в выводе. Мы также продемонстрировали гибкость в генерации диалогов различных длин, что делает ShoulderShot более универсальным для практического применения. #### Значимость Наша разработка имеет широкие применения в кино, рекламе и коммуникативных технологиях. Она может быть применена для создания видео-контента, где важно сохранить продолжительность и качество диалогов. Одним из основных преимуществ ShoulderShot является его универсальность и гибкость в генерации видео диалогов, а такж

Abstract

Over-the-shoulder dialogue videos are essential in films, short dramas, and advertisements, providing visual variety and enhancing viewers' emotional connection. Despite their importance, such dialogue scenes remain largely underexplored in video generation research. The main challenges include maintaining character consistency across different shots, creating a sense of spatial continuity, and generating long, multi-turn dialogues within limited computational budgets. Here, we present ShoulderShot, a framework that combines dual-shot generation with looping video, enabling extended dialogues while preserving character consistency. Our results demonstrate capabilities that surpass existing methods in terms of shot-reverse-shot layout, spatial continuity, and flexibility in dialogue length, thereby opening up new possibilities for practical dialogue video generation. Videos and comparisons are available at https://shouldershot.github.io.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ShoulderShot: Generating Over-the-Shoulder Dialogue Videos

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация