Prompt-Driven Agentic Video Editing System: Autonomous Comprehension of Long-Form, Story-Driven Media

2509.16811v1 cs.AI, cs.HC 2025-09-24
Авторы:

Zihan Ding, Junlong Chen, Per Ola Kristensson, Junxiao Shen, Xinyi Wang

Резюме на русском

## Контекст Исследование ориентируется на сложную проблему редактирования длительных, исторически нагруженных видеороликов. Существующие методы, основанные на транскриптах или векторных представлениях, не полностью удовлетворяют требованиям креативных профессионалов. Они сталкиваются с проблемами, такими как неэффективность в поиске и синтезировании материала, ограниченное понимание характеров и их мотиваций, а также сложности с поддержанием логической структуры рассказа. Авторы рассматривают новый подход, целью которого является создание системы, которая может автономно разбираться в сложной структуре истории, предоставляя творческим лицам возможность быстрого и эффективного редактирования. ## Метод Авторы предлагают систему, основанную на промпто-драйвенной модульной архитектуре, которая использует бессложностью промптов для управления высокоуровневыми редактированием. Система разделяет видео на логические сегменты, используя подходы, такие как темпоральная сегментация, сжатие памяти и слияние многоуровневых семантик. Это позволяет строить глобальную интерпретируемую модель сюжета. Основными элементами являются модели распознавания лица, диалога и эмоций, которые объединяются в систему поиска и сегментации, обеспечивая прозрачные и управляемые результаты. ## Результаты Исследование основано на экспериментах с более чем 400 видеороликами. Система показала высокую точность в сегментации истории, понимании лиц и мотиваций, а также в создании упорядоченных трасс по конкретным запросам. Опросы экспертов и сравнение с другими методами подтвердили, что система гарантирует качественное редактирование, сохраняя логику и контекст истории, при этом давая творческому пользователю полный контроль над процессом. ## Значимость Инновационный подход позволяет использовать систему в различных творческих сферах, включая производство кино, рекламы и другие виды развлекательной продукции. Основные преимущества заключаются в увеличении эффективности, упрощении процесса редактирования и обеспечении гибкости в работе. Наиболее значимым влиянием является уменьшение времени и усилий, необходимых для создания высококачественных видео. ## Выводы Основным достижением является создание системы, которая может автономно понять и работать с многочасовыми видео, обеспечивая креативного пользователя возможностью быстрого и точного редактирования. Будущие исследования будут сосредоточены на расширении функционала, улучшении семантической точности и интеграции с другими системами т

Abstract

Creators struggle to edit long-form, narrative-rich videos not because of UI complexity, but due to the cognitive demands of searching, storyboarding, and sequencing hours of footage. Existing transcript- or embedding-based methods fall short for creative workflows, as models struggle to track characters, infer motivations, and connect dispersed events. We present a prompt-driven, modular editing system that helps creators restructure multi-hour content through free-form prompts rather than timelines. At its core is a semantic indexing pipeline that builds a global narrative via temporal segmentation, guided memory compression, and cross-granularity fusion, producing interpretable traces of plot, dialogue, emotion, and context. Users receive cinematic edits while optionally refining transparent intermediate outputs. Evaluated on 400+ videos with expert ratings, QA, and preference studies, our system scales prompt-driven editing, preserves narrative coherence, and balances automation with creator control.

Ссылки и действия