Prompt-Driven Agentic Video Editing System: Autonomous Comprehension of Long-Form, Story-Driven Media
2509.16811v1
cs.AI, cs.HC
2025-09-24
Авторы:
Zihan Ding, Junlong Chen, Per Ola Kristensson, Junxiao Shen, Xinyi Wang
Резюме на русском
## Контекст
Исследование ориентируется на сложную проблему редактирования длительных, исторически нагруженных видеороликов. Существующие методы, основанные на транскриптах или векторных представлениях, не полностью удовлетворяют требованиям креативных профессионалов. Они сталкиваются с проблемами, такими как неэффективность в поиске и синтезировании материала, ограниченное понимание характеров и их мотиваций, а также сложности с поддержанием логической структуры рассказа. Авторы рассматривают новый подход, целью которого является создание системы, которая может автономно разбираться в сложной структуре истории, предоставляя творческим лицам возможность быстрого и эффективного редактирования.
## Метод
Авторы предлагают систему, основанную на промпто-драйвенной модульной архитектуре, которая использует бессложностью промптов для управления высокоуровневыми редактированием. Система разделяет видео на логические сегменты, используя подходы, такие как темпоральная сегментация, сжатие памяти и слияние многоуровневых семантик. Это позволяет строить глобальную интерпретируемую модель сюжета. Основными элементами являются модели распознавания лица, диалога и эмоций, которые объединяются в систему поиска и сегментации, обеспечивая прозрачные и управляемые результаты.
## Результаты
Исследование основано на экспериментах с более чем 400 видеороликами. Система показала высокую точность в сегментации истории, понимании лиц и мотиваций, а также в создании упорядоченных трасс по конкретным запросам. Опросы экспертов и сравнение с другими методами подтвердили, что система гарантирует качественное редактирование, сохраняя логику и контекст истории, при этом давая творческому пользователю полный контроль над процессом.
## Значимость
Инновационный подход позволяет использовать систему в различных творческих сферах, включая производство кино, рекламы и другие виды развлекательной продукции. Основные преимущества заключаются в увеличении эффективности, упрощении процесса редактирования и обеспечении гибкости в работе. Наиболее значимым влиянием является уменьшение времени и усилий, необходимых для создания высококачественных видео.
## Выводы
Основным достижением является создание системы, которая может автономно понять и работать с многочасовыми видео, обеспечивая креативного пользователя возможностью быстрого и точного редактирования. Будущие исследования будут сосредоточены на расширении функционала, улучшении семантической точности и интеграции с другими системами т
Abstract
Creators struggle to edit long-form, narrative-rich videos not because of UI
complexity, but due to the cognitive demands of searching, storyboarding, and
sequencing hours of footage. Existing transcript- or embedding-based methods
fall short for creative workflows, as models struggle to track characters,
infer motivations, and connect dispersed events. We present a prompt-driven,
modular editing system that helps creators restructure multi-hour content
through free-form prompts rather than timelines. At its core is a semantic
indexing pipeline that builds a global narrative via temporal segmentation,
guided memory compression, and cross-granularity fusion, producing
interpretable traces of plot, dialogue, emotion, and context. Users receive
cinematic edits while optionally refining transparent intermediate outputs.
Evaluated on 400+ videos with expert ratings, QA, and preference studies, our
system scales prompt-driven editing, preserves narrative coherence, and
balances automation with creator control.
Ссылки и действия
Дополнительные ресурсы: