Preacher: Paper-to-Video Agentic System

2508.09632v2 cs.CV, cs.AI 2025-08-15

Авторы:

Jingwei Liu, Ling Yang, Hao Luo, Fan Wang, Hongyan Li, Mengdi Wang

Резюме на русском

## Контекст В современной науке и технологиях, выступления и презентации информации в виде видео становятся все более важным средством передачи знаний. Однако конвертация научных работ в адаптированные видео-абстракты часто требует значительных усилий и технических навыков. Это приводит к неэффективному использованию научных ресурсов и затруднения в доступе к научной информации для широкой аудитории. Кроме того, существующие модели генерации видео часто испытывают ограничения в контекстной охватываемости, строгости видеодлины и характеристиках стиля. Мотивация заключается в разработке системы, которая могла бы максимально эффективно и автоматизированно решать эти проблемы. ## Метод Preacher — первая система агентственного типа, которая решает задачу преобразования научных работ в видео-абстракты. Она применяет верхнеедоние и нижнеедоние подходы. Верхнеедоние отвечает за дизайн, декомпозицию и структуризацию исходного текста работы. Нижнеедоние отвечает за генерацию видео, соединяя детальность структуры с техническими моментами генерации. Для того, чтобы совместить представление между модалами, используется Progressive Chain of Thought (P-CoT), которая позволяет разделить процесс на гранулярные этапы и поддерживать интерактивный планирований. Эта методология позволяет Preacher строить высококачественные видео-абстракты на основе сложных научных текстов. ## Результаты Проведенные эксперименты показали, что Preacher создает видео-абстракты, которые значительно превосходят работы существующих моделей. В ходе исследования использовались научные работы из пяти различных областей науки. Результаты подтвердили, что Preacher эффективно декомпозирует информацию и генерирует структурированные видео-абстракты, в которых включены ключевые концепции, методы и выводы. Особенно удачно показалась возможность системы реагировать на требования к стилю и индивидуальным особенностям каждой области науки. ## Значимость Полученные результаты открывают новые горизонты в задачах кросс-модальной генерации и применении научной информации. Preacher может быть применена в области онлайн-образования, публикаций научных работ, создания обзоров и кратких абстрактов. Один из основных преимуществ — увеличение доступности научных работ для широкой аудитории, в том числе тех, кто не имеет технического бэкграунда. Будущие исследования будут направлены на улучшение качества генерируемых видео, добавление более стильных элементов и расширение поддерживаемых областей науки. ## Выводы Preacher представляет собой современное решение для конв

Abstract

The paper-to-video task converts a research paper into a structured video abstract, distilling key concepts, methods, and conclusions into an accessible, well-organized format. While state-of-the-art video generation models demonstrate potential, they are constrained by limited context windows, rigid video duration constraints, limited stylistic diversity, and an inability to represent domain-specific knowledge. To address these limitations, we introduce Preacher, the first paper-to-video agentic system. Preacher employs a topdown approach to decompose, summarize, and reformulate the paper, followed by bottom-up video generation, synthesizing diverse video segments into a coherent abstract. To align cross-modal representations, we define key scenes and introduce a Progressive Chain of Thought (P-CoT) for granular, iterative planning. Preacher successfully generates high-quality video abstracts across five research fields, demonstrating expertise beyond current video generation models. Code will be released at: https://github.com/GenVerse/Paper2Video

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Preacher: Paper-to-Video Agentic System

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация