Preacher: Paper-to-Video Agentic System
2508.09632v2
cs.CV, cs.AI
2025-08-15
Авторы:
Jingwei Liu, Ling Yang, Hao Luo, Fan Wang, Hongyan Li, Mengdi Wang
Резюме на русском
## Контекст
В современной науке и технологиях, выступления и презентации информации в виде видео становятся все более важным средством передачи знаний. Однако конвертация научных работ в адаптированные видео-абстракты часто требует значительных усилий и технических навыков. Это приводит к неэффективному использованию научных ресурсов и затруднения в доступе к научной информации для широкой аудитории. Кроме того, существующие модели генерации видео часто испытывают ограничения в контекстной охватываемости, строгости видеодлины и характеристиках стиля. Мотивация заключается в разработке системы, которая могла бы максимально эффективно и автоматизированно решать эти проблемы.
## Метод
Preacher — первая система агентственного типа, которая решает задачу преобразования научных работ в видео-абстракты. Она применяет верхнеедоние и нижнеедоние подходы. Верхнеедоние отвечает за дизайн, декомпозицию и структуризацию исходного текста работы. Нижнеедоние отвечает за генерацию видео, соединяя детальность структуры с техническими моментами генерации. Для того, чтобы совместить представление между модалами, используется Progressive Chain of Thought (P-CoT), которая позволяет разделить процесс на гранулярные этапы и поддерживать интерактивный планирований. Эта методология позволяет Preacher строить высококачественные видео-абстракты на основе сложных научных текстов.
## Результаты
Проведенные эксперименты показали, что Preacher создает видео-абстракты, которые значительно превосходят работы существующих моделей. В ходе исследования использовались научные работы из пяти различных областей науки. Результаты подтвердили, что Preacher эффективно декомпозирует информацию и генерирует структурированные видео-абстракты, в которых включены ключевые концепции, методы и выводы. Особенно удачно показалась возможность системы реагировать на требования к стилю и индивидуальным особенностям каждой области науки.
## Значимость
Полученные результаты открывают новые горизонты в задачах кросс-модальной генерации и применении научной информации. Preacher может быть применена в области онлайн-образования, публикаций научных работ, создания обзоров и кратких абстрактов. Один из основных преимуществ — увеличение доступности научных работ для широкой аудитории, в том числе тех, кто не имеет технического бэкграунда. Будущие исследования будут направлены на улучшение качества генерируемых видео, добавление более стильных элементов и расширение поддерживаемых областей науки.
## Выводы
Preacher представляет собой современное решение для конв
Abstract
The paper-to-video task converts a research paper into a structured video
abstract, distilling key concepts, methods, and conclusions into an accessible,
well-organized format. While state-of-the-art video generation models
demonstrate potential, they are constrained by limited context windows, rigid
video duration constraints, limited stylistic diversity, and an inability to
represent domain-specific knowledge. To address these limitations, we introduce
Preacher, the first paper-to-video agentic system. Preacher employs a topdown
approach to decompose, summarize, and reformulate the paper, followed by
bottom-up video generation, synthesizing diverse video segments into a coherent
abstract. To align cross-modal representations, we define key scenes and
introduce a Progressive Chain of Thought (P-CoT) for granular, iterative
planning. Preacher successfully generates high-quality video abstracts across
five research fields, demonstrating expertise beyond current video generation
models. Code will be released at: https://github.com/GenVerse/Paper2Video
Ссылки и действия
Дополнительные ресурсы: