Preacher: Paper-to-Video Agentic System

2508.09632v3 cs.CV, cs.AI 2025-08-18

Авторы:

Jingwei Liu, Ling Yang, Hao Luo, Fan Wang, Hongyan Li, Mengdi Wang

Резюме на русском

## Контекст Превращение научных статей в видеоабстракты — это важное исследование в области автоматического понимания текста и видеогенерирующих систем. Несмотря на развитие современных технологий по генерированию видео, они сталкиваются с рядом ограничений: ограниченный контекстный окно, жесткие ограничения по продолжительности видео, ограниченная стилистическая разнообразие, а также невозможность включить доменно-специфические знания в процесс генерирования. Эти ограничения приводят к недостаточности достижений в создании доступных, легко воспринимаемых и стилистически разнообразных видеоабстрактов. Чтобы компенсировать эти проблемы, предложено разработать новую систему Preacher, чтобы обеспечить эффективное и качественное преобразование научных текстов в видео. ## Метод Preacher является первым агентным системой, ориентированной на преобразование научных статей в видео. Она применяет верхнюю-внизую и низкую-вверхую методику, которая позволяет декомпозировать, суммировать, и реформулировать текст научной статьи. Для генерирования видео используется низкоуровневая генерация видео, синтезирующая различные видео-сегменты в более гармоничный абстракт. Для повышения точности кросс-модальных представлений, Preacher вводит ключевые сцены и развивает непрерывный цепной метод (Progressive Chain of Thought, P-CoT) для построения более точного планирования. Это позволяет генерировать видео, которые являются высококачественными и доступными для широкого круга пользователей. ## Результаты Preacher проводила ряд экспериментов, используя разнообразные научные статьи из пяти различных научных областей. Эксперименты показывают, что система эффективно разбирает и понимает тексты, а также создает высококачественные видеоабстракты, содержащие ключевые методы, результаты и выводы. Это позволяет системе преобразовать сложные научные тексты в простой и понятный формат, что значительно увеличивает их доступность для широкой аудитории. Данные эксперименты подтверждают, что Preacher превосходит существующие модели в области генерирования видеоабстрактов. ## Значимость Результаты Preacher открывают новые возможности для сферы образования, ученых публикаций и общественного понимания научных текстов. Система может использоваться для создания доступных, кратких и стильно оформленных видео-абстрактов, что облегчает понимание и распространение научных идей. Благодаря своей подходу, Preacher может играть ключевую роль в области видеогенерирования, позволяя генерировать высококачественные видео, которые могут применяться не только в образовательных подхода

Abstract

The paper-to-video task converts a research paper into a structured video abstract, distilling key concepts, methods, and conclusions into an accessible, well-organized format. While state-of-the-art video generation models demonstrate potential, they are constrained by limited context windows, rigid video duration constraints, limited stylistic diversity, and an inability to represent domain-specific knowledge. To address these limitations, we introduce Preacher, the first paper-to-video agentic system. Preacher employs a topdown approach to decompose, summarize, and reformulate the paper, followed by bottom-up video generation, synthesizing diverse video segments into a coherent abstract. To align cross-modal representations, we define key scenes and introduce a Progressive Chain of Thought (P-CoT) for granular, iterative planning. Preacher successfully generates high-quality video abstracts across five research fields, demonstrating expertise beyond current video generation models. Code will be released at: https://github.com/GenVerse/Paper2Video

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Preacher: Paper-to-Video Agentic System

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация