Preacher: Paper-to-Video Agentic System
2508.09632v3
cs.CV, cs.AI
2025-08-18
Авторы:
Jingwei Liu, Ling Yang, Hao Luo, Fan Wang, Hongyan Li, Mengdi Wang
Резюме на русском
## Контекст
Превращение научных статей в видеоабстракты — это важное исследование в области автоматического понимания текста и видеогенерирующих систем. Несмотря на развитие современных технологий по генерированию видео, они сталкиваются с рядом ограничений: ограниченный контекстный окно, жесткие ограничения по продолжительности видео, ограниченная стилистическая разнообразие, а также невозможность включить доменно-специфические знания в процесс генерирования. Эти ограничения приводят к недостаточности достижений в создании доступных, легко воспринимаемых и стилистически разнообразных видеоабстрактов. Чтобы компенсировать эти проблемы, предложено разработать новую систему Preacher, чтобы обеспечить эффективное и качественное преобразование научных текстов в видео.
## Метод
Preacher является первым агентным системой, ориентированной на преобразование научных статей в видео. Она применяет верхнюю-внизую и низкую-вверхую методику, которая позволяет декомпозировать, суммировать, и реформулировать текст научной статьи. Для генерирования видео используется низкоуровневая генерация видео, синтезирующая различные видео-сегменты в более гармоничный абстракт. Для повышения точности кросс-модальных представлений, Preacher вводит ключевые сцены и развивает непрерывный цепной метод (Progressive Chain of Thought, P-CoT) для построения более точного планирования. Это позволяет генерировать видео, которые являются высококачественными и доступными для широкого круга пользователей.
## Результаты
Preacher проводила ряд экспериментов, используя разнообразные научные статьи из пяти различных научных областей. Эксперименты показывают, что система эффективно разбирает и понимает тексты, а также создает высококачественные видеоабстракты, содержащие ключевые методы, результаты и выводы. Это позволяет системе преобразовать сложные научные тексты в простой и понятный формат, что значительно увеличивает их доступность для широкой аудитории. Данные эксперименты подтверждают, что Preacher превосходит существующие модели в области генерирования видеоабстрактов.
## Значимость
Результаты Preacher открывают новые возможности для сферы образования, ученых публикаций и общественного понимания научных текстов. Система может использоваться для создания доступных, кратких и стильно оформленных видео-абстрактов, что облегчает понимание и распространение научных идей. Благодаря своей подходу, Preacher может играть ключевую роль в области видеогенерирования, позволяя генерировать высококачественные видео, которые могут применяться не только в образовательных подхода
Abstract
The paper-to-video task converts a research paper into a structured video
abstract, distilling key concepts, methods, and conclusions into an accessible,
well-organized format. While state-of-the-art video generation models
demonstrate potential, they are constrained by limited context windows, rigid
video duration constraints, limited stylistic diversity, and an inability to
represent domain-specific knowledge. To address these limitations, we introduce
Preacher, the first paper-to-video agentic system. Preacher employs a topdown
approach to decompose, summarize, and reformulate the paper, followed by
bottom-up video generation, synthesizing diverse video segments into a coherent
abstract. To align cross-modal representations, we define key scenes and
introduce a Progressive Chain of Thought (P-CoT) for granular, iterative
planning. Preacher successfully generates high-quality video abstracts across
five research fields, demonstrating expertise beyond current video generation
models. Code will be released at: https://github.com/GenVerse/Paper2Video
Ссылки и действия
Дополнительные ресурсы: