PoseGen: In-Context LoRA Finetuning for Pose-Controllable Long Human Video Generation
2508.05091v1
cs.CV
2025-08-09
Авторы:
Jingxuan He, Busheng Su, Finn Wong
Резюме на русском
**Резюме**
Генерация длинных, когерентных видео с точным управлением движением и идентификацией лица представляет собой сложное задание для существующих моделей размышления. Эти модели часто страдают от вытеснения идентичности и ограничены короткими видео. Мы предлагаем PoseGen — новую систему для построения любой длины видео с помощью одного снимка и заданной последовательности положений. Основной инновацией PoseGen является стратегия LoRA-finetuning, которая реализует управление идентификацией при помощи внедрения токенов в текстурный пространстве и управления положением с помощью канальных значений. Для гарантии бесконечного времени сегментов видео PoseGen ввела метод интерлеaved segment generation, объединяющий видео-сегменты, чтобы убедиться в консистентности фона и гладкости. Модель была обучена на маленьком датасете (33 часа) и показала существенное превосходство в удержании идентификации, точности положений и выполнении длинных видео без артефактов.
Abstract
Generating long, temporally coherent videos with precise control over subject
identity and motion is a formidable challenge for current diffusion models,
which often suffer from identity drift and are limited to short clips. We
introduce PoseGen, a novel framework that generates arbitrarily long videos of
a specific subject from a single reference image and a driving pose sequence.
Our core innovation is an in-context LoRA finetuning strategy that injects
subject appearance at the token level for identity preservation, while
simultaneously conditioning on pose information at the channel level for
fine-grained motion control. To overcome duration limits, PoseGen pioneers an
interleaved segment generation method that seamlessly stitches video clips
together, using a shared KV cache mechanism and a specialized transition
process to ensure background consistency and temporal smoothness. Trained on a
remarkably small 33-hour video dataset, extensive experiments show that PoseGen
significantly outperforms state-of-the-art methods in identity fidelity, pose
accuracy, and its unique ability to produce coherent, artifact-free videos of
unlimited duration.
Ссылки и действия
Дополнительные ресурсы: