PoseGen: In-Context LoRA Finetuning for Pose-Controllable Long Human Video Generation

2508.05091v1 cs.CV 2025-08-09
Авторы:

Jingxuan He, Busheng Su, Finn Wong

Резюме на русском

**Резюме** Генерация длинных, когерентных видео с точным управлением движением и идентификацией лица представляет собой сложное задание для существующих моделей размышления. Эти модели часто страдают от вытеснения идентичности и ограничены короткими видео. Мы предлагаем PoseGen — новую систему для построения любой длины видео с помощью одного снимка и заданной последовательности положений. Основной инновацией PoseGen является стратегия LoRA-finetuning, которая реализует управление идентификацией при помощи внедрения токенов в текстурный пространстве и управления положением с помощью канальных значений. Для гарантии бесконечного времени сегментов видео PoseGen ввела метод интерлеaved segment generation, объединяющий видео-сегменты, чтобы убедиться в консистентности фона и гладкости. Модель была обучена на маленьком датасете (33 часа) и показала существенное превосходство в удержании идентификации, точности положений и выполнении длинных видео без артефактов.

Abstract

Generating long, temporally coherent videos with precise control over subject identity and motion is a formidable challenge for current diffusion models, which often suffer from identity drift and are limited to short clips. We introduce PoseGen, a novel framework that generates arbitrarily long videos of a specific subject from a single reference image and a driving pose sequence. Our core innovation is an in-context LoRA finetuning strategy that injects subject appearance at the token level for identity preservation, while simultaneously conditioning on pose information at the channel level for fine-grained motion control. To overcome duration limits, PoseGen pioneers an interleaved segment generation method that seamlessly stitches video clips together, using a shared KV cache mechanism and a specialized transition process to ensure background consistency and temporal smoothness. Trained on a remarkably small 33-hour video dataset, extensive experiments show that PoseGen significantly outperforms state-of-the-art methods in identity fidelity, pose accuracy, and its unique ability to produce coherent, artifact-free videos of unlimited duration.

Ссылки и действия