VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models
2508.12081v1
cs.CV, cs.AI, cs.CL
2025-08-19
Авторы:
Haidong Xu, Guangwei Xu, Zhedong Zheng, Xiatian Zhu, Wei Ji, Xiangtai Li, Ruijie Guo, Meishan Zhang, Min zhang, Hao Fei
Резюме на русском
## Контекст
В последние годы выражающееся увеличение количества видеоданных, собранных методом видеосъемки, обусловило развитие многообразных моделей, ориентированных на анализ и понимание такого типа данных. Одной из главных проблем в этой сфере является создание моделей, которые могут эффективно использовать видеоданные для генерации моделей движений. Одним из наиболее актуальных подходов является видео-подкрепленная модель генерации трехмерных движений, которая может обнаружить и использовать знания из больших баз данных видео для улучшения генерации движений. Однако существуют значительные проблемы, связанные с ограниченностью данных для обучения, ошибками во время генерации и высоким уровнем комплексности процесса. Эти проблемы привели к развитию моделей, которые могут использовать видео для повышения качества генерации трехмерных моделей движения.
## Метод
Метод, представленный в работе, называется **VimoRAG**. Это новая рама, ориентированная на видео, которая использует возможности видео-подкрепленных моделей для улучшения генерации трехмерных движений. Рама включает несколько ключевых компонентов, таких как **Gemini Motion Video Retriever**, который отвечает за эффективное выявление и выборка 2D моделей движения из базы данных видео, и **Motion-centric Dual-alignment DPO Trainer**, который укрепляет связь между выбранными моделями движения и генерируемыми трехмерными моделями движения. Эта архитектура позволяет VimoRAG решать два ключевых проблемы: (1) повышение эффективности модели поиска 2D движений, которая отличает позы и действия, и (2) уменьшение ошибок, возникающих в процессе генерации движений в результате неудачных выборок. Таким образом, VimoRAG предлагает совершенствованный подход к видео-подкрепленной генерации трехмерных моделей движения.
## Результаты
Результаты исследований показывают, что VimoRAG существенно повышает качество генерации трехмерных моделей движения в сравнении с существующими моделями. Эксперименты проводились на большом объеме видеоданных, включая широкую палитру 2D моделей движения. Использование видео-подкрепленной модели позволило VimoRAG различать различные типы движения и позы в видео, что приводило к более точной и качественной генерации трехмерных моделей движения. Результаты показывают, что VimoRAG существенно повышает качество генерации движений, даже при ограниченном количестве данных для обучения. Это указывает на эффективность этого подхода в решении проблем, связанных с ограниченностью данных и ошибками во время генерации.
## Значимость
Разработанная модель VimoRAG имеет большой потенциал в различных областях, таких как
Abstract
This paper introduces VimoRAG, a novel video-based retrieval-augmented motion
generation framework for motion large language models (LLMs). As motion LLMs
face severe out-of-domain/out-of-vocabulary issues due to limited annotated
data, VimoRAG leverages large-scale in-the-wild video databases to enhance 3D
motion generation by retrieving relevant 2D human motion signals. While
video-based motion RAG is nontrivial, we address two key bottlenecks: (1)
developing an effective motion-centered video retrieval model that
distinguishes human poses and actions, and (2) mitigating the issue of error
propagation caused by suboptimal retrieval results. We design the Gemini Motion
Video Retriever mechanism and the Motion-centric Dual-alignment DPO Trainer,
enabling effective retrieval and generation processes. Experimental results
show that VimoRAG significantly boosts the performance of motion LLMs
constrained to text-only input.
Ссылки и действия
Дополнительные ресурсы: