VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

2508.12081v1 cs.CV, cs.AI, cs.CL 2025-08-19

Авторы:

Haidong Xu, Guangwei Xu, Zhedong Zheng, Xiatian Zhu, Wei Ji, Xiangtai Li, Ruijie Guo, Meishan Zhang, Min zhang, Hao Fei

Резюме на русском

## Контекст В последние годы выражающееся увеличение количества видеоданных, собранных методом видеосъемки, обусловило развитие многообразных моделей, ориентированных на анализ и понимание такого типа данных. Одной из главных проблем в этой сфере является создание моделей, которые могут эффективно использовать видеоданные для генерации моделей движений. Одним из наиболее актуальных подходов является видео-подкрепленная модель генерации трехмерных движений, которая может обнаружить и использовать знания из больших баз данных видео для улучшения генерации движений. Однако существуют значительные проблемы, связанные с ограниченностью данных для обучения, ошибками во время генерации и высоким уровнем комплексности процесса. Эти проблемы привели к развитию моделей, которые могут использовать видео для повышения качества генерации трехмерных моделей движения. ## Метод Метод, представленный в работе, называется **VimoRAG**. Это новая рама, ориентированная на видео, которая использует возможности видео-подкрепленных моделей для улучшения генерации трехмерных движений. Рама включает несколько ключевых компонентов, таких как **Gemini Motion Video Retriever**, который отвечает за эффективное выявление и выборка 2D моделей движения из базы данных видео, и **Motion-centric Dual-alignment DPO Trainer**, который укрепляет связь между выбранными моделями движения и генерируемыми трехмерными моделями движения. Эта архитектура позволяет VimoRAG решать два ключевых проблемы: (1) повышение эффективности модели поиска 2D движений, которая отличает позы и действия, и (2) уменьшение ошибок, возникающих в процессе генерации движений в результате неудачных выборок. Таким образом, VimoRAG предлагает совершенствованный подход к видео-подкрепленной генерации трехмерных моделей движения. ## Результаты Результаты исследований показывают, что VimoRAG существенно повышает качество генерации трехмерных моделей движения в сравнении с существующими моделями. Эксперименты проводились на большом объеме видеоданных, включая широкую палитру 2D моделей движения. Использование видео-подкрепленной модели позволило VimoRAG различать различные типы движения и позы в видео, что приводило к более точной и качественной генерации трехмерных моделей движения. Результаты показывают, что VimoRAG существенно повышает качество генерации движений, даже при ограниченном количестве данных для обучения. Это указывает на эффективность этого подхода в решении проблем, связанных с ограниченностью данных и ошибками во время генерации. ## Значимость Разработанная модель VimoRAG имеет большой потенциал в различных областях, таких как

Abstract

This paper introduces VimoRAG, a novel video-based retrieval-augmented motion generation framework for motion large language models (LLMs). As motion LLMs face severe out-of-domain/out-of-vocabulary issues due to limited annotated data, VimoRAG leverages large-scale in-the-wild video databases to enhance 3D motion generation by retrieving relevant 2D human motion signals. While video-based motion RAG is nontrivial, we address two key bottlenecks: (1) developing an effective motion-centered video retrieval model that distinguishes human poses and actions, and (2) mitigating the issue of error propagation caused by suboptimal retrieval results. We design the Gemini Motion Video Retriever mechanism and the Motion-centric Dual-alignment DPO Trainer, enabling effective retrieval and generation processes. Experimental results show that VimoRAG significantly boosts the performance of motion LLMs constrained to text-only input.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Traini...

NAS-LoRA: Empowering Parameter-Efficient Fine-Tuning for Visual Foundation Model...

Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Stream...

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcem...

Навигация