SimGenHOI: Physically Realistic Whole-Body Humanoid-Object Interaction via Generative Modeling and Reinforcement Learning

2508.14120v1 cs.RO, cs.AI 2025-08-22
Авторы:

Yuhang Lin, Yijia Xie, Jiahong Xie, Yuehao Huang, Ruoyu Wang, Jiajun Lv, Yukai Ma, Xingxing Zuo

Резюме на русском

## Контекст Генерация реалистичных траекторий тела и рук роботов в условиях взаимодействия с предметами (Humanoid-Object Interaction, HOI) является ключевым заданием в области машинного обучения и робототехники. Однако существующие подходы часто сталкиваются с проблемами, такими как неприродные контакты, проникновения объектов во внутренние тела, неестественность движений, что сказывается на точности выполнения заданий. Эти недостатки ограничивают применение подобных моделей в реальных сценариях взаимодействия роботов с физическим окружением. ## Метод Мы предлагаем SimGenHOI — универсальную систему, которая объединяет мощь генерирующих моделей и управляемость систем управления подкреплением (Reinforcement Learning, RL). Модель генерации SimGenHOI, основанная на Diffusion Transformers, способна предсказывать ключевые движения, основанные на текстовых запросах, геометрии объекта, точечным описанию движения и начальной позе робота. Эти движения гладко интерполируются в общую траекторию. Для обеспечения физической реалистичности, мы разрабатываем политику управления, учитывающую контакты и полностью интегрирующуюся с моделью генерации. Для повышения качества и совместимости, мы применяем стратегию мультиметода, в которой модель и политика управления обучаются друг с другом, улучшая как реалистичность движений, так и их стабильность. ## Результаты Мы проводим эксперименты с различными сценариями HOI, в том числе с применением нескольких действий в течение длительного периода. Модель SimGenHOI продемонстрировала высокую точность и реалистичность траекторий движений, существенно превосходя при этом существующие алгоритмы по степени реалистичности и устойчивости движений. Данные эксперименты подтверждают возможность SimGenHOI генерировать движения, которые могут эффективно использоваться в практических задачах взаимодействия в физических условиях. ## Значимость Модель SimGenHOI может быть применена в области робототехники, визуальных систем, антропоморфного искусственного интеллекта и интерактивных систем. Она превосходит существующие подходы в реалистичности моделирования взаимодействий, что открывает перспективы для её применения в сценариях, требующих точности и безопасности, таких как роботизированные хирургические операции, роботизированные системы сервиса, а также в сфере искусственного интеллекта. ## Выводы Мы представляем SimGenHOI — первый полностью универсальный подход к генерации реалистичных траекторий взаимодействий роботов с предметами. Наши результаты показывают, что SimGenHOI может генерировать контролируемые, физически реалистичные

Abstract

Generating physically realistic humanoid-object interactions (HOI) is a fundamental challenge in robotics. Existing HOI generation approaches, such as diffusion-based models, often suffer from artifacts such as implausible contacts, penetrations, and unrealistic whole-body actions, which hinder successful execution in physical environments. To address these challenges, we introduce SimGenHOI, a unified framework that combines the strengths of generative modeling and reinforcement learning to produce controllable and physically plausible HOI. Our HOI generative model, based on Diffusion Transformers (DiT), predicts a set of key actions conditioned on text prompts, object geometry, sparse object waypoints, and the initial humanoid pose. These key actions capture essential interaction dynamics and are interpolated into smooth motion trajectories, naturally supporting long-horizon generation. To ensure physical realism, we design a contact-aware whole-body control policy trained with reinforcement learning, which tracks the generated motions while correcting artifacts such as penetration and foot sliding. Furthermore, we introduce a mutual fine-tuning strategy, where the generative model and the control policy iteratively refine each other, improving both motion realism and tracking robustness. Extensive experiments demonstrate that SimGenHOI generates realistic, diverse, and physically plausible humanoid-object interactions, achieving significantly higher tracking success rates in simulation and enabling long-horizon manipulation tasks. Code will be released upon acceptance on our project page: https://xingxingzuo.github.io/simgen_hoi.

Ссылки и действия