SimGenHOI: Physically Realistic Whole-Body Humanoid-Object Interaction via Generative Modeling and Reinforcement Learning
2508.14120v1
cs.RO, cs.AI
2025-08-22
Авторы:
Yuhang Lin, Yijia Xie, Jiahong Xie, Yuehao Huang, Ruoyu Wang, Jiajun Lv, Yukai Ma, Xingxing Zuo
Резюме на русском
## Контекст
Генерация реалистичных траекторий тела и рук роботов в условиях взаимодействия с предметами (Humanoid-Object Interaction, HOI) является ключевым заданием в области машинного обучения и робототехники. Однако существующие подходы часто сталкиваются с проблемами, такими как неприродные контакты, проникновения объектов во внутренние тела, неестественность движений, что сказывается на точности выполнения заданий. Эти недостатки ограничивают применение подобных моделей в реальных сценариях взаимодействия роботов с физическим окружением.
## Метод
Мы предлагаем SimGenHOI — универсальную систему, которая объединяет мощь генерирующих моделей и управляемость систем управления подкреплением (Reinforcement Learning, RL). Модель генерации SimGenHOI, основанная на Diffusion Transformers, способна предсказывать ключевые движения, основанные на текстовых запросах, геометрии объекта, точечным описанию движения и начальной позе робота. Эти движения гладко интерполируются в общую траекторию. Для обеспечения физической реалистичности, мы разрабатываем политику управления, учитывающую контакты и полностью интегрирующуюся с моделью генерации. Для повышения качества и совместимости, мы применяем стратегию мультиметода, в которой модель и политика управления обучаются друг с другом, улучшая как реалистичность движений, так и их стабильность.
## Результаты
Мы проводим эксперименты с различными сценариями HOI, в том числе с применением нескольких действий в течение длительного периода. Модель SimGenHOI продемонстрировала высокую точность и реалистичность траекторий движений, существенно превосходя при этом существующие алгоритмы по степени реалистичности и устойчивости движений. Данные эксперименты подтверждают возможность SimGenHOI генерировать движения, которые могут эффективно использоваться в практических задачах взаимодействия в физических условиях.
## Значимость
Модель SimGenHOI может быть применена в области робототехники, визуальных систем, антропоморфного искусственного интеллекта и интерактивных систем. Она превосходит существующие подходы в реалистичности моделирования взаимодействий, что открывает перспективы для её применения в сценариях, требующих точности и безопасности, таких как роботизированные хирургические операции, роботизированные системы сервиса, а также в сфере искусственного интеллекта.
## Выводы
Мы представляем SimGenHOI — первый полностью универсальный подход к генерации реалистичных траекторий взаимодействий роботов с предметами. Наши результаты показывают, что SimGenHOI может генерировать контролируемые, физически реалистичные
Abstract
Generating physically realistic humanoid-object interactions (HOI) is a
fundamental challenge in robotics. Existing HOI generation approaches, such as
diffusion-based models, often suffer from artifacts such as implausible
contacts, penetrations, and unrealistic whole-body actions, which hinder
successful execution in physical environments. To address these challenges, we
introduce SimGenHOI, a unified framework that combines the strengths of
generative modeling and reinforcement learning to produce controllable and
physically plausible HOI. Our HOI generative model, based on Diffusion
Transformers (DiT), predicts a set of key actions conditioned on text prompts,
object geometry, sparse object waypoints, and the initial humanoid pose. These
key actions capture essential interaction dynamics and are interpolated into
smooth motion trajectories, naturally supporting long-horizon generation. To
ensure physical realism, we design a contact-aware whole-body control policy
trained with reinforcement learning, which tracks the generated motions while
correcting artifacts such as penetration and foot sliding. Furthermore, we
introduce a mutual fine-tuning strategy, where the generative model and the
control policy iteratively refine each other, improving both motion realism and
tracking robustness. Extensive experiments demonstrate that SimGenHOI generates
realistic, diverse, and physically plausible humanoid-object interactions,
achieving significantly higher tracking success rates in simulation and
enabling long-horizon manipulation tasks. Code will be released upon acceptance
on our project page: https://xingxingzuo.github.io/simgen_hoi.
Ссылки и действия
Дополнительные ресурсы: