EmbodiedSplat: Personalized Real-to-Sim-to-Real Navigation with Gaussian Splats from a Mobile Device

2509.17430v2 cs.CV, cs.RO 2025-09-24
Авторы:

Gunjan Chhablani, Xiaomeng Ye, Muhammad Zubair Irshad, Zsolt Kira

Резюме на русском

## Контекст Область Embodied AI (интеллектуальные системы, взаимодействующие с реальной средой) на момент написания статьи широко использовала симуляционные среды для обучения и оценки моделей. Однако существует две главные проблемы: использование симуляторов с полностью синтетическими средами, которые не имеют фотореалистичности, и высококачественных сред, построенных с помощью дорогостоящих аппаратных средств. Это приводит к сложностям в переходе от симуляции к реальному миру (sim-to-real). Наша мотивация заключается в создании метода, который бы уменьшал эти сложности и позволил эффективно адаптировать модели к реальным условиям. ## Метод Мы предлагаем EmbodiedSplat — метод, который использует 3D Gaussian Splatting (GS) для эффективного снимания и записи реального окружения с помощью мобильных устройств. Эти снимки преобразуются в модели меша и используются в симуляторе Habitat-Sim для оценки и тренировки политик. Основные элементы нашего подхода: 1. **Съемка реального окружения**: мы используем iPhone для съемки сцен, где должна производиться навигация. 2. **Преобразование в меш**: GS преобразует фотограммные данные в 3D-реплики среды. 3. **Оценка и тренировка в симуляторе**: мы применяем Habitat-Sim для анализа поведения моделей в этих реконструированных окружениях. 4. **Персонализация**: наши системы настраиваются на особенности конкретной среды, что увеличивает точность. Этот подход позволяет эффективно использовать реальные данные и оптимизировать сложность и накладные расходы симуляций. ## Результаты Мы провели тщательные эксперименты с различными стратегиями обучения, наборами данных и методами реконструкции моделей. Мы оценивали, насколько эффективно модели могут применяться в реальном мире после тренировки в симуляции. Основные результаты: - **Эффективность EmbodiedSplat**: модели, обученные с помощью нашего метода, показали абсолютные улучшения успешности в навигационных задачах (Image Navigation task) до 20% по сравнению с zero-shot baselines, использующими HM3D, и до 40% по сравнению с HSSD. - **Корреляция симуляции и реальности**: мы получили высокую корреляцию (0.87–0.97) между реальными условиями и реконструкциями, что подтверждает эффективность нашего подхода в переходе симуляции к реальности. Эти результаты показывают, что EmbodiedSplat позволяет эффективно адаптировать модели к реальным условиям с минимальными затратами. ## Значимость Мы видим применение EmbodiedSplat в следующих областях: - **Робототехника и виртуальная реальность**: эффективный тренировочный подход может уменьшить время и стоимость тренировки моделей для навигации в реальных условиях. - **Обучение с подк

Abstract

The field of Embodied AI predominantly relies on simulation for training and evaluation, often using either fully synthetic environments that lack photorealism or high-fidelity real-world reconstructions captured with expensive hardware. As a result, sim-to-real transfer remains a major challenge. In this paper, we introduce EmbodiedSplat, a novel approach that personalizes policy training by efficiently capturing the deployment environment and fine-tuning policies within the reconstructed scenes. Our method leverages 3D Gaussian Splatting (GS) and the Habitat-Sim simulator to bridge the gap between realistic scene capture and effective training environments. Using iPhone-captured deployment scenes, we reconstruct meshes via GS, enabling training in settings that closely approximate real-world conditions. We conduct a comprehensive analysis of training strategies, pre-training datasets, and mesh reconstruction techniques, evaluating their impact on sim-to-real predictivity in real-world scenarios. Experimental results demonstrate that agents fine-tuned with EmbodiedSplat outperform both zero-shot baselines pre-trained on large-scale real-world datasets (HM3D) and synthetically generated datasets (HSSD), achieving absolute success rate improvements of 20% and 40% on real-world Image Navigation task. Moreover, our approach yields a high sim-vs-real correlation (0.87-0.97) for the reconstructed meshes, underscoring its effectiveness in adapting policies to diverse environments with minimal effort. Project page: https://gchhablani.github.io/embodied-splat.

Ссылки и действия