EmbodiedSplat: Personalized Real-to-Sim-to-Real Navigation with Gaussian Splats from a Mobile Device
2509.17430v2
cs.CV, cs.RO
2025-09-24
Авторы:
Gunjan Chhablani, Xiaomeng Ye, Muhammad Zubair Irshad, Zsolt Kira
Резюме на русском
## Контекст
Область Embodied AI (интеллектуальные системы, взаимодействующие с реальной средой) на момент написания статьи широко использовала симуляционные среды для обучения и оценки моделей. Однако существует две главные проблемы: использование симуляторов с полностью синтетическими средами, которые не имеют фотореалистичности, и высококачественных сред, построенных с помощью дорогостоящих аппаратных средств. Это приводит к сложностям в переходе от симуляции к реальному миру (sim-to-real). Наша мотивация заключается в создании метода, который бы уменьшал эти сложности и позволил эффективно адаптировать модели к реальным условиям.
## Метод
Мы предлагаем EmbodiedSplat — метод, который использует 3D Gaussian Splatting (GS) для эффективного снимания и записи реального окружения с помощью мобильных устройств. Эти снимки преобразуются в модели меша и используются в симуляторе Habitat-Sim для оценки и тренировки политик. Основные элементы нашего подхода:
1. **Съемка реального окружения**: мы используем iPhone для съемки сцен, где должна производиться навигация.
2. **Преобразование в меш**: GS преобразует фотограммные данные в 3D-реплики среды.
3. **Оценка и тренировка в симуляторе**: мы применяем Habitat-Sim для анализа поведения моделей в этих реконструированных окружениях.
4. **Персонализация**: наши системы настраиваются на особенности конкретной среды, что увеличивает точность.
Этот подход позволяет эффективно использовать реальные данные и оптимизировать сложность и накладные расходы симуляций.
## Результаты
Мы провели тщательные эксперименты с различными стратегиями обучения, наборами данных и методами реконструкции моделей. Мы оценивали, насколько эффективно модели могут применяться в реальном мире после тренировки в симуляции. Основные результаты:
- **Эффективность EmbodiedSplat**: модели, обученные с помощью нашего метода, показали абсолютные улучшения успешности в навигационных задачах (Image Navigation task) до 20% по сравнению с zero-shot baselines, использующими HM3D, и до 40% по сравнению с HSSD.
- **Корреляция симуляции и реальности**: мы получили высокую корреляцию (0.87–0.97) между реальными условиями и реконструкциями, что подтверждает эффективность нашего подхода в переходе симуляции к реальности.
Эти результаты показывают, что EmbodiedSplat позволяет эффективно адаптировать модели к реальным условиям с минимальными затратами.
## Значимость
Мы видим применение EmbodiedSplat в следующих областях:
- **Робототехника и виртуальная реальность**: эффективный тренировочный подход может уменьшить время и стоимость тренировки моделей для навигации в реальных условиях.
- **Обучение с подк
Abstract
The field of Embodied AI predominantly relies on simulation for training and
evaluation, often using either fully synthetic environments that lack
photorealism or high-fidelity real-world reconstructions captured with
expensive hardware. As a result, sim-to-real transfer remains a major
challenge. In this paper, we introduce EmbodiedSplat, a novel approach that
personalizes policy training by efficiently capturing the deployment
environment and fine-tuning policies within the reconstructed scenes. Our
method leverages 3D Gaussian Splatting (GS) and the Habitat-Sim simulator to
bridge the gap between realistic scene capture and effective training
environments. Using iPhone-captured deployment scenes, we reconstruct meshes
via GS, enabling training in settings that closely approximate real-world
conditions. We conduct a comprehensive analysis of training strategies,
pre-training datasets, and mesh reconstruction techniques, evaluating their
impact on sim-to-real predictivity in real-world scenarios. Experimental
results demonstrate that agents fine-tuned with EmbodiedSplat outperform both
zero-shot baselines pre-trained on large-scale real-world datasets (HM3D) and
synthetically generated datasets (HSSD), achieving absolute success rate
improvements of 20% and 40% on real-world Image Navigation task. Moreover, our
approach yields a high sim-vs-real correlation (0.87-0.97) for the
reconstructed meshes, underscoring its effectiveness in adapting policies to
diverse environments with minimal effort. Project page:
https://gchhablani.github.io/embodied-splat.
Ссылки и действия
Дополнительные ресурсы: