Learning in ImaginationLand: Omnidirectional Policies through 3D Generative Models (OP-Gen)

2509.06191v1 cs.RO, cs.CV, cs.LG 2025-09-10

Авторы:

Yifei Ren, Edward Johns

Резюме на русском

#### Контекст Роботизация различных процессов требует эффективного обучения моделей, позволяющих роботам выполнять широкий спектл задач с минимальным количеством демонстраций. Одной из основных проблем является необходимость многократного повторения демонстраций для точного научения роботам выполнять задачи в различных условиях. Это приводит к затратности во времени и ресурсах. Кроме того, ограниченные запуски могут привести к неполной обработке всех возможных ситуаций. Недавно развивающиеся 3D-генерирующие модели, способные получить полную форму объекта из небольшого количества изображений, могут стать ключевым решением. Однако их потенциал в области обучения моделей в ситуациях, отличающихся от демонстрации, еще не полностью исследован. #### Метод Мы предлагаем метод **OP-Gen (Omnidirectional Policies through 3D Generative Models)**, который позволяет улучшить обучение моделей в условиях ограниченных демонстраций. Работа основывается на использовании 3D-генерирующих моделей для расширения демонстрационных данных. Это достигается путем генерирования дополнительных изображений объектов из разных углов и позиций, чтобы воссоздать различные возможные конфигурации объекта. Затем эти генерируемые данные используются для обучения политики, которая может выполнять задачи в реальном мире независимо от начального положения робота. Это расширение данных позволяет роботу осуществлять задачи даже тогда, когда начальное положение находится на значительном расстоянии от того, которое было видно во время демонстрации. #### Результаты Мы проверили эффективность OP-Gen на нескольких задачах, включая захват предметов, открытие шкафа и сбор мусора. Для этого мы провели эксперименты в реальном мире, используя данные, полученные с помощью 3D-генерирующих моделей. Отметим, что наши результаты показывают, что OP-Gen демонстрирует значительный выигрыш в производительности по сравнению с другими методами, которые используют стандартные методы дата-аугментации. Мы также изучили динамику работы политик в различных условиях, включая запуск робота с очень дальней позиции от объекта, что позволило увидеть полноту и устойчивость нашего подхода. #### Значимость Метод OP-Gen может быть применен в многочисленных областях, включая автоматизацию производственных процессов, домашнюю роботизацию и улучшение роботизированных систем в сложных средах. Одним из ключевых преимуществ является снижение необходимости в повторных демонстрациях, что ускоряет и улучшает обучение моделей. Кроме того, подход позволяет роботу выполнять задачи в новых условиях, не схожих с теми, которые были доступны во время обуч

Abstract

Recent 3D generative models, which are capable of generating full object shapes from just a few images, now open up new opportunities in robotics. In this work, we show that 3D generative models can be used to augment a dataset from a single real-world demonstration, after which an omnidirectional policy can be learned within this imagined dataset. We found that this enables a robot to perform a task when initialised from states very far from those observed during the demonstration, including starting from the opposite side of the object relative to the real-world demonstration, significantly reducing the number of demonstrations required for policy learning. Through several real-world experiments across tasks such as grasping objects, opening a drawer, and placing trash into a bin, we study these omnidirectional policies by investigating the effect of various design choices on policy behaviour, and we show superior performance to recent baselines which use alternative methods for data augmentation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Learning in ImaginationLand: Omnidirectional Policies through 3D Generative Models (OP-Gen)

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TraceGen: World Modeling in 3D Trace Space Enables Learning from Cross-Embodimen...

Observer Actor: Active Vision Imitation Learning with Sparse View Gaussian Splat...

Learning Visually Interpretable Oscillator Networks for Soft Continuum Robots fr...

Compressor-VLA: Instruction-Guided Visual Token Compression for Efficient Roboti...

Real-to-Sim Robot Policy Evaluation with Gaussian Splatting Simulation of Soft-B...

Навигация