MSG: Multi-Stream Generative Policies for Sample-Efficient Robotic Manipulation

2509.24956v1 cs.RO, cs.AI, cs.LG 2025-10-01
Авторы:

Jan Ole von Hartz, Lukas Schweizer, Joschka Boedecker, Abhinav Valada

Резюме на русском

#### Контекст Роботизированная манипуляция является ключевым аспектом развития интеллектуальных систем, но ее эффективность зависит от качества и эффективности порождающих политик. Одним из основных вызовов является сочетание гибкости и высокой эффективности в использовании данных. Несмотря на развитие подходов, таких как Flow Matching, которые предлагают гибкую генерирующую политику, они часто сталкиваются с проблемой высокой неэффективности при изучении на основе данных. В то же время, объектно-центрированные политики способствуют улучшению эффективности обучения, но не решают проблему с применением в различных сценариях. Мы предлагаем Multi-Stream Generative Policy (MSG) — расширяемую рамку для создания политик, которая объединяет несколько объектно-центрированных политик во время выполнения, чтобы улучшить их общеупотребляемость и эффективность обучения. #### Метод MSG — это модель-агностичная и инференционно-только рамка, которая объединяет несколько объектно-центрированных политик. Основоположником этого подхода является идея обеспечения гибкости при обучении, которая достигается через разделение политики на несколько потоков, каждый из которых отвечает за определенный аспект обучения. Эти потоки могут быть обучены независимо, что позволяет максимально эффективно использовать ресурсы. Затем, во время выполнения, они комбинируются в единую политику, делая ее более гибкой и устойчивой к новым ситуациям. Это решение позволяет улучшить общую точность и уменьшить количество необходимых данных для обучения. #### Результаты Мы проверили MSG на различных симуляционных и реальных задачах, включая задачи по манипуляции предметов. Мы показали, что наша политика может быть обучена из лишь пяти демонстраций, что сокращает необходимое количество данных в 95%. Затем мы сравнили результаты с однопоточными политиками, показав улучшение эффективности почти на 89%. Мы также провели абляционные исследования, исследуя различные стратегии сложения потоков, что позволило нам выявить наиболее эффективную конфигурацию. Эти эксперименты подтвердили, что MSG может генерировать качественные политики с минимальным количеством данных, что делает ее привлекательной для применения в реальной жизни. #### Значимость MSG представляет собой значительный перспективный подход в области порождающих политик, которые используются в роботизированных системах. Его основное преимущество заключается в том, что он может эффективно сочетать политики разных типов, что обеспечивает улучшение общей точности и уменьшает необходимое количество данных для обучения. Это увеличивает его применяемость в различных сценариях, вкл

Abstract

Generative robot policies such as Flow Matching offer flexible, multi-modal policy learning but are sample-inefficient. Although object-centric policies improve sample efficiency, it does not resolve this limitation. In this work, we propose Multi-Stream Generative Policy (MSG), an inference-time composition framework that trains multiple object-centric policies and combines them at inference to improve generalization and sample efficiency. MSG is model-agnostic and inference-only, hence widely applicable to various generative policies and training paradigms. We perform extensive experiments both in simulation and on a real robot, demonstrating that our approach learns high-quality generative policies from as few as five demonstrations, resulting in a 95% reduction in demonstrations, and improves policy performance by 89 percent compared to single-stream approaches. Furthermore, we present comprehensive ablation studies on various composition strategies and provide practical recommendations for deployment. Finally, MSG enables zero-shot object instance transfer. We make our code publicly available at https://msg.cs.uni-freiburg.de.

Ссылки и действия