GenFlowRL: Shaping Rewards with Generative Object-Centric Flow in Visual Reinforcement Learning

2508.11049v1 cs.RO, cs.CV 2025-08-19
Авторы:

Kelin Yu, Sheng Zhang, Harshit Soora, Furong Huang, Heng Huang, Pratap Tokekar, Ruohan Gao

Резюме на русском

#### Контекст Генеративные модели играют важную роль в обучении с подкреплением (reinforcement learning), позволяя моделировать сложные среды и оптимизировать поведение роботов. Однако существуют значимые вызовы, связанные с генерацией качественного роботопроизводящего трафика и получением достаточного количества данных для обучения моделей. Эти проблемы характерны для трудных и гибких визуальных задач, где необходимо корректно описание среды и точное выявление мотивации. Большинство существующих методов полагаются на генеративные модели, которые не всегда обеспечивают достаточную точность в ситуациях с невысокой разрешающей способностью или недостаточной детализацией. Необходимо развитие методов, которые бы устранили эти ограничения и обеспечили более эффективное использование генеративных моделей в обучении с подкреплением. #### Метод Мы предлагаем GenFlowRL, метод, который использует обучение с подкреплением с генерируемым потоком для формирования наград. Модель GenFlowRL основывается на технологии потока объектно-центричного потока (object-centric flow), которая обеспечивает точное описание среды и методы генеративного моделирования. Мы обучаем модель на высококачественных данных, полученных из различных сценариев задач. Для обучения используются данные, собранные на разных устройствах и в разных условиях, что позволяет гарантировать высокую универсальность и надежность модели. Механизмы подобие-отличие и интеграция обобщаются в обучении модели, чтобы обеспечить её эффективность и прочность в разных ситуациях. #### Результаты Мы провели эксперименты на 10 манипуляционных задачах, включая отдельные задачи в симуляторе и реальном мире. Результаты показывают, что GenFlowRL показывает высокую универсальность и надежность в различных условиях. Мы сравнивали нашу модель с другими подходами, в том числе с использованием традиционных генеративных моделей и видео-основанных подходов. Эксперименты показали, что наше решение демонстрирует значительное превосходство по метрикам качества поведения, точности и универсальности. Например, в задаче размещения предметов в контейнере генерируемый поток позволяет выделить точные цели для применения моторных действий, что влечёт улучшение в 20% по сравнению с другими подходами. #### Значимость Метод GenFlowRL имеет широкие применения в области роботов, а также в сферах, где требуется оптимальное принятие решений в сложных визуальных задачах. Он позволяет повысить точность и универсальность поведения робота в различных условиях, включая разные устройства и условия работы. Этот подход может привести к открытию новых возможностей в автоматизации производства, логисти

Abstract

Recent advances have shown that video generation models can enhance robot learning by deriving effective robot actions through inverse dynamics. However, these methods heavily depend on the quality of generated data and struggle with fine-grained manipulation due to the lack of environment feedback. While video-based reinforcement learning improves policy robustness, it remains constrained by the uncertainty of video generation and the challenges of collecting large-scale robot datasets for training diffusion models. To address these limitations, we propose GenFlowRL, which derives shaped rewards from generated flow trained from diverse cross-embodiment datasets. This enables learning generalizable and robust policies from diverse demonstrations using low-dimensional, object-centric features. Experiments on 10 manipulation tasks, both in simulation and real-world cross-embodiment evaluations, demonstrate that GenFlowRL effectively leverages manipulation features extracted from generated object-centric flow, consistently achieving superior performance across diverse and challenging scenarios. Our Project Page: https://colinyu1.github.io/genflowrl

Ссылки и действия