Self-Improving Embodied Foundation Models

2509.15155v1 cs.LG, cs.RO 2025-09-20

Авторы:

Seyed Kamyar Seyed Ghasemipour, Ayzaan Wahid, Jonathan Tompson, Pannag Sanketi, Igor Mordatch

Резюме на русском

## Контекст Современные роботизированные системы часто оперируют на основе тренировочных данных, полученных при помощи ограниченных задач супервизорного обучения. Это приводит к проблемам, таким как ограниченная общность, высокая необходимость в ручном вмешательстве и сложности с адаптацией к новым условиям. Хотя искусственные нейронные сети уже доказали свою эффективность в обработке данных, технологии повышения качества управления роботом по-прежнему требуют дополнительного развития. Задача самоулучшающихся обобщаемых моделей в робототехнике включает в себя не только супервизорное обучение, но и автономный процесс улучшения с помощью самостоятельного практикования. Это требует новых подходов, которые могли бы снизить количество необходимых для тренировки данных и улучшить точность результатов. ## Метод Мы предлагаем двухэтапный построчный подход для повышения эффективности обучения моделей в области робототехники. Основной идеей является улучшение поведения робота в реальном времени, используя алгоритмы управления, полученные из широкого диапазона предварительно обученных моделей. Это позволяет эффективно применять техники, такие как супервизорное обучение (Supervised Fine-Tuning), для настройки моделей на конкретные задачи. Второй этап — Self-Improvement — позволяет модели максимально автономно улучшать свои результаты в процессе непрерывного практикования, используя для этого новые полученные данные и анализ ошибок. Метод основывается на использовании мощных сетей, предобученных на больших объемах данных, что позволяет лучше адаптироваться к различным ситуациям. ## Результаты Мы проводили эксперименты с виртуальными и реальными роботами, используя различные задачи, такие как подхват предметов, перемещение по лабиринту и другие. Выяснилось, что наши модели показали значительные улучшения в скорости обучения и точности. Например, для задачи подхвата предметов наши модели смогли достичь более высокого уровня успешности с меньшим количеством данных для обучения по сравнению с методами без Self-Improvement. Также мы проанализировали несколько аспектов эффективности, включая оценку сложности обучения и устойчивости моделей в процессе практикования. Эти результаты подчеркивают преимущества нашего подхода в сравнении с другими методами. ## Значимость Метод, представленный в нашей работе, может быть применен в различных сферах, включая автоматизацию производств, транспортные системы и умные дома. Он позволяет улучшить качество управления роботами, сократить время и стоимость обучения, а также повысить уровень безопасности. Одним из основных преимуществ является возможность моделей а

Abstract

Foundation models trained on web-scale data have revolutionized robotics, but their application to low-level control remains largely limited to behavioral cloning. Drawing inspiration from the success of the reinforcement learning stage in fine-tuning large language models, we propose a two-stage post-training approach for robotics. The first stage, Supervised Fine-Tuning (SFT), fine-tunes pretrained foundation models using both: a) behavioral cloning, and b) steps-to-go prediction objectives. In the second stage, Self-Improvement, steps-to-go prediction enables the extraction of a well-shaped reward function and a robust success detector, enabling a fleet of robots to autonomously practice downstream tasks with minimal human supervision. Through extensive experiments on real-world and simulated robot embodiments, our novel post-training recipe unveils significant results on Embodied Foundation Models. First, we demonstrate that the combination of SFT and Self-Improvement is significantly more sample-efficient than scaling imitation data collection for supervised learning, and that it leads to policies with significantly higher success rates. Further ablations highlight that the combination of web-scale pretraining and Self-Improvement is the key to this sample-efficiency. Next, we demonstrate that our proposed combination uniquely unlocks a capability that current methods cannot achieve: autonomously practicing and acquiring novel skills that generalize far beyond the behaviors observed in the imitation learning datasets used during training. These findings highlight the transformative potential of combining pretrained foundation models with online Self-Improvement to enable autonomous skill acquisition in robotics. Our project website can be found at https://self-improving-efms.github.io .

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Self-Improving Embodied Foundation Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Sigma: The Key for Vision-Language-Action Models toward Telepathic Alignment

Partially Equivariant Reinforcement Learning in Symmetry-Breaking Environments

BiCQL-ML: A Bi-Level Conservative Q-Learning Framework for Maximum Likelihood In...

Data-Driven Modeling and Correction of Vehicle Dynamics

scipy.spatial.transform: Differentiable Framework-Agnostic 3D Transformations in...

Навигация