Self-Improving Embodied Foundation Models
2509.15155v1
cs.LG, cs.RO
2025-09-20
Авторы:
Seyed Kamyar Seyed Ghasemipour, Ayzaan Wahid, Jonathan Tompson, Pannag Sanketi, Igor Mordatch
Резюме на русском
## Контекст
Современные роботизированные системы часто оперируют на основе тренировочных данных, полученных при помощи ограниченных задач супервизорного обучения. Это приводит к проблемам, таким как ограниченная общность, высокая необходимость в ручном вмешательстве и сложности с адаптацией к новым условиям. Хотя искусственные нейронные сети уже доказали свою эффективность в обработке данных, технологии повышения качества управления роботом по-прежнему требуют дополнительного развития. Задача самоулучшающихся обобщаемых моделей в робототехнике включает в себя не только супервизорное обучение, но и автономный процесс улучшения с помощью самостоятельного практикования. Это требует новых подходов, которые могли бы снизить количество необходимых для тренировки данных и улучшить точность результатов.
## Метод
Мы предлагаем двухэтапный построчный подход для повышения эффективности обучения моделей в области робототехники. Основной идеей является улучшение поведения робота в реальном времени, используя алгоритмы управления, полученные из широкого диапазона предварительно обученных моделей. Это позволяет эффективно применять техники, такие как супервизорное обучение (Supervised Fine-Tuning), для настройки моделей на конкретные задачи. Второй этап — Self-Improvement — позволяет модели максимально автономно улучшать свои результаты в процессе непрерывного практикования, используя для этого новые полученные данные и анализ ошибок. Метод основывается на использовании мощных сетей, предобученных на больших объемах данных, что позволяет лучше адаптироваться к различным ситуациям.
## Результаты
Мы проводили эксперименты с виртуальными и реальными роботами, используя различные задачи, такие как подхват предметов, перемещение по лабиринту и другие. Выяснилось, что наши модели показали значительные улучшения в скорости обучения и точности. Например, для задачи подхвата предметов наши модели смогли достичь более высокого уровня успешности с меньшим количеством данных для обучения по сравнению с методами без Self-Improvement. Также мы проанализировали несколько аспектов эффективности, включая оценку сложности обучения и устойчивости моделей в процессе практикования. Эти результаты подчеркивают преимущества нашего подхода в сравнении с другими методами.
## Значимость
Метод, представленный в нашей работе, может быть применен в различных сферах, включая автоматизацию производств, транспортные системы и умные дома. Он позволяет улучшить качество управления роботами, сократить время и стоимость обучения, а также повысить уровень безопасности. Одним из основных преимуществ является возможность моделей а
Abstract
Foundation models trained on web-scale data have revolutionized robotics, but
their application to low-level control remains largely limited to behavioral
cloning. Drawing inspiration from the success of the reinforcement learning
stage in fine-tuning large language models, we propose a two-stage
post-training approach for robotics. The first stage, Supervised Fine-Tuning
(SFT), fine-tunes pretrained foundation models using both: a) behavioral
cloning, and b) steps-to-go prediction objectives. In the second stage,
Self-Improvement, steps-to-go prediction enables the extraction of a
well-shaped reward function and a robust success detector, enabling a fleet of
robots to autonomously practice downstream tasks with minimal human
supervision. Through extensive experiments on real-world and simulated robot
embodiments, our novel post-training recipe unveils significant results on
Embodied Foundation Models. First, we demonstrate that the combination of SFT
and Self-Improvement is significantly more sample-efficient than scaling
imitation data collection for supervised learning, and that it leads to
policies with significantly higher success rates. Further ablations highlight
that the combination of web-scale pretraining and Self-Improvement is the key
to this sample-efficiency. Next, we demonstrate that our proposed combination
uniquely unlocks a capability that current methods cannot achieve: autonomously
practicing and acquiring novel skills that generalize far beyond the behaviors
observed in the imitation learning datasets used during training. These
findings highlight the transformative potential of combining pretrained
foundation models with online Self-Improvement to enable autonomous skill
acquisition in robotics. Our project website can be found at
https://self-improving-efms.github.io .
Ссылки и действия
Дополнительные ресурсы: