Pre-trained Visual Representations Generalize Where it Matters in Model-Based Reinforcement Learning
2509.12531v1
cs.RO, cs.AI, cs.LG, cs.SY, eess.SY, 68T07, 68T40 (Primary) 93C85, 62L20 (Secondary), I.2.6; I.2.9; I.4.8; F.2.2
2025-09-18
Авторы:
Scott Jones, Liyou Zhou, Sebastian W. Pattinson
Резюме на русском
## Контекст
Моделирование визуальных представлений и их использование в научных и практических задачах, включая робототехнику, задают высокие требования к устойчивости и гибкости алгоритмов. Одна из основных проблем заключается в том, что традиционные подходы, когда политика и кодировщик визуальных данных обучаются одновременно, часто недостаточно устойчивы к изменениям визуальной среды. Это приводит к снижению качества решения задач. Недавние работы показали, что предварительно обученные визуальные модели (PVMs) могут улучшить устойчивость в моделировании свободных от моделирования (MFRL). Однако в моделировании на основе моделей (MBRL) возникла противопоказательная ситуация, когда PVMs оказались менее эффективными. Наша исследовательская задача состоит в том, чтобы рассмотреть эту противоречивную ситуацию и изучить, в каких случаях PVMs могут быть эффективными в MBRL.
## Метод
Чтобы изучить эффективность PVMs в MBRL, мы проводили эксперименты с использованием сценариев сильных визуальных доменных сдвигов. Мы сравнивали результаты PVMs с моделями, обучаемыми с нуля. Для контроля уровня допущения использовалась методика полного и частичного файн-тюнинга PVM. Мы использовали выборки данных, отражающие сильные изменения в визуальных сценариях, чтобы оценить способность моделей адаптироваться к изменениям. Эксперименты проводились с использованием тестовых сред, в которых были внесены значительные изменения в цветовом содержании, освещении и других визуальных параметрах.
## Результаты
Наши результаты показали, что в ситуациях сильных визуальных доменных сдвигов PVMs значительно превосходят модели, обучаемые с нуля. Особенно выдающимся был результат в сценариях, где визуальная среда была полностью изменена. Мы также выявили, что частичный файн-тюнинг PVM позволяет сохранить высокий уровень производительности в задачах, которые подвергались самым сильным сдвигам в домене. Это свидетельствует о том, что PVMs могут быть эффективными для обеспечения устойчивости визуальных политик в моделировании на основе моделей, даже при существенных изменениях визуальных условий.
## Значимость
Наши находки имеют значительное значение для развития робототехники и роботов, которые должны адаптироваться к изменениям визуальных условий в реальном мире. PVMs могут использоваться для улучшения моделей MBRL в таких областях, как автоматизированные системы управления, навигация внешних роботов и многие другие. Этот подход обеспечивает значительное увеличение устойчивости вывода, что делает визуальные модели более надежными для применения в реальных условиях. Это может упростить развитие робото
Abstract
In visuomotor policy learning, the control policy for the robotic agent is
derived directly from visual inputs. The typical approach, where a policy and
vision encoder are trained jointly from scratch, generalizes poorly to novel
visual scene changes. Using pre-trained vision models (PVMs) to inform a policy
network improves robustness in model-free reinforcement learning (MFRL). Recent
developments in Model-based reinforcement learning (MBRL) suggest that MBRL is
more sample-efficient than MFRL. However, counterintuitively, existing work has
found PVMs to be ineffective in MBRL. Here, we investigate PVM's effectiveness
in MBRL, specifically on generalization under visual domain shifts. We show
that, in scenarios with severe shifts, PVMs perform much better than a baseline
model trained from scratch. We further investigate the effects of varying
levels of fine-tuning of PVMs. Our results show that partial fine-tuning can
maintain the highest average task performance under the most extreme
distribution shifts. Our results demonstrate that PVMs are highly successful in
promoting robustness in visual policy learning, providing compelling evidence
for their wider adoption in model-based robotic learning applications.