Pre-trained Visual Representations Generalize Where it Matters in Model-Based Reinforcement Learning

2509.12531v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY, 68T07, 68T40 (Primary) 93C85, 62L20 (Secondary), I.2.6; I.2.9; I.4.8; F.2.2 2025-09-18

Авторы:

Scott Jones, Liyou Zhou, Sebastian W. Pattinson

Резюме на русском

## Контекст Моделирование визуальных представлений и их использование в научных и практических задачах, включая робототехнику, задают высокие требования к устойчивости и гибкости алгоритмов. Одна из основных проблем заключается в том, что традиционные подходы, когда политика и кодировщик визуальных данных обучаются одновременно, часто недостаточно устойчивы к изменениям визуальной среды. Это приводит к снижению качества решения задач. Недавние работы показали, что предварительно обученные визуальные модели (PVMs) могут улучшить устойчивость в моделировании свободных от моделирования (MFRL). Однако в моделировании на основе моделей (MBRL) возникла противопоказательная ситуация, когда PVMs оказались менее эффективными. Наша исследовательская задача состоит в том, чтобы рассмотреть эту противоречивную ситуацию и изучить, в каких случаях PVMs могут быть эффективными в MBRL. ## Метод Чтобы изучить эффективность PVMs в MBRL, мы проводили эксперименты с использованием сценариев сильных визуальных доменных сдвигов. Мы сравнивали результаты PVMs с моделями, обучаемыми с нуля. Для контроля уровня допущения использовалась методика полного и частичного файн-тюнинга PVM. Мы использовали выборки данных, отражающие сильные изменения в визуальных сценариях, чтобы оценить способность моделей адаптироваться к изменениям. Эксперименты проводились с использованием тестовых сред, в которых были внесены значительные изменения в цветовом содержании, освещении и других визуальных параметрах. ## Результаты Наши результаты показали, что в ситуациях сильных визуальных доменных сдвигов PVMs значительно превосходят модели, обучаемые с нуля. Особенно выдающимся был результат в сценариях, где визуальная среда была полностью изменена. Мы также выявили, что частичный файн-тюнинг PVM позволяет сохранить высокий уровень производительности в задачах, которые подвергались самым сильным сдвигам в домене. Это свидетельствует о том, что PVMs могут быть эффективными для обеспечения устойчивости визуальных политик в моделировании на основе моделей, даже при существенных изменениях визуальных условий. ## Значимость Наши находки имеют значительное значение для развития робототехники и роботов, которые должны адаптироваться к изменениям визуальных условий в реальном мире. PVMs могут использоваться для улучшения моделей MBRL в таких областях, как автоматизированные системы управления, навигация внешних роботов и многие другие. Этот подход обеспечивает значительное увеличение устойчивости вывода, что делает визуальные модели более надежными для применения в реальных условиях. Это может упростить развитие робото

Abstract

In visuomotor policy learning, the control policy for the robotic agent is derived directly from visual inputs. The typical approach, where a policy and vision encoder are trained jointly from scratch, generalizes poorly to novel visual scene changes. Using pre-trained vision models (PVMs) to inform a policy network improves robustness in model-free reinforcement learning (MFRL). Recent developments in Model-based reinforcement learning (MBRL) suggest that MBRL is more sample-efficient than MFRL. However, counterintuitively, existing work has found PVMs to be ineffective in MBRL. Here, we investigate PVM's effectiveness in MBRL, specifically on generalization under visual domain shifts. We show that, in scenarios with severe shifts, PVMs perform much better than a baseline model trained from scratch. We further investigate the effects of varying levels of fine-tuning of PVMs. Our results show that partial fine-tuning can maintain the highest average task performance under the most extreme distribution shifts. Our results demonstrate that PVMs are highly successful in promoting robustness in visual policy learning, providing compelling evidence for their wider adoption in model-based robotic learning applications.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация