Synthetic Data is Sufficient for Zero-Shot Visual Generalization from Offline Data

2508.12356v1 cs.CV, cs.AI, cs.LG 2025-08-19
Авторы:

Ahmet H. Güzel, Ilija Bogunovic, Jack Parker-Holder

Резюме на русском

#### Контекст Обучение с использованием визуальных данных представляет собой ключевой аспект развития систем с автоматическим управлением. Однако, получение высококачественных и разнообразных визуальных данных часто становится проблемой, особенно при обучении агентов с нуля. Ошибки, внедренные в процессе сбора данных, могут привести к недостаточной разнообразности, что повлияет на устойчивость и общезначимость тренированных моделей. Это делает важной задачу повышения разнообразия данных и улучшения их качества, независимо от того, используются ли они в традиционных или бездыханых (offline) методах обучения. Мы предлагаем новый подход, основанный на генерации синтетических данных, который позволяет улучшить общезначимость агентов в визуальных задачах без дополнительных интервалов взаимодействия с окружением. #### Метод Мы предлагаем двухшаговый подход к генерации синтетических данных для повышения общезначимости моделей. В первом этапе мы расширяем оригинальные данные, собранные в реальной среде, добавляя визуальные и другие разнообразия. Это позволяет улучшить устойчивость модели к новым условиям. Во втором этапе мы используем модель Diffusion Model для генерации дополнительных данных в латентном пространстве, что приводит к еще большему разнообразию. Метод не требует каких-либо изменений в существующих моделях и может быть легко интегрирован в существующие алгоритмы бездыханого обучения. #### Результаты Мы проверили наш метод на трех средах: Visual D4RL (для визуальных задач с непрерывным действием) и Procgen (для задач с дискретным действием). Мы сравнили наш подход с другими методами, такими как Simple Augmentation, CoDA и D4RL-Aug. Наши результаты показали, что генерация синтетических данных позволяет значительно повысить общезначимость агентов, улучшить их результаты в задачах, где необходимо обобщаться на новые среды, и уменьшить общий падение в производительности. Эти результаты достигнуты без каких-либо изменений в алгоритмах или дополнительных ресурсах. #### Значимость Модели, обученные с помощью нашего подхода, могут широко применяться в ситуациях, требующих обучения моделей с нуля на основе визуальных данных. Наш подход может быть применен в различных областях, включая робототехнику, игровые игры, автомобильную технику и другие, где визуальные сигналы являются ключевым источником информации. Наш подход позволяет обеспечить более равномерное и детальное обучение, уменьшая чрезмерную зависимость от конкретных данных. Это может привести к повышению эффективности и надежности систем в реальном мире. #### Выводы Наш подход показы

Abstract

Offline reinforcement learning (RL) offers a promising framework for training agents using pre-collected datasets without the need for further environment interaction. However, policies trained on offline data often struggle to generalise due to limited exposure to diverse states. The complexity of visual data introduces additional challenges such as noise, distractions, and spurious correlations, which can misguide the policy and increase the risk of overfitting if the training data is not sufficiently diverse. Indeed, this makes it challenging to leverage vision-based offline data in training robust agents that can generalize to unseen environments. To solve this problem, we propose a simple approach generating additional synthetic training data. We propose a two-step process, first augmenting the originally collected offline data to improve zero-shot generalization by introducing diversity, then using a diffusion model to generate additional data in latent space. We test our method across both continuous action spaces (Visual D4RL) and discrete action spaces (Procgen), demonstrating that it significantly improves generalization without requiring any algorithmic changes to existing model-free offline RL methods. We show that our method not only increases the diversity of the training data but also significantly reduces the generalization gap at test time while maintaining computational efficiency. We believe this approach could fuel additional progress in generating synthetic data to train more general agents in the future.

Ссылки и действия