Synthetic Data is Sufficient for Zero-Shot Visual Generalization from Offline Data
2508.12356v1
cs.CV, cs.AI, cs.LG
2025-08-19
Авторы:
Ahmet H. Güzel, Ilija Bogunovic, Jack Parker-Holder
Резюме на русском
#### Контекст
Обучение с использованием визуальных данных представляет собой ключевой аспект развития систем с автоматическим управлением. Однако, получение высококачественных и разнообразных визуальных данных часто становится проблемой, особенно при обучении агентов с нуля. Ошибки, внедренные в процессе сбора данных, могут привести к недостаточной разнообразности, что повлияет на устойчивость и общезначимость тренированных моделей. Это делает важной задачу повышения разнообразия данных и улучшения их качества, независимо от того, используются ли они в традиционных или бездыханых (offline) методах обучения. Мы предлагаем новый подход, основанный на генерации синтетических данных, который позволяет улучшить общезначимость агентов в визуальных задачах без дополнительных интервалов взаимодействия с окружением.
#### Метод
Мы предлагаем двухшаговый подход к генерации синтетических данных для повышения общезначимости моделей. В первом этапе мы расширяем оригинальные данные, собранные в реальной среде, добавляя визуальные и другие разнообразия. Это позволяет улучшить устойчивость модели к новым условиям. Во втором этапе мы используем модель Diffusion Model для генерации дополнительных данных в латентном пространстве, что приводит к еще большему разнообразию. Метод не требует каких-либо изменений в существующих моделях и может быть легко интегрирован в существующие алгоритмы бездыханого обучения.
#### Результаты
Мы проверили наш метод на трех средах: Visual D4RL (для визуальных задач с непрерывным действием) и Procgen (для задач с дискретным действием). Мы сравнили наш подход с другими методами, такими как Simple Augmentation, CoDA и D4RL-Aug. Наши результаты показали, что генерация синтетических данных позволяет значительно повысить общезначимость агентов, улучшить их результаты в задачах, где необходимо обобщаться на новые среды, и уменьшить общий падение в производительности. Эти результаты достигнуты без каких-либо изменений в алгоритмах или дополнительных ресурсах.
#### Значимость
Модели, обученные с помощью нашего подхода, могут широко применяться в ситуациях, требующих обучения моделей с нуля на основе визуальных данных. Наш подход может быть применен в различных областях, включая робототехнику, игровые игры, автомобильную технику и другие, где визуальные сигналы являются ключевым источником информации. Наш подход позволяет обеспечить более равномерное и детальное обучение, уменьшая чрезмерную зависимость от конкретных данных. Это может привести к повышению эффективности и надежности систем в реальном мире.
#### Выводы
Наш подход показы
Abstract
Offline reinforcement learning (RL) offers a promising framework for training
agents using pre-collected datasets without the need for further environment
interaction. However, policies trained on offline data often struggle to
generalise due to limited exposure to diverse states. The complexity of visual
data introduces additional challenges such as noise, distractions, and spurious
correlations, which can misguide the policy and increase the risk of
overfitting if the training data is not sufficiently diverse. Indeed, this
makes it challenging to leverage vision-based offline data in training robust
agents that can generalize to unseen environments. To solve this problem, we
propose a simple approach generating additional synthetic training data. We
propose a two-step process, first augmenting the originally collected offline
data to improve zero-shot generalization by introducing diversity, then using a
diffusion model to generate additional data in latent space. We test our method
across both continuous action spaces (Visual D4RL) and discrete action spaces
(Procgen), demonstrating that it significantly improves generalization without
requiring any algorithmic changes to existing model-free offline RL methods. We
show that our method not only increases the diversity of the training data but
also significantly reduces the generalization gap at test time while
maintaining computational efficiency. We believe this approach could fuel
additional progress in generating synthetic data to train more general agents
in the future.
Ссылки и действия
Дополнительные ресурсы: