Training Agents Inside of Scalable World Models

2509.24527v1 cs.AI, cs.LG, cs.RO, stat.ML 2025-10-01
Авторы:

Danijar Hafner, Wilson Yan, Timothy Lillicrap

Резюме на русском

warmth --- title: Training Agents Inside of Scalable World Models --- ### message ## Контекст Исследование развития методов обучения агентов в контексте генерируемых моделей миров (world models) нацелено на решение проблемы точного прогнозирования динамики взаимодействия объектов в сложных средах. Традиционные world models сталкивались с ограничениями в предсказании тонких деталей взаимодействий объектов, что снижало их эффективность в хорошо контролируемых или имитационных средах. Одна из мотиваций заключается в создании агентов, способных эффективно обучаться в имитационных средах, используя видеоданные для извлечения общей значимости и дальнейшего применения этих знаний в среде взаимодействия. Такой подход может быть применен в различных задачах, включая обучение роботов, контрольных систем и симуляции графических процессов. Одной из целей исследования является создание агента, который может решать контрольные задачи в сложных игровых средах, таких как Minecraft, используя видеоданные и без необходимости динамического взаимодействия с сигналами из внешней среды. ## Метод Разработанный подход, названный Dreamer 4, является расширением предыдущих моделей, основанных на idea of world models, но реализован с учетом новых архитектур и алгоритмов. Агент обучается в имитационной среде, используя для этого архитектуру transformer, что позволяет выполнять реального времени интерпретацию входных данных. Технические решения, включая shortcut forcing objective, ориентированы на повышение точности моделирования взаимодействий объектов в сложных средах. Для обучения используются данные, полученные в предыдущих этапах работы модели, а также unlabeled videos, которые позволяют агенту извлекать общую значимость без постоянного обучения в динамической среде. Обучение производится с использованием reinforcement learning, что позволяет агенту решать контрольные задачи в имитационных средах. ## Результаты В ходе экспериментов, проведенных в сложной игровой среде Minecraft, world model Dreamer 4 показал высокую точность прогнозирования взаимодействий объектов и принципов работы среды. Этот результат оказался значительно превосходящим результаты предыдущих world models. Агент Dreamer 4 смог решать задачи, такие как получение драгоценного камня (diamond) в Minecraft, используя только unlabeled videos и без необходимости динамического взаимодействия с сигналами из внешней среды. Это сделал на основе обучения в имитационной среде, используя только небольшой объем данных для обучения и вывода. ## Значимость Область применения Dreamer 4 широка и может быть использована в различных сферах робототехники, контроля процессов и симуляции. Одним из основных преимуществ является то, что агент может быть обучен в имитационной среде, что предотвращает необходимость д

Abstract

World models learn general knowledge from videos and simulate experience for training behaviors in imagination, offering a path towards intelligent agents. However, previous world models have been unable to accurately predict object interactions in complex environments. We introduce Dreamer 4, a scalable agent that learns to solve control tasks by reinforcement learning inside of a fast and accurate world model. In the complex video game Minecraft, the world model accurately predicts object interactions and game mechanics, outperforming previous world models by a large margin. The world model achieves real-time interactive inference on a single GPU through a shortcut forcing objective and an efficient transformer architecture. Moreover, the world model learns general action conditioning from only a small amount of data, allowing it to extract the majority of its knowledge from diverse unlabeled videos. We propose the challenge of obtaining diamonds in Minecraft from only offline data, aligning with practical applications such as robotics where learning from environment interaction can be unsafe and slow. This task requires choosing sequences of over 20,000 mouse and keyboard actions from raw pixels. By learning behaviors in imagination, Dreamer 4 is the first agent to obtain diamonds in Minecraft purely from offline data, without environment interaction. Our work provides a scalable recipe for imagination training, marking a step towards intelligent agents.

Ссылки и действия