Training Agents Inside of Scalable World Models
2509.24527v1
cs.AI, cs.LG, cs.RO, stat.ML
2025-10-01
Авторы:
Danijar Hafner, Wilson Yan, Timothy Lillicrap
Резюме на русском
warmth
---
title: Training Agents Inside of Scalable World Models
---
### message
## Контекст
Исследование развития методов обучения агентов в контексте генерируемых моделей миров (world models) нацелено на решение проблемы точного прогнозирования динамики взаимодействия объектов в сложных средах. Традиционные world models сталкивались с ограничениями в предсказании тонких деталей взаимодействий объектов, что снижало их эффективность в хорошо контролируемых или имитационных средах. Одна из мотиваций заключается в создании агентов, способных эффективно обучаться в имитационных средах, используя видеоданные для извлечения общей значимости и дальнейшего применения этих знаний в среде взаимодействия. Такой подход может быть применен в различных задачах, включая обучение роботов, контрольных систем и симуляции графических процессов. Одной из целей исследования является создание агента, который может решать контрольные задачи в сложных игровых средах, таких как Minecraft, используя видеоданные и без необходимости динамического взаимодействия с сигналами из внешней среды.
## Метод
Разработанный подход, названный Dreamer 4, является расширением предыдущих моделей, основанных на idea of world models, но реализован с учетом новых архитектур и алгоритмов. Агент обучается в имитационной среде, используя для этого архитектуру transformer, что позволяет выполнять реального времени интерпретацию входных данных. Технические решения, включая shortcut forcing objective, ориентированы на повышение точности моделирования взаимодействий объектов в сложных средах. Для обучения используются данные, полученные в предыдущих этапах работы модели, а также unlabeled videos, которые позволяют агенту извлекать общую значимость без постоянного обучения в динамической среде. Обучение производится с использованием reinforcement learning, что позволяет агенту решать контрольные задачи в имитационных средах.
## Результаты
В ходе экспериментов, проведенных в сложной игровой среде Minecraft, world model Dreamer 4 показал высокую точность прогнозирования взаимодействий объектов и принципов работы среды. Этот результат оказался значительно превосходящим результаты предыдущих world models. Агент Dreamer 4 смог решать задачи, такие как получение драгоценного камня (diamond) в Minecraft, используя только unlabeled videos и без необходимости динамического взаимодействия с сигналами из внешней среды. Это сделал на основе обучения в имитационной среде, используя только небольшой объем данных для обучения и вывода.
## Значимость
Область применения Dreamer 4 широка и может быть использована в различных сферах робототехники, контроля процессов и симуляции. Одним из основных преимуществ является то, что агент может быть обучен в имитационной среде, что предотвращает необходимость д
Abstract
World models learn general knowledge from videos and simulate experience for
training behaviors in imagination, offering a path towards intelligent agents.
However, previous world models have been unable to accurately predict object
interactions in complex environments. We introduce Dreamer 4, a scalable agent
that learns to solve control tasks by reinforcement learning inside of a fast
and accurate world model. In the complex video game Minecraft, the world model
accurately predicts object interactions and game mechanics, outperforming
previous world models by a large margin. The world model achieves real-time
interactive inference on a single GPU through a shortcut forcing objective and
an efficient transformer architecture. Moreover, the world model learns general
action conditioning from only a small amount of data, allowing it to extract
the majority of its knowledge from diverse unlabeled videos. We propose the
challenge of obtaining diamonds in Minecraft from only offline data, aligning
with practical applications such as robotics where learning from environment
interaction can be unsafe and slow. This task requires choosing sequences of
over 20,000 mouse and keyboard actions from raw pixels. By learning behaviors
in imagination, Dreamer 4 is the first agent to obtain diamonds in Minecraft
purely from offline data, without environment interaction. Our work provides a
scalable recipe for imagination training, marking a step towards intelligent
agents.