📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Training Agents Inside of Scalable World Models

2025-10-01

Авторы:

Danijar Hafner, Wilson Yan, Timothy Lillicrap

warmth --- title: Training Agents Inside of Scalable World Models --- ### message ## Контекст Исследование развития методов обучения агентов в контексте генерируемых моделей миров (world models) нацелено на решение проблемы точного прогнозирования динамики взаимодействия объектов в сложных средах. Традиционные world models сталкивались с ограничениями в предсказании тонких деталей взаимодействий объектов, что снижало их эффективность в хорошо контролируемых или имитационных средах. Одна из мотиваций заключается в создании агентов, способных эффективно обучаться в имитационных средах, используя видеоданные для извлечения общей значимости и дальнейшего применения этих знаний в среде взаимодействия. Такой подход может быть применен в различных задачах, включая обучение роботов, контрольных систем и симуляции графических процессов. Одной из целей исследования является создание агента, который может решать контрольные задачи в сложных игровых средах, таких как Minecraft, используя видеоданные и без необходимости динамического взаимодействия с сигналами из внешней среды. ## Метод Разработанный подход, названный Dreamer 4, является расширением предыдущих моделей, основанных на idea of world models, но реализован с учетом новых архитектур и алгоритмов. Агент обучается в имитационной среде, используя для этого архитектуру transformer, что позволяет выполнять реального времени интерпретацию входных данных. Технические решения, включая shortcut forcing objective, ориентированы на повышение точности моделирования взаимодействий объектов в сложных средах. Для обучения используются данные, полученные в предыдущих этапах работы модели, а также unlabeled videos, которые позволяют агенту извлекать общую значимость без постоянного обучения в динамической среде. Обучение производится с использованием reinforcement learning, что позволяет агенту решать контрольные задачи в имитационных средах. ## Результаты В ходе экспериментов, проведенных в сложной игровой среде Minecraft, world model Dreamer 4 показал высокую точность прогнозирования взаимодействий объектов и принципов работы среды. Этот результат оказался значительно превосходящим результаты предыдущих world models. Агент Dreamer 4 смог решать задачи, такие как получение драгоценного камня (diamond) в Minecraft, используя только unlabeled videos и без необходимости динамического взаимодействия с сигналами из внешней среды. Это сделал на основе обучения в имитационной среде, используя только небольшой объем данных для обучения и вывода. ## Значимость Область применения Dreamer 4 широка и может быть использована в различных сферах робототехники, контроля процессов и симуляции. Одним из основных преимуществ является то, что агент может быть обучен в имитационной среде, что предотвращает необходимость д

Annotation:

World models learn general knowledge from videos and simulate experience for training behaviors in imagination, offering a path towards intelligent agents. However, previous world models have been unable to accurately predict object interactions in complex environments. We introduce Dreamer 4, a scalable agent that learns to solve control tasks by reinforcement learning inside of a fast and accurate world model. In the complex video game Minecraft, the world model accurately predicts object inte...

ID: 2509.24527v1 cs.AI, cs.LG, cs.RO, stat.ML

arXiv PDF