Pixels to Play: A Foundation Model for 3D Gameplay
2508.14295v1
cs.CV, cs.AI, cs.LG
2025-08-22
Авторы:
Yuguang Yue, Chris Green, Samuel Hunt, Irakli Salia, Wenzhe Shi, Jonathan J Hunt
Резюме на русском
## Контекст
Область исследования сосредоточена на создании интеллектуальных агентов, которые способны играть в 3D-видеоигры, имитируя человеческий стиль игры. Данная область привлекательна из-за возможности создания AI-текпов, контролируемых NPC, персонализированных трансляторов и помогающих игровых тестеров. Однако существуют сложности, такие как необходимость использовать только те данные, которые доступны игрокам (пиксельный стрим), и обеспечение генерализуемости метода к различным типам игр без особого адаптационного процесса. Настоящее исследование адресовано этим проблемам, стремясь развить агента, который может учиться играть в новые игры с минимальной дополнительной настройкой.
## Метод
Методология построена на принципе бихевиорного клонирования (behavior cloning). Использованы два типа данных: 1) отмеченные демонстрации, собранные из игр игроками; 2) неотмеченные видеоигровые видео, в которых ведется активность. Для этих видео применяется процесс импутации действий с помощью модели инверсных динамик. Затем, трансформер-декодер с авто-регрессивным выводом используется для генерации действий. Эта архитектура работает на доступных потребительских GPU и обеспечивает латентность для удобного использования.
## Результаты
В ходе исследования проводились эксперименты на различных типах игр, включая Roblox и классические MS-DOS-игры. Наблюдается хорошая генерализуемость: агент продемонстрировал компетентное игровое поведение и способность учиться в новых условиях. Также проведены абляционные эксперименты, подтвердив важность использования дополнительных данных и эффективности архитектуры.
## Значимость
Полученный подход открывает новые возможности в использовании AI в игровой индустрии. Модель может применяться для создания AI-текпов, живых трансляторов, и в других сферах, где необходима грамотная игровая интеллектуальная система. Особым преимуществом является то, что модель работает на одном потребительском GPU и не требует сложной настройки для каждой конкретной игры.
## Выводы
На основе видения, названия Pixels2Play-0.1 (P2P0.1), данная работа ставит цель развития широкой общей модели, способной играть в 3D-видеоигры. Будущее исследование будет сосредоточено на достижении высочайшего уровня игрового мастерства и реализации полностью текстово-управляемого контроля.
Abstract
We introduce Pixels2Play-0.1 (P2P0.1), a foundation model that learns to play
a wide range of 3D video games with recognizable human-like behavior. Motivated
by emerging consumer and developer use cases - AI teammates, controllable NPCs,
personalized live-streamers, assistive testers - we argue that an agent must
rely on the same pixel stream available to players and generalize to new titles
with minimal game-specific engineering. P2P0.1 is trained end-to-end with
behavior cloning: labeled demonstrations collected from instrumented human
game-play are complemented by unlabeled public videos, to which we impute
actions via an inverse-dynamics model. A decoder-only transformer with
auto-regressive action output handles the large action space while remaining
latency-friendly on a single consumer GPU. We report qualitative results
showing competent play across simple Roblox and classic MS-DOS titles,
ablations on unlabeled data, and outline the scaling and evaluation steps
required to reach expert-level, text-conditioned control.
Ссылки и действия
Дополнительные ресурсы: