Pixels to Play: A Foundation Model for 3D Gameplay

2508.14295v1 cs.CV, cs.AI, cs.LG 2025-08-22

Авторы:

Yuguang Yue, Chris Green, Samuel Hunt, Irakli Salia, Wenzhe Shi, Jonathan J Hunt

Резюме на русском

## Контекст Область исследования сосредоточена на создании интеллектуальных агентов, которые способны играть в 3D-видеоигры, имитируя человеческий стиль игры. Данная область привлекательна из-за возможности создания AI-текпов, контролируемых NPC, персонализированных трансляторов и помогающих игровых тестеров. Однако существуют сложности, такие как необходимость использовать только те данные, которые доступны игрокам (пиксельный стрим), и обеспечение генерализуемости метода к различным типам игр без особого адаптационного процесса. Настоящее исследование адресовано этим проблемам, стремясь развить агента, который может учиться играть в новые игры с минимальной дополнительной настройкой. ## Метод Методология построена на принципе бихевиорного клонирования (behavior cloning). Использованы два типа данных: 1) отмеченные демонстрации, собранные из игр игроками; 2) неотмеченные видеоигровые видео, в которых ведется активность. Для этих видео применяется процесс импутации действий с помощью модели инверсных динамик. Затем, трансформер-декодер с авто-регрессивным выводом используется для генерации действий. Эта архитектура работает на доступных потребительских GPU и обеспечивает латентность для удобного использования. ## Результаты В ходе исследования проводились эксперименты на различных типах игр, включая Roblox и классические MS-DOS-игры. Наблюдается хорошая генерализуемость: агент продемонстрировал компетентное игровое поведение и способность учиться в новых условиях. Также проведены абляционные эксперименты, подтвердив важность использования дополнительных данных и эффективности архитектуры. ## Значимость Полученный подход открывает новые возможности в использовании AI в игровой индустрии. Модель может применяться для создания AI-текпов, живых трансляторов, и в других сферах, где необходима грамотная игровая интеллектуальная система. Особым преимуществом является то, что модель работает на одном потребительском GPU и не требует сложной настройки для каждой конкретной игры. ## Выводы На основе видения, названия Pixels2Play-0.1 (P2P0.1), данная работа ставит цель развития широкой общей модели, способной играть в 3D-видеоигры. Будущее исследование будет сосредоточено на достижении высочайшего уровня игрового мастерства и реализации полностью текстово-управляемого контроля.

Abstract

We introduce Pixels2Play-0.1 (P2P0.1), a foundation model that learns to play a wide range of 3D video games with recognizable human-like behavior. Motivated by emerging consumer and developer use cases - AI teammates, controllable NPCs, personalized live-streamers, assistive testers - we argue that an agent must rely on the same pixel stream available to players and generalize to new titles with minimal game-specific engineering. P2P0.1 is trained end-to-end with behavior cloning: labeled demonstrations collected from instrumented human game-play are complemented by unlabeled public videos, to which we impute actions via an inverse-dynamics model. A decoder-only transformer with auto-regressive action output handles the large action space while remaining latency-friendly on a single consumer GPU. We report qualitative results showing competent play across simple Roblox and classic MS-DOS titles, ablations on unlabeled data, and outline the scaling and evaluation steps required to reach expert-level, text-conditioned control.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Pixels to Play: A Foundation Model for 3D Gameplay

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация