PuzzleJAX: A Benchmark for Reasoning and Learning

2508.16821v1 cs.AI, cs.LG 2025-08-27
Авторы:

Sam Earle, Graham Todd, Yuchen Li, Ahmed Khalifa, Muhammad Umair Nasir, Zehua Jiang, Andrzej Banburski-Fahey, Julian Togelius

Резюме на русском

## Контекст PuzzleJAX представляет собой GPU-акселерорированный игровой движок и язык определения игр, разработанный для эффективного тестирования и сопоставления разных подходов к решению задач в области умственных исследований. Несмотря на существование нескольких GPU-акселерорированных сред для обучения, многие из них ограничены по возможности, так как поддерживают только фиксированные игровые сценарии. В отличие от них, PuzzleJAX динамически компилирует игры, выражаемые в доменно-конкретном языке (DSL), который базируется на PuzzleScript — популярном интерфейсе для создания игр-головоломок. Основная цель этого проекта — создать модель, которая могла бы тестировать различные алгоритмы в разных играх-головоломках, создавая широкую палитру задач, от простых до сложных, для дальнейшего исследования умственных способностей. ## Метод PuzzleJAX основывается на динамической компиляции игр из DSL, который идентичен PuzzleScript. Это язык достаточно простой для понимания и применения, но при этом мощный, так как позволяет создавать игры с разной сложностью. GPU-акселерорированная среда PuzzleJAX поддерживает быстрое тестирование различных моделей, включая технологии симуляции дерева, обучения с подкреплением и глубокого понимания естественного языка. Эта среда предлагает разнообразные игровые сценарии, которые выражены в DSL, и позволяет эффективно проверить модели на способности к решению задач, требующих умения планировать, контролировать и принимать высокоуровневые решения. ## Результаты Эксперименты с PuzzleJAX включали тестирование нескольких сотен игр, выраженных в DSL PuzzleScript. Изученные игры относятся к различным категориям, от простых до сложных, и позволяют оценить способности моделей к решению задач, требующих разнообразных умственных навыков. Результаты показывают, что PuzzleJAX может тестировать модели на широком спектре задач, от простых задач-головоломок до сложных задач, требующих глубокого планирования и умения принимать решения на основе логики и визуального понимания. Эта система дает возможность проводить эксперименты с различными моделями и алгоритмами в реальном времени, что позволяет быстро оценивать и сравнивать их производительность. ## Значимость PuzzleJAX может быть применен в различных областях, включая исследования в области умственных способностей, обучения машинам и глубокого понимания естественного языка. Он предлагает уникальную возможность тестировать модели на разнообразных задачах, от простых до сложных, что делает его полезным для развития интеллектуальных технологий. Преимущество PuzzleJAX заключается в его динамичности и гибкости — он позволяет быстро создавать и тестировать модели, используя динамическую компиля

Abstract

We introduce PuzzleJAX, a GPU-accelerated puzzle game engine and description language designed to support rapid benchmarking of tree search, reinforcement learning, and LLM reasoning abilities. Unlike existing GPU-accelerated learning environments that provide hard-coded implementations of fixed sets of games, PuzzleJAX allows dynamic compilation of any game expressible in its domain-specific language (DSL). This DSL follows PuzzleScript, which is a popular and accessible online game engine for designing puzzle games. In this paper, we validate in PuzzleJAX several hundred of the thousands of games designed in PuzzleScript by both professional designers and casual creators since its release in 2013, thereby demonstrating PuzzleJAX's coverage of an expansive, expressive, and human-relevant space of tasks. By analyzing the performance of search, learning, and language models on these games, we show that PuzzleJAX can naturally express tasks that are both simple and intuitive to understand, yet often deeply challenging to master, requiring a combination of control, planning, and high-level insight.

Ссылки и действия