Toward a Metrology for Artificial Intelligence: Hidden-Rule Environments and Reinforcement Learning

2509.06213v2 cs.LG, cs.AI, stat.ML 2025-09-12

Авторы:

Christo Mathew, Wentian Wang, Jacob Feldman, Lazaros K. Gallos, Paul B. Kantor, Vladimir Menkov, Hao Wang

Резюме на русском

#### Контекст Область исследования, связанная с метрологией искусственного интеллекта (AI), становится все более актуальной в связи с потребностью в методах эффективной оценки и понимания работы AI-систем. Одним из ключевых аспектов является разработка моделей, которые способны работать в условиях неполноты информации и неопределенности. Одна из таких моделей — игра Hidden Rule Environments (GOHR), в которой агент должен выявить неизвестные правила и применить их для решения задачи. Эта проблема отражает реальные ситуации, где системам необходимо извлекать знания из неполных данных и изучать политики действий в реальном времени. Задача GOHR является интересной для исследования, так как она симулирует сложные задачи реального мира, требующие высокого уровня интеллектуальных навыков. #### Метод Для изучения этой задачи была разработана архитектура, основанная на алгоритме Reinforcement Learning с использованием Transformer-based Advantage Actor-Critic (A2C). Агент обучается в условиях неполных наблюдений и должен одновременно выявить правила, регулирующие игру, и найти оптимальную политику действий. Для представления состояния использовались два подхода: Feature-Centric (FC) и Object-Centric (OC). Эти методы отличаются способом формирования представления окружающего мира для агента. Тренировочный процесс был проведен в условиях различных сценариев, включая использование различных правил и ситуаций, чтобы протестировать гибкость и эффективность разных представлений состояния. Эта архитектура позволяет изучать, как агент изучает неизвестные правила и применяет их в разных ситуациях. #### Результаты В ходе экспериментов были проанализированы различные представления состояний и правила, что позволило изучить эффективность разных подходов. Был проверен эффект перехода из одного представления в другое, чтобы оценить гибкость модели. Было выявлено, что Object-Centric представление позволяет достичь лучших результатов в ситуациях, где требуется более высокий уровень интеллектуальных навыков. Были также оценены влияние размера данных, времени обучения и других параметров на то, насколько быстро и точно агент узнает правила и применяет их в игре. Эти результаты демонстрируют возможность модели для решения сложных задач, требующих высокого уровня представления и обучения. #### Значимость Результаты этого исследования могут быть применены в различных областях, где необходимо применение AI для решения задач в условиях неполноты информации и неопределенности. Например, в сфере робототехники, игровой индустрии, или даже в области биологии, где необходимо выявлять закономерности и принимать решения на основе неполных данных. Благодаря использованию сло

Abstract

We investigate reinforcement learning in the Game Of Hidden Rules (GOHR) environment, a complex puzzle in which an agent must infer and execute hidden rules to clear a 6$\times$6 board by placing game pieces into buckets. We explore two state representation strategies, namely Feature-Centric (FC) and Object-Centric (OC), and employ a Transformer-based Advantage Actor-Critic (A2C) algorithm for training. The agent has access only to partial observations and must simultaneously infer the governing rule and learn the optimal policy through experience. We evaluate our models across multiple rule-based and trial-list-based experimental setups, analyzing transfer effects and the impact of representation on learning efficiency.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Toward a Metrology for Artificial Intelligence: Hidden-Rule Environments and Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Single-Round Scalable Analytic Federated Learning

Does Flatness imply Generalization for Logistic Loss in Univariate Two-Layer ReL...

Multi-view diffusion geometry using intertwined diffusion trajectories

A Diffusion Model Framework for Maximum Entropy Reinforcement Learning

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainab...

Навигация