Toward a Metrology for Artificial Intelligence: Hidden-Rule Environments and Reinforcement Learning
2509.06213v2
cs.LG, cs.AI, stat.ML
2025-09-12
Авторы:
Christo Mathew, Wentian Wang, Jacob Feldman, Lazaros K. Gallos, Paul B. Kantor, Vladimir Menkov, Hao Wang
Резюме на русском
#### Контекст
Область исследования, связанная с метрологией искусственного интеллекта (AI), становится все более актуальной в связи с потребностью в методах эффективной оценки и понимания работы AI-систем. Одним из ключевых аспектов является разработка моделей, которые способны работать в условиях неполноты информации и неопределенности. Одна из таких моделей — игра Hidden Rule Environments (GOHR), в которой агент должен выявить неизвестные правила и применить их для решения задачи. Эта проблема отражает реальные ситуации, где системам необходимо извлекать знания из неполных данных и изучать политики действий в реальном времени. Задача GOHR является интересной для исследования, так как она симулирует сложные задачи реального мира, требующие высокого уровня интеллектуальных навыков.
#### Метод
Для изучения этой задачи была разработана архитектура, основанная на алгоритме Reinforcement Learning с использованием Transformer-based Advantage Actor-Critic (A2C). Агент обучается в условиях неполных наблюдений и должен одновременно выявить правила, регулирующие игру, и найти оптимальную политику действий. Для представления состояния использовались два подхода: Feature-Centric (FC) и Object-Centric (OC). Эти методы отличаются способом формирования представления окружающего мира для агента. Тренировочный процесс был проведен в условиях различных сценариев, включая использование различных правил и ситуаций, чтобы протестировать гибкость и эффективность разных представлений состояния. Эта архитектура позволяет изучать, как агент изучает неизвестные правила и применяет их в разных ситуациях.
#### Результаты
В ходе экспериментов были проанализированы различные представления состояний и правила, что позволило изучить эффективность разных подходов. Был проверен эффект перехода из одного представления в другое, чтобы оценить гибкость модели. Было выявлено, что Object-Centric представление позволяет достичь лучших результатов в ситуациях, где требуется более высокий уровень интеллектуальных навыков. Были также оценены влияние размера данных, времени обучения и других параметров на то, насколько быстро и точно агент узнает правила и применяет их в игре. Эти результаты демонстрируют возможность модели для решения сложных задач, требующих высокого уровня представления и обучения.
#### Значимость
Результаты этого исследования могут быть применены в различных областях, где необходимо применение AI для решения задач в условиях неполноты информации и неопределенности. Например, в сфере робототехники, игровой индустрии, или даже в области биологии, где необходимо выявлять закономерности и принимать решения на основе неполных данных. Благодаря использованию сло
Abstract
We investigate reinforcement learning in the Game Of Hidden Rules (GOHR)
environment, a complex puzzle in which an agent must infer and execute hidden
rules to clear a 6$\times$6 board by placing game pieces into buckets. We
explore two state representation strategies, namely Feature-Centric (FC) and
Object-Centric (OC), and employ a Transformer-based Advantage Actor-Critic
(A2C) algorithm for training. The agent has access only to partial observations
and must simultaneously infer the governing rule and learn the optimal policy
through experience. We evaluate our models across multiple rule-based and
trial-list-based experimental setups, analyzing transfer effects and the impact
of representation on learning efficiency.
Ссылки и действия
Дополнительные ресурсы: