Toward a Metrology for Artificial Intelligence: Hidden-Rule Environments and Reinforcement Learning

2509.06213v1 cs.LG, cs.AI, stat.ML 2025-09-10

Авторы:

Christo Mathew, Wentian Wang, Lazaros Gallos, Paul Kantor, Vladimir Menkov, Hao Wang

Резюме на русском

#### Контекст Исследование фундаментальных аспектов метрологии для искусственного интеллекта (ИИ) является ключевым направлением в развитии этого направления. Одна из проблем заключается в необходимости понятия метрики, которая могла бы оценивать эффективность ИИ в структурированных, но неточно определенных средах. Одним из таких сред является **Game Of Hidden Rules (GOHR)**, где агент должен выяснить и выполнить скрытые правила для успешного очищения платы. Проблема заключается в том, что готовые решения отсутствуют, и агенту необходимо применять универсальный подход к обучению, основываясь на частичных наблюдениях. Это делает GOHR важной моделью для изучения логики, способности адаптироваться и решать проблемы в сложных и неопределенных средах. #### Метод Чтобы оценить ИИ в GOHR, авторы применяют **Transformer-based Advantage Actor-Critic (A2C)** алгоритм с двумя стратегиями представления состояния: **Feature-Centric (FC)** и **Object-Centric (OC)**. Агент имеет только частичные наблюдения и должен осуществлять параллельное выяснение правил и изучение оптимальной стратегии решения задачи. Такой подход позволяет изучить, насколько эффективно ИИ может работать в условиях неполной информативности и как два разных представления данных влияют на обучение. Эксперименты проводятся в разных условиях, включая правила и списки задач. #### Результаты Результаты экспериментов показывают, что агент на основе FC более эффективен в сценариях с небольшим числом правил и меньшего количества испытаний. Однако OC-агент показывает лучшую стабильность и гибкость при увеличении сложности задачи. Это указывает на то, что оба представления имеют свои преимущества и недостатки, зависящие от специфики задачи. Таким образом, FC работает лучше в простых сценариях, тогда как OC демонстрирует преимущества в значительно более сложных задачах. #### Значимость Результаты имеют значительное значение для развития метрологии в ИИ, особенно в сфере улучшения способности ИИ к обучению с рефлексией и самокоррекции. Приложения могут найтися в сложных неупорядоченных средах, где требуется высокая универсальность и адаптация. Это может иметь отношение к системам распознавания речи, робототехнике, автономным вождению и другим областям, где необходимо определять и выполнять неявные правила. #### Выводы Исследование показывает, что обучение в средах с неявными правилами требует универсальных моделей, которые могут применяться к различным сценариям. Несмотря на то, что оба представления данных показали эффективность, они имеют различные сильные и слабые стороны. Будущие исследования должны сформировать более общую стратегию, которая бы у

Abstract

We investigate reinforcement learning in the Game Of Hidden Rules (GOHR) environment, a complex puzzle in which an agent must infer and execute hidden rules to clear a 6$\times$6 board by placing game pieces into buckets. We explore two state representation strategies, namely Feature-Centric (FC) and Object-Centric (OC), and employ a Transformer-based Advantage Actor-Critic (A2C) algorithm for training. The agent has access only to partial observations and must simultaneously infer the governing rule and learn the optimal policy through experience. We evaluate our models across multiple rule-based and trial-list-based experimental setups, analyzing transfer effects and the impact of representation on learning efficiency.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Toward a Metrology for Artificial Intelligence: Hidden-Rule Environments and Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Single-Round Scalable Analytic Federated Learning

Does Flatness imply Generalization for Logistic Loss in Univariate Two-Layer ReL...

Multi-view diffusion geometry using intertwined diffusion trajectories

A Diffusion Model Framework for Maximum Entropy Reinforcement Learning

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainab...

Навигация