Toward a Metrology for Artificial Intelligence: Hidden-Rule Environments and Reinforcement Learning
2509.06213v1
cs.LG, cs.AI, stat.ML
2025-09-10
Авторы:
Christo Mathew, Wentian Wang, Lazaros Gallos, Paul Kantor, Vladimir Menkov, Hao Wang
Резюме на русском
#### Контекст
Исследование фундаментальных аспектов метрологии для искусственного интеллекта (ИИ) является ключевым направлением в развитии этого направления. Одна из проблем заключается в необходимости понятия метрики, которая могла бы оценивать эффективность ИИ в структурированных, но неточно определенных средах. Одним из таких сред является **Game Of Hidden Rules (GOHR)**, где агент должен выяснить и выполнить скрытые правила для успешного очищения платы. Проблема заключается в том, что готовые решения отсутствуют, и агенту необходимо применять универсальный подход к обучению, основываясь на частичных наблюдениях. Это делает GOHR важной моделью для изучения логики, способности адаптироваться и решать проблемы в сложных и неопределенных средах.
#### Метод
Чтобы оценить ИИ в GOHR, авторы применяют **Transformer-based Advantage Actor-Critic (A2C)** алгоритм с двумя стратегиями представления состояния: **Feature-Centric (FC)** и **Object-Centric (OC)**. Агент имеет только частичные наблюдения и должен осуществлять параллельное выяснение правил и изучение оптимальной стратегии решения задачи. Такой подход позволяет изучить, насколько эффективно ИИ может работать в условиях неполной информативности и как два разных представления данных влияют на обучение. Эксперименты проводятся в разных условиях, включая правила и списки задач.
#### Результаты
Результаты экспериментов показывают, что агент на основе FC более эффективен в сценариях с небольшим числом правил и меньшего количества испытаний. Однако OC-агент показывает лучшую стабильность и гибкость при увеличении сложности задачи. Это указывает на то, что оба представления имеют свои преимущества и недостатки, зависящие от специфики задачи. Таким образом, FC работает лучше в простых сценариях, тогда как OC демонстрирует преимущества в значительно более сложных задачах.
#### Значимость
Результаты имеют значительное значение для развития метрологии в ИИ, особенно в сфере улучшения способности ИИ к обучению с рефлексией и самокоррекции. Приложения могут найтися в сложных неупорядоченных средах, где требуется высокая универсальность и адаптация. Это может иметь отношение к системам распознавания речи, робототехнике, автономным вождению и другим областям, где необходимо определять и выполнять неявные правила.
#### Выводы
Исследование показывает, что обучение в средах с неявными правилами требует универсальных моделей, которые могут применяться к различным сценариям. Несмотря на то, что оба представления данных показали эффективность, они имеют различные сильные и слабые стороны. Будущие исследования должны сформировать более общую стратегию, которая бы у
Abstract
We investigate reinforcement learning in the Game Of Hidden Rules (GOHR)
environment, a complex puzzle in which an agent must infer and execute hidden
rules to clear a 6$\times$6 board by placing game pieces into buckets. We
explore two state representation strategies, namely Feature-Centric (FC) and
Object-Centric (OC), and employ a Transformer-based Advantage Actor-Critic
(A2C) algorithm for training. The agent has access only to partial observations
and must simultaneously infer the governing rule and learn the optimal policy
through experience. We evaluate our models across multiple rule-based and
trial-list-based experimental setups, analyzing transfer effects and the impact
of representation on learning efficiency.
Ссылки и действия
Дополнительные ресурсы: