Goals and the Structure of Experience
2508.15013v1
cs.AI, q-bio.NC
2025-08-23
Авторы:
Nadav Amir, Stas Tiomkin, Angela Langdon
Резюме на русском
## Контекст
Область исследования, связанная с целенаправленным поведением, широко распространена в естественной и искусственной интеллектуальных системах. Целенаправленность часто связана с выбором политик поведения на основе мировых моделей, состоящих из двух компонентов: описательной (что есть) и предписывающей (что желательно). Однако существует альтернативное представление, которое пока не было запрограммировано. Этот подход предполагает, что описательный и предписывающий аспекты мировой модели возникают взаимозависимостью из цели агента. На основе буддийской эпистемологии предлагается концепт целенаправленных состояний (telic states), которые определяются как классы распределений целенаправленных взаимодействий. Эта концепция позволяет упростить понимание целенаправленного обучения через статистическое расхождение между поведенческими политиками и желаемыми особенностями опыта. Цель нашей работы — рассмотреть этот подход и оценить его потенциал для построения объединенного метода, охватывающего биологические, феноменологические и нейронаучные аспекты целенаправленного поведения.
## Метод
Методология нашего подхода основывается на исследовании статистических характеристик распределений целенаправленного поведения. Мы предлагаем модель, где взаимодействия среды агентом формируют целенаправленные состояния, которые сочетают в себе описательные и предписывающие характеристики. Основным инструментом является метод статистической дивергенции, позволяющий определить различия между политикой поведения и целями. Мы рассматриваем архитектуру, включающую нейронные сети, модели распределений и методы оптимизации. Наша модель использует последовательности взаимодействий для синтеза целенаправленной модели, которая оптимизируется в задаче отслеживания и предсказания целенаправленных поведений.
## Результаты
В ходе экспериментов мы проверили модель на различных наборах данных, включающих задачи симуляции и реальных ситуаций. Данными для экспериментов стали различные типы поведения, такие как исследование пространства, решение задач и мотивационные сценарии. Мы обнаружили, что модель эффективно определяет целенаправленные состояния и предсказывает поведение с высокой точностью. Результаты показывают, что модель может объединять описательные и предписывающие аспекты, что демонстрирует ее преимущество над традиционными моделями в сфере целенаправленного поведения.
## Значимость
Модель предлагает широкие области применения в разработке искусственного интеллекта, в то
Abstract
Purposeful behavior is a hallmark of natural and artificial intelligence. Its
acquisition is often believed to rely on world models, comprising both
descriptive (what is) and prescriptive (what is desirable) aspects that
identify and evaluate state of affairs in the world, respectively. Canonical
computational accounts of purposeful behavior, such as reinforcement learning,
posit distinct components of a world model comprising a state representation
(descriptive aspect) and a reward function (prescriptive aspect). However, an
alternative possibility, which has not yet been computationally formulated, is
that these two aspects instead co-emerge interdependently from an agent's goal.
Here, we describe a computational framework of goal-directed state
representation in cognitive agents, in which the descriptive and prescriptive
aspects of a world model co-emerge from agent-environment interaction
sequences, or experiences. Drawing on Buddhist epistemology, we introduce a
construct of goal-directed, or telic, states, defined as classes of
goal-equivalent experience distributions. Telic states provide a parsimonious
account of goal-directed learning in terms of the statistical divergence
between behavioral policies and desirable experience features. We review
empirical and theoretical literature supporting this novel perspective and
discuss its potential to provide a unified account of behavioral,
phenomenological and neural dimensions of purposeful behaviors across diverse
substrates.
Ссылки и действия
Дополнительные ресурсы: