Goal-Directedness is in the Eye of the Beholder

2508.13247v1 cs.MA, cs.AI 2025-08-21

Авторы:

Nina Rajcic, Anders Søgaard

Резюме на русском

## Контекст Целесообразность (goal-directedness) является ключевым аспектом поведения сложных агентов, определяющим их возможность принимать целесообразные решения и достигать целей. Однако, атрибуция целесообразности может быть затруднена сложностью моделей поведения и неявностью целей в системах, оперирующих разными видами данных. В этой статье рассматриваются две основных подходы к определению целесообразности: поведенческий (behavioral), основывающийся на визуальном анализе поведения, и механистический (mechanistic), который стремится определить цели на базе механизмов внутренних моделей агента. Эти подходы имеют свои ограждения, и каждый из них может заставить нас задаться вопросом, что же такое "целесообразность" и как её можно измерить. Наша цель — изучить существующие проблемы в оценке целесообразности и предложить новые направления исследований в этой области. ## Метод Мы проводили исследования с использованием двух основных методов оценки целесообразности: 1. **Поведенческий подход** — анализ поведения агента в разных ситуациях с помощью метрик, таких как время отклика, корреляция с мерой целесообразности и другие показатели; 2. **Механистический подход** — анализ внутренних моделей агента на наличие целевых структур через методы машинного обучения, таких как анализ внутренних векторов, скрытых состояний, а также модели семантического анализа. Мы использовали системы с разными типами агентов — от простых моделей до развитых сетей глубокого обучения — для проверки различных моделей целесообразности в разных условиях. ## Результаты Наши эксперименты показали, что не существует единого, объективного метода для определения целесообразности. Мы обнаружили, что поведенческий подход часто бывает недостаточно точным, так как не все поведенческие сигналы являются ориентиром на целесообразность. Механистический подход также оказался ограниченным, так как внутренние состояния моделей не всегда отражают цели в понятном для нас виде. Мы также отметили, что агенты с более сложными моделями поведения и более сложными структурами могут проявлять более целесообразное поведение, но это не всегда является явным или измеримым. Мы также выявили ограничения в существующих моделях, которые не учитывают сложность многоагентных систем и взаимодействий. ## Значимость Наши полученные результаты могут быть применены в различных областях, включая робототехнику, игровые системы, медицинские системы и даже в анализ поведения групп действующих субъектов. Одним из основных преимуществ

Abstract

Our ability to predict the behavior of complex agents turns on the attribution of goals. Probing for goal-directed behavior comes in two flavors: Behavioral and mechanistic. The former proposes that goal-directedness can be estimated through behavioral observation, whereas the latter attempts to probe for goals in internal model states. We work through the assumptions behind both approaches, identifying technical and conceptual problems that arise from formalizing goals in agent systems. We arrive at the perhaps surprising position that goal-directedness cannot be measured objectively. We outline new directions for modeling goal-directedness as an emergent property of dynamic, multi-agent systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Goal-Directedness is in the Eye of the Beholder

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Strategic Self-Improvement for Competitive Agents in AI Labour Markets

AsymPuzl: An Asymmetric Puzzle for multi-agent cooperation

EZYer: A simulacrum of high school with generative agent

Beyond Single-Agent Safety: A Taxonomy of Risks in LLM-to-LLM Interactions

AgentODRL: A Large Language Model-based Multi-agent System for ODRL Generation

Навигация