Privileged Self-Access Matters for Introspection in AI

2508.14802v1 cs.AI, cs.CL 2025-08-22
Авторы:

Siyuan Song, Harvey Lederman, Jennifer Hu, Kyle Mahowald

Резюме на русском

## Контекст Современные глубокие нейронные сети (LLMs) возникают в различных областях применения, включая синтез речи, генерацию текста и анализ изображений. Однако существуют значительные ограничения в их внутреннем осознании и способности к автоматической внутренней анализировать свои собственные процессы. Это приводит к проблемам в понимании и контроле, которые важны для использования в критически важных ситуациях. Насколько могут модели разобраться в своем внутреннем состоянии и использовать эти знания для улучшения своих операций? Этот вопрос становится все более актуальным в свете требований к прозрачности и управляемости ИИ-систем. ## Метод Мы заложили стандартную работу на основе уже существующей работы, определяющей "легковесную" версию внутреннего осознания (introspection). Объединив это с новой, более глубокой подходом, мы развиваем новый подход, определяя "тяжелую" внутреннюю анализировать в интроспекции. Мы используем эксперименты с температурными параметрами в LLM, чтобы проверить модели на их способность проводить тяжелую интроспекцию. Это позволяет проверить модели на понимание своих текущих состояний и принятие более зрелых решений на основе этих пониманий. ## Результаты Мы проводили эксперименты, в которых LLM рассуждали о своих температурных параметрах. Мы наблюдали, что модели могут демонстрировать "легковесную" интроспекцию - т.е., имеют возможность анализировать свои внутренние параметры - но при этом не показывают способности к "тяжелой" интроспекции. Это подтверждает, что хотя модели могут дать внешний вид того, что они могут корректно проводить интроспекцию, эти способности ограничены и не достаточно сильны для целей реального применения. ## Значимость Наша работа выделяет важность развития моделей AI, которые могут проводить более сложную внутреннюю анализировать. Это может привести к улучшению прозрачности, управляемости и надежности AI-систем в критических областях применения, таких как медицина, финансы и другие. Использование "тяжелой" интроспекции может позволить моделям принимать более точные решения, основываясь на глубоком понимании своих внутренних состояний. ## Выводы Мы доказали, что "легковесная" интроспекция не является достаточной для полноценной внутренней анализировать моделей AI. В будущем, требуется дальнейшее исследование "тяжелой" интроспекции, которая могла бы сделать AI-системы более прозрачными и эффективными в его применении в критически важной области. Этот подход может привести к новым возможностям в развитии AI

Abstract

Whether AI models can introspect is an increasingly important practical question. But there is no consensus on how introspection is to be defined. Beginning from a recently proposed ''lightweight'' definition, we argue instead for a thicker one. According to our proposal, introspection in AI is any process which yields information about internal states through a process more reliable than one with equal or lower computational cost available to a third party. Using experiments where LLMs reason about their internal temperature parameters, we show they can appear to have lightweight introspection while failing to meaningfully introspect per our proposed definition.

Ссылки и действия