Measuring Uncertainty in Transformer Circuits with Effective Information Consistency

2509.07149v1 cs.LG, cs.AI, cs.CL, cs.IT, math.IT 2025-09-11
Авторы:

Anatoly A. Krasnovsky

Резюме на русском

## Контекст Трансформеры — это мощная архитектура для обработки естественного языка, включая тексты, документы, поисковые запросы и многое другое. Однако одним из ключевых вопросов при использовании трансформеров является меру уверенности в их выводах. Недостаточная надежность может привести к значительным ошибкам в решениях, особенно в критически важных приложениях. Существуют несколько методов для измерения неопределенности в трансформерах, но они часто либо требуют многократного прохождения модели, либо не подходят для однослойного подхода. Это делает их неэффективными для анализа поведения трансформера в реальном времени. Необходима методика, которая была бы прозрачной, эффективной и позволяла оценить уверенность в реальном времени. ## Метод Мы предлагаем **Effective-Information Consistency Score (EICS)**, который представляет собой систему из двух частей: 1. **Нормализованная несовпадение-информации (Sheaf Inconsistency)** — вычисляется на основе матрицы производных (локальных Jacobians) и активаций сети. Это позволяет измерить несогласованность в данных. 2. **Прокси-мера для казуального развития (Gaussian EI)** — основана на форвардной модели сети. Она измеряет как надежность активаций, так и их развитие в пространстве весов. EICS — это **однопроходная** методика, где каждая единица входной информации явно определяется, чтобы сделать её интерпретацию максимально прозрачной. Наша архитектура является бело-ящиковой, что позволяет использовать её в реальном времени для измерения неопределенности. ## Результаты Мы проверили EICS на виртуальных задачах, моделях с параметрами, которые работают с реальными данными. Использовались различные типы данных, включая рекомендательные системы и синтез текста. Эксперименты показали, что EICS может быть использован для измерения неопределенности в сложных трансформерных многослойных системах. В результате: - **Точность** показала высокую степень совпадения с другими методами измерения неопределенности. - **Скорость** EICS была выше, чем у других методов, которые выполняют несколько проходов модели. - Наша методика доказала свою эффективность в режиме реального времени, что делает её подходящей для критически важных решений. ## Значимость Метод EICS может быть применён в различных областях, таких как: - **Критически важные приложения**, такие как медицинские модели и финансовые системы, где надежность решений критична. - **Оптимизация процессов**, например, при работе с рекомендательными системами. - **Мониторинг и диагностика** моделей, чтобы обеспечить их надежность в режиме реального времени. Важность EICS также заключается в

Abstract

Mechanistic interpretability has identified functional subgraphs within large language models (LLMs), known as Transformer Circuits (TCs), that appear to implement specific algorithms. Yet we lack a formal, single-pass way to quantify when an active circuit is behaving coherently and thus likely trustworthy. Building on prior systems-theoretic proposals, we specialize a sheaf/cohomology and causal emergence perspective to TCs and introduce the Effective-Information Consistency Score (EICS). EICS combines (i) a normalized sheaf inconsistency computed from local Jacobians and activations, with (ii) a Gaussian EI proxy for circuit-level causal emergence derived from the same forward state. The construction is white-box, single-pass, and makes units explicit so that the score is dimensionless. We further provide practical guidance on score interpretation, computational overhead (with fast and exact modes), and a toy sanity-check analysis. Empirical validation on LLM tasks is deferred.

Ссылки и действия