Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures

2509.25045v1 cs.CL, cs.AI, cs.LG 2025-10-01
Авторы:

Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini

Резюме на русском

## Контекст В последние годы Large Language Models (LLMs) стали одним из самых влиятельных инструментов в области артифициального интеллекта, применяемых в различных сферах, от глубокого обучения до трансляции. Несмотря на их мощь, эти модели остаются черным лесом: их внутренние представления остаются непонятными, что ограничивает возможности их использования в ситуациях, требующих транспарентности и удобства в интерпретации. Например, существующие методы интерпретирования, такие как direct logit attribution (DLA) и sparse autoencoders (SAEs), имеют ограниченные возможности из-за ограниченного выходного лексикона или неочевидных названий признаков. Мотивируясь тем, чтобы улучшить интерпретируемость LLMs, в этом исследовании предлагается новый подход, называемый Hyperdimensional Probe. Этот подход комбинирует идеи символических представлений и нейронных проб, чтобы проецировать внутренние представления модели в более интерпретируемые формы с помощью Vector Symbolic Architectures (VSAs). ## Метод Hyperdimensional Probe состоит в том, что его используют для проекции резидентного потока модели LLM в символическую форму с помощью VSAs. Эта проекция позволяет извлекать интерпретируемые признаки, которые могут быть использованы для понимания того, что отдельные слои модели вычисляют. В центре этой методологии лежит подход, который использует VSAs для того, чтобы перевести нейронные выплавы в представления, которые могут быть более человекочитаемыми. Метод заключается в создании символических представлений, которые могут быть использованы для преобразования нейронных слоев в форму, которая может быть легче интерпретирована. Эта процедура позволяет получить более ясные, четкие и структурированные представления, чем у полностью нейронных моделей. ## Результаты Эксперименты проводились на нескольких LLMs, включая модели с разными размерами входных данных и различными входными типами. Задачи, которые были решены, включали синтаксическое разбор, ключ-значение ассоциации и абстрактный вывод. Во время этих экспериментов проверялось, насколько хорошо может извлекаться информация с помощью предложенного подхода. В результате, Hyperdimensional Probe показал свою эффективность в выявлении основных признаков и выполнении задач пробы. Это позволило не только улучшить понимание как LLMs работают, но и проанализировать моменты, в которых модели не справляются с задачей. Таким образом, метод позволяет выявить отсутствие наглядности в некоторых моментах, что может помочь в устранении недочетов в модели. ## Значимость Эта работа может быть применена в различных областях, где требуется понимание того, как LLMs принимают решения. Это может быть полезно в ситуациях

Abstract

Despite their capabilities, Large Language Models (LLMs) remain opaque with limited understanding of their internal representations. Current interpretability methods, such as direct logit attribution (DLA) and sparse autoencoders (SAEs), provide restricted insight due to limitations such as the model's output vocabulary or unclear feature names. This work introduces Hyperdimensional Probe, a novel paradigm for decoding information from the LLM vector space. It combines ideas from symbolic representations and neural probing to project the model's residual stream into interpretable concepts via Vector Symbolic Architectures (VSAs). This probe combines the strengths of SAEs and conventional probes while overcoming their key limitations. We validate our decoding paradigm with controlled input-completion tasks, probing the model's final state before next-token prediction on inputs spanning syntactic pattern recognition, key-value associations, and abstract inference. We further assess it in a question-answering setting, examining the state of the model both before and after text generation. Our experiments show that our probe reliably extracts meaningful concepts across varied LLMs, embedding sizes, and input domains, also helping identify LLM failures. Our work advances information decoding in LLM vector space, enabling extracting more informative, interpretable, and structured features from neural representations.

Ссылки и действия