Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
2509.25045v1
cs.CL, cs.AI, cs.LG
2025-10-01
Авторы:
Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini
Резюме на русском
## Контекст
В последние годы Large Language Models (LLMs) стали одним из самых влиятельных инструментов в области артифициального интеллекта, применяемых в различных сферах, от глубокого обучения до трансляции. Несмотря на их мощь, эти модели остаются черным лесом: их внутренние представления остаются непонятными, что ограничивает возможности их использования в ситуациях, требующих транспарентности и удобства в интерпретации. Например, существующие методы интерпретирования, такие как direct logit attribution (DLA) и sparse autoencoders (SAEs), имеют ограниченные возможности из-за ограниченного выходного лексикона или неочевидных названий признаков. Мотивируясь тем, чтобы улучшить интерпретируемость LLMs, в этом исследовании предлагается новый подход, называемый Hyperdimensional Probe. Этот подход комбинирует идеи символических представлений и нейронных проб, чтобы проецировать внутренние представления модели в более интерпретируемые формы с помощью Vector Symbolic Architectures (VSAs).
## Метод
Hyperdimensional Probe состоит в том, что его используют для проекции резидентного потока модели LLM в символическую форму с помощью VSAs. Эта проекция позволяет извлекать интерпретируемые признаки, которые могут быть использованы для понимания того, что отдельные слои модели вычисляют. В центре этой методологии лежит подход, который использует VSAs для того, чтобы перевести нейронные выплавы в представления, которые могут быть более человекочитаемыми. Метод заключается в создании символических представлений, которые могут быть использованы для преобразования нейронных слоев в форму, которая может быть легче интерпретирована. Эта процедура позволяет получить более ясные, четкие и структурированные представления, чем у полностью нейронных моделей.
## Результаты
Эксперименты проводились на нескольких LLMs, включая модели с разными размерами входных данных и различными входными типами. Задачи, которые были решены, включали синтаксическое разбор, ключ-значение ассоциации и абстрактный вывод. Во время этих экспериментов проверялось, насколько хорошо может извлекаться информация с помощью предложенного подхода. В результате, Hyperdimensional Probe показал свою эффективность в выявлении основных признаков и выполнении задач пробы. Это позволило не только улучшить понимание как LLMs работают, но и проанализировать моменты, в которых модели не справляются с задачей. Таким образом, метод позволяет выявить отсутствие наглядности в некоторых моментах, что может помочь в устранении недочетов в модели.
## Значимость
Эта работа может быть применена в различных областях, где требуется понимание того, как LLMs принимают решения. Это может быть полезно в ситуациях
Abstract
Despite their capabilities, Large Language Models (LLMs) remain opaque with
limited understanding of their internal representations. Current
interpretability methods, such as direct logit attribution (DLA) and sparse
autoencoders (SAEs), provide restricted insight due to limitations such as the
model's output vocabulary or unclear feature names. This work introduces
Hyperdimensional Probe, a novel paradigm for decoding information from the LLM
vector space. It combines ideas from symbolic representations and neural
probing to project the model's residual stream into interpretable concepts via
Vector Symbolic Architectures (VSAs). This probe combines the strengths of SAEs
and conventional probes while overcoming their key limitations. We validate our
decoding paradigm with controlled input-completion tasks, probing the model's
final state before next-token prediction on inputs spanning syntactic pattern
recognition, key-value associations, and abstract inference. We further assess
it in a question-answering setting, examining the state of the model both
before and after text generation. Our experiments show that our probe reliably
extracts meaningful concepts across varied LLMs, embedding sizes, and input
domains, also helping identify LLM failures. Our work advances information
decoding in LLM vector space, enabling extracting more informative,
interpretable, and structured features from neural representations.
Ссылки и действия
Дополнительные ресурсы: