## Контекст
В последние годы Large Language Models (LLMs) стали одним из самых влиятельных инструментов в области артифициального интеллекта, применяемых в различных сферах, от глубокого обучения до трансляции. Несмотря на их мощь, эти модели остаются черным лесом: их внутренние представления остаются непонятными, что ограничивает возможности их использования в ситуациях, требующих транспарентности и удобства в интерпретации. Например, существующие методы интерпретирования, такие как direct logit attribution (DLA) и sparse autoencoders (SAEs), имеют ограниченные возможности из-за ограниченного выходного лексикона или неочевидных названий признаков. Мотивируясь тем, чтобы улучшить интерпретируемость LLMs, в этом исследовании предлагается новый подход, называемый Hyperdimensional Probe. Этот подход комбинирует идеи символических представлений и нейронных проб, чтобы проецировать внутренние представления модели в более интерпретируемые формы с помощью Vector Symbolic Architectures (VSAs).
## Метод
Hyperdimensional Probe состоит в том, что его используют для проекции резидентного потока модели LLM в символическую форму с помощью VSAs. Эта проекция позволяет извлекать интерпретируемые признаки, которые могут быть использованы для понимания того, что отдельные слои модели вычисляют. В центре этой методологии лежит подход, который использует VSAs для того, чтобы перевести нейронные выплавы в представления, которые могут быть более человекочитаемыми. Метод заключается в создании символических представлений, которые могут быть использованы для преобразования нейронных слоев в форму, которая может быть легче интерпретирована. Эта процедура позволяет получить более ясные, четкие и структурированные представления, чем у полностью нейронных моделей.
## Результаты
Эксперименты проводились на нескольких LLMs, включая модели с разными размерами входных данных и различными входными типами. Задачи, которые были решены, включали синтаксическое разбор, ключ-значение ассоциации и абстрактный вывод. Во время этих экспериментов проверялось, насколько хорошо может извлекаться информация с помощью предложенного подхода. В результате, Hyperdimensional Probe показал свою эффективность в выявлении основных признаков и выполнении задач пробы. Это позволило не только улучшить понимание как LLMs работают, но и проанализировать моменты, в которых модели не справляются с задачей. Таким образом, метод позволяет выявить отсутствие наглядности в некоторых моментах, что может помочь в устранении недочетов в модели.
## Значимость
Эта работа может быть применена в различных областях, где требуется понимание того, как LLMs принимают решения. Это может быть полезно в ситуациях