Binary Autoencoder for Mechanistic Interpretability of Large Language Models
2509.20997v1
cs.LG, cs.AI, cs.CL
2025-09-27
Авторы:
Hakaze Cho, Haolin Yang, Brian M. Kurkoski, Naoya Inoue
Резюме на русском
#### Контекст
Большие языковые модели (LLMs) становятся все более популярными в различных приложениях, но их скрытые слои содержат множество функций, которые необходимо понять для механистической интерпретируемости. Несмотря на существующие методы, они часто ограничиваются локальными регуляризациями, что приводит к сбою в обеспечении глобальной спарсиности и атомарности функций. Это ограничивает понимание их работы. Мы предлагаем новый подход, основанный на методологии минимальной энтропии для более эффективной интерпретации.
#### Метод
Мы предлагаем Binary Autoencoder (BAE), который использует 1-битную дискретизацию скрытых активаций с помощью ступенчатой функции. Для обеспечения обратного распространения, мы применяем градиентное оптимизационное решение. Это позволяет BAE значительно уменьшить спарсиность и достичь лучшей атомарности. Мы также показываем, что BAE может вычислять сложность слоя и улучшать методы интерпретации для простоты и точности.
#### Результаты
Мы проверяем BAE на нескольких датасетах и LLM-моделях. Он показывает значительные улучшения в сравнении с базовыми методами: выводит больше точных функций и избегает заведомо неактивных. Мы также применяем BAE к оценке сложности и динамике LLMs и показываем, что он может лучше понять зависимости в In-context Learning.
#### Значимость
Предлагаемый подход может иметь широкое применение в области механистического понимания ЛСМ. Он позволяет улучшить понимание работы моделей, уменьшить количество заведомо неактивных функций и улучшить методы интерпретации. Это открывает пути для более глубокого понимания слоев скрытого слоя и их взаимодействия с задачами классификации, предсказания и In-context Learning.
#### Выводы
Мы представили Binary Autoencoder, позволяющий достичь минимальной энтропии в группе скрытых активаций для лучшего понимания LLMs. Он эффективно обеспечивает спарсиность и атомарность в 1-битных активациях. Мы показали, что BAE может лучше характеризовать динамику моделей и сократить функции, неактивные на масштабе минимальной энтропии. Будущие исследования будут стремиться к расширению этого метода для понимания других моделей и задач.
Abstract
Existing works are dedicated to untangling atomized numerical components
(features) from the hidden states of Large Language Models (LLMs) for
interpreting their mechanism. However, they typically rely on autoencoders
constrained by some implicit training-time regularization on single training
instances (i.e., $L_1$ normalization, top-k function, etc.), without an
explicit guarantee of global sparsity among instances, causing a large amount
of dense (simultaneously inactive) features, harming the feature sparsity and
atomization. In this paper, we propose a novel autoencoder variant that
enforces minimal entropy on minibatches of hidden activations, thereby
promoting feature independence and sparsity across instances. For efficient
entropy calculation, we discretize the hidden activations to 1-bit via a step
function and apply gradient estimation to enable backpropagation, so that we
term it as Binary Autoencoder (BAE) and empirically demonstrate two major
applications: (1) Feature set entropy calculation. Entropy can be reliably
estimated on binary hidden activations, which we empirically evaluate and
leverage to characterize the inference dynamics of LLMs and In-context
Learning. (2) Feature untangling. Similar to typical methods, BAE can extract
atomized features from LLM's hidden states. To robustly evaluate such feature
extraction capability, we refine traditional feature-interpretation methods to
avoid unreliable handling of numerical tokens, and show that BAE avoids dense
features while producing the largest number of interpretable ones among
baselines, which confirms the effectiveness of BAE serving as a feature
extractor.
Ссылки и действия
Дополнительные ресурсы: