Binary Autoencoder for Mechanistic Interpretability of Large Language Models

2509.20997v1 cs.LG, cs.AI, cs.CL 2025-09-27

Авторы:

Hakaze Cho, Haolin Yang, Brian M. Kurkoski, Naoya Inoue

Резюме на русском

#### Контекст Большие языковые модели (LLMs) становятся все более популярными в различных приложениях, но их скрытые слои содержат множество функций, которые необходимо понять для механистической интерпретируемости. Несмотря на существующие методы, они часто ограничиваются локальными регуляризациями, что приводит к сбою в обеспечении глобальной спарсиности и атомарности функций. Это ограничивает понимание их работы. Мы предлагаем новый подход, основанный на методологии минимальной энтропии для более эффективной интерпретации. #### Метод Мы предлагаем Binary Autoencoder (BAE), который использует 1-битную дискретизацию скрытых активаций с помощью ступенчатой функции. Для обеспечения обратного распространения, мы применяем градиентное оптимизационное решение. Это позволяет BAE значительно уменьшить спарсиность и достичь лучшей атомарности. Мы также показываем, что BAE может вычислять сложность слоя и улучшать методы интерпретации для простоты и точности. #### Результаты Мы проверяем BAE на нескольких датасетах и LLM-моделях. Он показывает значительные улучшения в сравнении с базовыми методами: выводит больше точных функций и избегает заведомо неактивных. Мы также применяем BAE к оценке сложности и динамике LLMs и показываем, что он может лучше понять зависимости в In-context Learning. #### Значимость Предлагаемый подход может иметь широкое применение в области механистического понимания ЛСМ. Он позволяет улучшить понимание работы моделей, уменьшить количество заведомо неактивных функций и улучшить методы интерпретации. Это открывает пути для более глубокого понимания слоев скрытого слоя и их взаимодействия с задачами классификации, предсказания и In-context Learning. #### Выводы Мы представили Binary Autoencoder, позволяющий достичь минимальной энтропии в группе скрытых активаций для лучшего понимания LLMs. Он эффективно обеспечивает спарсиность и атомарность в 1-битных активациях. Мы показали, что BAE может лучше характеризовать динамику моделей и сократить функции, неактивные на масштабе минимальной энтропии. Будущие исследования будут стремиться к расширению этого метода для понимания других моделей и задач.

Abstract

Existing works are dedicated to untangling atomized numerical components (features) from the hidden states of Large Language Models (LLMs) for interpreting their mechanism. However, they typically rely on autoencoders constrained by some implicit training-time regularization on single training instances (i.e., $L_1$ normalization, top-k function, etc.), without an explicit guarantee of global sparsity among instances, causing a large amount of dense (simultaneously inactive) features, harming the feature sparsity and atomization. In this paper, we propose a novel autoencoder variant that enforces minimal entropy on minibatches of hidden activations, thereby promoting feature independence and sparsity across instances. For efficient entropy calculation, we discretize the hidden activations to 1-bit via a step function and apply gradient estimation to enable backpropagation, so that we term it as Binary Autoencoder (BAE) and empirically demonstrate two major applications: (1) Feature set entropy calculation. Entropy can be reliably estimated on binary hidden activations, which we empirically evaluate and leverage to characterize the inference dynamics of LLMs and In-context Learning. (2) Feature untangling. Similar to typical methods, BAE can extract atomized features from LLM's hidden states. To robustly evaluate such feature extraction capability, we refine traditional feature-interpretation methods to avoid unreliable handling of numerical tokens, and show that BAE avoids dense features while producing the largest number of interpretable ones among baselines, which confirms the effectiveness of BAE serving as a feature extractor.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Binary Autoencoder for Mechanistic Interpretability of Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация