Sparse but Wrong: Incorrect L0 Leads to Incorrect Features in Sparse Autoencoders

2508.16560v1 cs.LG, cs.AI, cs.CL 2025-08-26
Авторы:

David Chanin, Adrià Garriga-Alonso

Резюме на русском

## Контекст Sparse Autoencoders (SAEs) являются важной компонентой машинного обучения, предназначенными для извлечения представлений из внутренних активаций глубоких нейронных сетей. Идея заключается в том, что каждое извлеченное представление должно соответствовать отдельному понятию. Однако, для того чтобы достичь этой цели, необходимо тщательно подобрать гиперпараметр L0, который определяет среднее число активирующихся функций на каждый токен. Несмотря на важность этого параметра, существующие работы обычно оценивают различные алгоритмы SAE только по трейдофу между спарсингом и реконструкцией, без учета правильного подбора L0. Наша мотивация заключается в том, чтобы раскрыть важность L0 и показать, что его неправильное значение приводит к некорректному извлечению признаков. ## Метод Мы изучаем характеристики BatchTopK SAEs, в которых L0 определяет число активирующихся функций. Мы проводим эксперименты с разными значениями L0 и изучаем их влияние на способность SAE выучить функции, на которые сосредоточены внутренние активации глубоких нейросетей. Для построения изображений используются данные типа "word embeddings" из распространенных моделей, а результаты экспериментов анализируются с помощью метрик, отражающих точность извлечения функций. Мы также предлагаем метод для определения корректного L0, который основывается на оценке спарсингового и реконструкционного характеристик в ходе обучения. ## Результаты Наши эксперименты показывают, что если L0 неправильно подобрано, SAE не сможет правильно извлечь признаки. Если L0 слишком мал, то SAE будет смешивать похожие признаки, чтобы улучшить реконструкцию. Если L0 слишком большой, то могут быть найдены дегенеративные решения, приводящие к смешению признаков. Мы также демонстрируем, что наш метод для определения идеального L0 дает правильные результаты на генерируемых данных и совпадает с точкими значениями, при которых SAE достигает максимальной производительности в тестировании на глубоких нейросетях. ## Значимость Полученные результаты имеют большое значение для понимания и применения SAE. Они показывают, что правильное значение L0 не только влияет на качество реконструкции, но и на фактический вывод корректных признаков. Это означает, что недостаточно лишь корректно реализовать SAE, необходимо также аккуратно подобрать L0. Этот результат может быть применен в области извлечения функций из внутренних моделей, таких как текстовые модели с глубокими нейросетями. Это также может помочь улучшить представления, которые используются в визуализации и анализировании данных. ## Выводы Мы показали, что неправиль

Abstract

Sparse Autoencoders (SAEs) extract features from LLM internal activations, meant to correspond to single concepts. A core SAE training hyperparameter is L0: how many features should fire per token on average. Existing work compares SAE algorithms using sparsity--reconstruction tradeoff plots, implying L0 is a free parameter with no single correct value. In this work we study the effect of L0 on BatchTopK SAEs, and show that if L0 is not set precisely, the SAE fails to learn the underlying features of the LLM. If L0 is too low, the SAE will mix correlated features to improve reconstruction. If L0 is too high, the SAE finds degenerate solutions that also mix features. Further, we demonstrate a method to determine the correct L0 value for an SAE on a given training distribution, which finds the true L0 in toy models and coincides with peak sparse probing performance in LLMs. We find that most commonly used SAEs have an L0 that is too low. Our work shows that, to train SAEs with correct features, practitioners must set L0 correctly.

Ссылки и действия