Disentangling Polysemantic Neurons with a Null-Calibrated Polysemanticity Index and Causal Patch Interventions
2508.16950v1
cs.LG, cs.CV
2025-08-27
Авторы:
Manan Gupta, Dhruv Kumar
Резюме на русском
## Контекст
Понимание и интерпретирование работы нейронных сетей, особенно слоев и нейронов, остается значительной проблемой в машинном обучении. Несмотря на высокую точность моделей, их работа часто остается непонятной, что вводит затруднения в механистической интерпретации. Особый интерес представляют "полисемантические" нейроны, которые реагируют на разные, иногда не связанные между собой, признаки. Это ограничивает возможность определить конкретные смыслы или характеристики, которые модели ассоциируют с каждым нейроном. Эта проблема становится важной в задачах механистической интерпретации и моделирования семантических сетей.
## Метод
Для адресации этой проблемы предлагается подход, основанный на метрике Polysemanticity Index (PSI), которая меряет степень полисемантичности нейрона. Метод заключается в следующем:
1. **Null-калиброванный полисемантичный индекс (PSI)** – определяет, когда топ-активации нейрона структурированы в семантически отдельные кластеры.
2. **Геометрическая кластеризация (S)** – оценивает качество кластеров, образующихся в пространстве топ-активаций.
3. **Выравнивание с меток (Q)** – говорит о принадлежности кластеров к заданным категориям.
4. **Открытый семантический индекс (D)** – вычисляет отклонение от центральных семантических моделей (CLIP), чтобы измерить отклонение от однозначного смысла.
Эти компоненты объединяются в PSI, предоставляя возможность не только оценивать полисемантичность нейрона, но и применять этот индекс в широком круге задач.
## Результаты
Используя ResNet-50, обученную на Tiny-ImageNet, авторы провели эксперименты для проверки PSI на определении полисемантических нейронов. Особое внимание уделено сравнению полисемантичности в разных слоях сети, что позволяет выделить тенденцию к более выраженной полисемантичности в поздних слоях. Эксперименты включили:
- **Ресемплинг и смену случайных сид** для проверки стабильности PSI.
- **Изменение гиперпараметров** для проверки инвариантности результатов.
- **Проверка связи с задачами классификации** посредством классификационных текстовых векторов.
- **Использование техники causal patch interventions**, позволяющих изучить взаимосвязь между нейронами и активностью в изображениях.
На основе этих экспериментов было продемонстрировано, что PSI может успешно выделять полисемантические нейроны и устанавливать связь с их выполняемыми функциями.
## Значимость
Предложенный подход имеет значимое значение для нескольких областей:
1. **Механистическая интерпретация** – позволяет лучше понять, как нейроны в нейронных сетях связаны с конкретными смыслами и задача
Abstract
Neural networks often contain polysemantic neurons that respond to multiple,
sometimes unrelated, features, complicating mechanistic interpretability. We
introduce the Polysemanticity Index (PSI), a null-calibrated metric that
quantifies when a neuron's top activations decompose into semantically distinct
clusters. PSI multiplies three independently calibrated components: geometric
cluster quality (S), alignment to labeled categories (Q), and open-vocabulary
semantic distinctness via CLIP (D). On a pretrained ResNet-50 evaluated with
Tiny-ImageNet images, PSI identifies neurons whose activation sets split into
coherent, nameable prototypes, and reveals strong depth trends: later layers
exhibit substantially higher PSI than earlier layers. We validate our approach
with robustness checks (varying hyperparameters, random seeds, and
cross-encoder text heads), breadth analyses (comparing class-only vs.
open-vocabulary concepts), and causal patch-swap interventions. In particular,
aligned patch replacements increase target-neuron activation significantly more
than non-aligned, random, shuffled-position, or ablate-elsewhere controls. PSI
thus offers a principled and practical lever for discovering, quantifying, and
studying polysemantic units in neural networks.
Ссылки и действия
Дополнительные ресурсы: