Disentangling Polysemantic Neurons with a Null-Calibrated Polysemanticity Index and Causal Patch Interventions

2508.16950v1 cs.LG, cs.CV 2025-08-27
Авторы:

Manan Gupta, Dhruv Kumar

Резюме на русском

## Контекст Понимание и интерпретирование работы нейронных сетей, особенно слоев и нейронов, остается значительной проблемой в машинном обучении. Несмотря на высокую точность моделей, их работа часто остается непонятной, что вводит затруднения в механистической интерпретации. Особый интерес представляют "полисемантические" нейроны, которые реагируют на разные, иногда не связанные между собой, признаки. Это ограничивает возможность определить конкретные смыслы или характеристики, которые модели ассоциируют с каждым нейроном. Эта проблема становится важной в задачах механистической интерпретации и моделирования семантических сетей. ## Метод Для адресации этой проблемы предлагается подход, основанный на метрике Polysemanticity Index (PSI), которая меряет степень полисемантичности нейрона. Метод заключается в следующем: 1. **Null-калиброванный полисемантичный индекс (PSI)** – определяет, когда топ-активации нейрона структурированы в семантически отдельные кластеры. 2. **Геометрическая кластеризация (S)** – оценивает качество кластеров, образующихся в пространстве топ-активаций. 3. **Выравнивание с меток (Q)** – говорит о принадлежности кластеров к заданным категориям. 4. **Открытый семантический индекс (D)** – вычисляет отклонение от центральных семантических моделей (CLIP), чтобы измерить отклонение от однозначного смысла. Эти компоненты объединяются в PSI, предоставляя возможность не только оценивать полисемантичность нейрона, но и применять этот индекс в широком круге задач. ## Результаты Используя ResNet-50, обученную на Tiny-ImageNet, авторы провели эксперименты для проверки PSI на определении полисемантических нейронов. Особое внимание уделено сравнению полисемантичности в разных слоях сети, что позволяет выделить тенденцию к более выраженной полисемантичности в поздних слоях. Эксперименты включили: - **Ресемплинг и смену случайных сид** для проверки стабильности PSI. - **Изменение гиперпараметров** для проверки инвариантности результатов. - **Проверка связи с задачами классификации** посредством классификационных текстовых векторов. - **Использование техники causal patch interventions**, позволяющих изучить взаимосвязь между нейронами и активностью в изображениях. На основе этих экспериментов было продемонстрировано, что PSI может успешно выделять полисемантические нейроны и устанавливать связь с их выполняемыми функциями. ## Значимость Предложенный подход имеет значимое значение для нескольких областей: 1. **Механистическая интерпретация** – позволяет лучше понять, как нейроны в нейронных сетях связаны с конкретными смыслами и задача

Abstract

Neural networks often contain polysemantic neurons that respond to multiple, sometimes unrelated, features, complicating mechanistic interpretability. We introduce the Polysemanticity Index (PSI), a null-calibrated metric that quantifies when a neuron's top activations decompose into semantically distinct clusters. PSI multiplies three independently calibrated components: geometric cluster quality (S), alignment to labeled categories (Q), and open-vocabulary semantic distinctness via CLIP (D). On a pretrained ResNet-50 evaluated with Tiny-ImageNet images, PSI identifies neurons whose activation sets split into coherent, nameable prototypes, and reveals strong depth trends: later layers exhibit substantially higher PSI than earlier layers. We validate our approach with robustness checks (varying hyperparameters, random seeds, and cross-encoder text heads), breadth analyses (comparing class-only vs. open-vocabulary concepts), and causal patch-swap interventions. In particular, aligned patch replacements increase target-neuron activation significantly more than non-aligned, random, shuffled-position, or ablate-elsewhere controls. PSI thus offers a principled and practical lever for discovering, quantifying, and studying polysemantic units in neural networks.

Ссылки и действия