NEAT: Concept driven Neuron Attribution in LLMs
2508.15875v1
cs.CL, cs.AI, cs.LG
2025-08-25
Авторы:
Vivek Hruday Kavuri, Gargi Shroff, Rahul Mishra
Резюме на русском
#### Контекст
В последние годы широко распространены бо LLM (large language models), которые обладают выдающимися способностями в обработке естественного языка. Однако такие модели часто называют "черным ящиком", так как понять, каким образом они принимают решения, остается загадкой. Одним из ключевых вопросов является определение роли отдельных нейронов в принятии решений. Этот вопрос не только ключевой для понимания LLM, но и важен для возможности вмешательства в работу моделей, например, для устранения биаса или высказываний ненависти. Несмотря на некоторые усилия по поиску таких "ответственных" нейронов, существуют проблемы, связанные с неоптимальностью вычислений и несовершенством методов.
#### Метод
Мы предлагаем метод под названием **NEAT** (Neuron-level Explanation via Attribution Transformers), который основывается на идее использования **concept vectors** (векторов понятий) для поиска "concept neurons" (нейронов, ответственных за определенные концепции). Метод уменьшает количество необходимых проходов (forward passes) с $O(n \times m)$ до $O(n)$, где $n$ - число нейронов, а $m$ - число примеров. Эта оптимизация позволяет сократить вычислительные затраты и ускорить процесс. Мы также используем кластеризацию для оптимизации поиска concept neurons.
#### Результаты
Мы проверяем наш метод на нескольких базовых моделях и сравниваем его с существующими методами. Результаты показывают, что **NEAT** демонстрирует лучшую точность и эффективность в сравнении с базовыми и состояниями технологии. Для примера, мы смогли уменьшить расход вычислительных ресурсов в несколько раз, при этом сохранив высокую точность. Особое внимание уделяется применению наших методов для выявления и устранения биаса в LLMs, включая тестирование на конкретных примерах из индийского контекста.
#### Значимость
Наш метод может применяться в различных областях, таких как мониторинг биаса в тексте, анализ языковых моделей и улучшение понимания человеком работы AI. Он позволяет не только улучшить понимание того, как работают LLM, но и создает шанс вмешательства в их работу. Например, можно отключить нейроны, ответственные за высказывания ненависти или биаз, и изучить последствия таких манипуляций. Это открывает путь к более предсказуемому и человекоподобному поведению моделей.
#### Выводы
Мы показали, что наш метод не только эффективен, но и эффективен в том смысле, что он дает новый подход к пониманию и вмешательству в работу LLM. Мы также отметили, что наши результаты открывают новые возможности для изучения роли отдельных нейронов в широких и глубоких LLM. Наше исследование демонстрирует перспективы для будущих исследований в области поиска concept neurons и вмешательства в
Abstract
Locating neurons that are responsible for final predictions is important for
opening the black-box large language models and understanding the inside
mechanisms. Previous studies have tried to find mechanisms that operate at the
neuron level but these methods fail to represent a concept and there is also
scope for further optimization of compute required. In this paper, with the
help of concept vectors, we propose a method for locating significant neurons
that are responsible for representing certain concepts and term those neurons
as concept neurons. If the number of neurons is n and the number of examples is
m, we reduce the number of forward passes required from O(n*m) to just O(n)
compared to the previous works and hence optimizing the time and computation
required over previous works. We also compare our method with several baselines
and previous methods and our results demonstrate better performance than most
of the methods and are more optimal when compared to the state-of-the-art
method. We, as part of our ablation studies, also try to optimize the search
for the concept neurons by involving clustering methods. Finally, we apply our
methods to find, turn off the neurons that we find, and analyze its
implications in parts of hate speech and bias in LLMs, and we also evaluate our
bias part in terms of Indian context. Our methodology, analysis and
explanations facilitate understating of neuron-level responsibility for more
broader and human-like concepts and also lay a path for future research in this
direction of finding concept neurons and intervening them.
Ссылки и действия
Дополнительные ресурсы: