NEAT: Concept driven Neuron Attribution in LLMs

2508.15875v1 cs.CL, cs.AI, cs.LG 2025-08-25

Авторы:

Vivek Hruday Kavuri, Gargi Shroff, Rahul Mishra

Резюме на русском

#### Контекст В последние годы широко распространены бо LLM (large language models), которые обладают выдающимися способностями в обработке естественного языка. Однако такие модели часто называют "черным ящиком", так как понять, каким образом они принимают решения, остается загадкой. Одним из ключевых вопросов является определение роли отдельных нейронов в принятии решений. Этот вопрос не только ключевой для понимания LLM, но и важен для возможности вмешательства в работу моделей, например, для устранения биаса или высказываний ненависти. Несмотря на некоторые усилия по поиску таких "ответственных" нейронов, существуют проблемы, связанные с неоптимальностью вычислений и несовершенством методов. #### Метод Мы предлагаем метод под названием **NEAT** (Neuron-level Explanation via Attribution Transformers), который основывается на идее использования **concept vectors** (векторов понятий) для поиска "concept neurons" (нейронов, ответственных за определенные концепции). Метод уменьшает количество необходимых проходов (forward passes) с $O(n \times m)$ до $O(n)$, где $n$ - число нейронов, а $m$ - число примеров. Эта оптимизация позволяет сократить вычислительные затраты и ускорить процесс. Мы также используем кластеризацию для оптимизации поиска concept neurons. #### Результаты Мы проверяем наш метод на нескольких базовых моделях и сравниваем его с существующими методами. Результаты показывают, что **NEAT** демонстрирует лучшую точность и эффективность в сравнении с базовыми и состояниями технологии. Для примера, мы смогли уменьшить расход вычислительных ресурсов в несколько раз, при этом сохранив высокую точность. Особое внимание уделяется применению наших методов для выявления и устранения биаса в LLMs, включая тестирование на конкретных примерах из индийского контекста. #### Значимость Наш метод может применяться в различных областях, таких как мониторинг биаса в тексте, анализ языковых моделей и улучшение понимания человеком работы AI. Он позволяет не только улучшить понимание того, как работают LLM, но и создает шанс вмешательства в их работу. Например, можно отключить нейроны, ответственные за высказывания ненависти или биаз, и изучить последствия таких манипуляций. Это открывает путь к более предсказуемому и человекоподобному поведению моделей. #### Выводы Мы показали, что наш метод не только эффективен, но и эффективен в том смысле, что он дает новый подход к пониманию и вмешательству в работу LLM. Мы также отметили, что наши результаты открывают новые возможности для изучения роли отдельных нейронов в широких и глубоких LLM. Наше исследование демонстрирует перспективы для будущих исследований в области поиска concept neurons и вмешательства в

Abstract

Locating neurons that are responsible for final predictions is important for opening the black-box large language models and understanding the inside mechanisms. Previous studies have tried to find mechanisms that operate at the neuron level but these methods fail to represent a concept and there is also scope for further optimization of compute required. In this paper, with the help of concept vectors, we propose a method for locating significant neurons that are responsible for representing certain concepts and term those neurons as concept neurons. If the number of neurons is n and the number of examples is m, we reduce the number of forward passes required from O(n*m) to just O(n) compared to the previous works and hence optimizing the time and computation required over previous works. We also compare our method with several baselines and previous methods and our results demonstrate better performance than most of the methods and are more optimal when compared to the state-of-the-art method. We, as part of our ablation studies, also try to optimize the search for the concept neurons by involving clustering methods. Finally, we apply our methods to find, turn off the neurons that we find, and analyze its implications in parts of hate speech and bias in LLMs, and we also evaluate our bias part in terms of Indian context. Our methodology, analysis and explanations facilitate understating of neuron-level responsibility for more broader and human-like concepts and also lay a path for future research in this direction of finding concept neurons and intervening them.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

NEAT: Concept driven Neuron Attribution in LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация