Isolating Culture Neurons in Multilingual Large Language Models
2508.02241v1
cs.CL
2025-08-09
Авторы:
Danial Namazifard, Lukas Galke
Резюме на русском
**Резюме**
В данной работе исследуется вопрос о том, как и где многоязычные большие языковые модели (LLM) хранят информацию о культуре. Авторы расширяют существующую методологию, нацеленную на выявление языково-специфичных нейронов, для изоляции культурно-специфичных нейронов, а также изучают их взаимодействие с языковыми нейронами и культурными нейронами других языков. Для экспериментов разработан корпус MUREL, содержащий 85.2 миллиона токенов из шести культурных групп. Исследования по localizу и воздействию показали, что нейроны, отвечающие за культуру, расположены в верхних слоях LLMs и могут быть изменены независимо от языковых и культурных нейронов других языков. Эти результаты подтверждают возможность выборочного извлечения и редактирования культурной информации в LLM, что может способствовать созданию более справедливых, включающих и адекватных моделей. Данные и код доступны по адресу https://github.com/namazifard/Culture_Neurons.
Abstract
Language and culture are deeply intertwined, yet it is so far unclear how and
where multilingual large language models encode culture. Here, we extend upon
an established methodology for identifying language-specific neurons and extend
it to localize and isolate culture-specific neurons, carefully disentangling
their overlap and interaction with language-specific neurons. To facilitate our
experiments, we introduce MUREL, a curated dataset of 85.2 million tokens
spanning six different cultures. Our localization and intervention experiments
show that LLMs encode different cultures in distinct neuron populations,
predominantly in upper layers, and that these culture neurons can be modulated
independently from language-specific neurons or those specific to other
cultures. These findings suggest that cultural knowledge and propensities in
multilingual language models can be selectively isolated and edited - promoting
fairness, inclusivity, and alignment. Code and data is available at
https://github.com/namazifard/Culture_Neurons .
Ссылки и действия
Дополнительные ресурсы: