Isolating Culture Neurons in Multilingual Large Language Models

2508.02241v1 cs.CL 2025-08-09
Авторы:

Danial Namazifard, Lukas Galke

Резюме на русском

**Резюме** В данной работе исследуется вопрос о том, как и где многоязычные большие языковые модели (LLM) хранят информацию о культуре. Авторы расширяют существующую методологию, нацеленную на выявление языково-специфичных нейронов, для изоляции культурно-специфичных нейронов, а также изучают их взаимодействие с языковыми нейронами и культурными нейронами других языков. Для экспериментов разработан корпус MUREL, содержащий 85.2 миллиона токенов из шести культурных групп. Исследования по localizу и воздействию показали, что нейроны, отвечающие за культуру, расположены в верхних слоях LLMs и могут быть изменены независимо от языковых и культурных нейронов других языков. Эти результаты подтверждают возможность выборочного извлечения и редактирования культурной информации в LLM, что может способствовать созданию более справедливых, включающих и адекватных моделей. Данные и код доступны по адресу https://github.com/namazifard/Culture_Neurons.

Abstract

Language and culture are deeply intertwined, yet it is so far unclear how and where multilingual large language models encode culture. Here, we extend upon an established methodology for identifying language-specific neurons and extend it to localize and isolate culture-specific neurons, carefully disentangling their overlap and interaction with language-specific neurons. To facilitate our experiments, we introduce MUREL, a curated dataset of 85.2 million tokens spanning six different cultures. Our localization and intervention experiments show that LLMs encode different cultures in distinct neuron populations, predominantly in upper layers, and that these culture neurons can be modulated independently from language-specific neurons or those specific to other cultures. These findings suggest that cultural knowledge and propensities in multilingual language models can be selectively isolated and edited - promoting fairness, inclusivity, and alignment. Code and data is available at https://github.com/namazifard/Culture_Neurons .

Ссылки и действия