Mechanistic Interpretability with SAEs: Probing Religion, Violence, and Geography in Large Language Models

2509.17665v1 cs.LG, cs.AI, cs.CY 2025-09-24
Авторы:

Katharina Simbeck, Mariam Mahran

Резюме на русском

## Контекст Область исследования связана с механистической интерпретируемостью больших языковых моделей (LLM), которая направлена на определение и анализ внутренних представлений, используемых этими моделями. Несмотря на значительный интерес к биасам в текстовых моделях, большая часть исследований фокусировалась на гендерных и расовых аспектах, оставив менее изученным вопрос о роли религиозной идентичности в процессе обучения моделей. Эта статья рассматривает вопрос представления религии в LLMs и его связи с понятиями насилия и географии. Авторы используют методы механистической интерпретируемости и автокодирования на основе простоты (SAE), чтобы изучить внутренние активации моделей и выявить семантические зависимости в контекстах проблематичных запросов. ## Метод Для проведения исследования были использованы методы механистической интерпретируемости, в частности, анализ внутренних активаций моделей с помощью автокодирования на основе простоты (SAE). Авторы применяют Neuronpedia API для проведения экспериментов с 5 моделями языковых моделей, изучая как внутренние представления связаны с проблематичными запросами, связанными с религией, насилием и географией. Процесс анализа включал в себя измерение контекстной семантической зависимости между проблематичными фразами и внутренними активациями моделей. Выделенные модели включали LLM с разным размером и архитектурой, позволяя получить широкий представление о внутренних представлениях моделей в контексте проблемы. ## Результаты Исследование показало, что все исследованные религии демонстрируют высокий уровень внутренней когерентности внутри своих представлений. Однако наибольшую связь с проблематичными запросами, связанными с насилием, обнаружилось в отношении ислама. В то же время, географические представления моделей в целом отражают реальные демографические закономерности, что позволяет выделить как фактические данные, так и культурные стереотипы. Эти результаты помогли выявить как положительные характеристики моделей (точность в отображении реальных данных), так и отрицательные (внедрение культурных стереотипов). ## Значимость Полученные результаты имеют значительное значение для аудитов моделей, особенно в контексте широкого применения LLMs в различных сферах, включая образовательные, юридические и социальные системы. Анализ внутренних представлений моделей позволяет выявить и устранять биазы, касающиеся религиозной идиентичности, насилия и географических аспектов. Такой подход может способствовать более честному и точному представл

Abstract

Despite growing research on bias in large language models (LLMs), most work has focused on gender and race, with little attention to religious identity. This paper explores how religion is internally represented in LLMs and how it intersects with concepts of violence and geography. Using mechanistic interpretability and Sparse Autoencoders (SAEs) via the Neuronpedia API, we analyze latent feature activations across five models. We measure overlap between religion- and violence-related prompts and probe semantic patterns in activation contexts. While all five religions show comparable internal cohesion, Islam is more frequently linked to features associated with violent language. In contrast, geographic associations largely reflect real-world religious demographics, revealing how models embed both factual distributions and cultural stereotypes. These findings highlight the value of structural analysis in auditing not just outputs but also internal representations that shape model behavior.

Ссылки и действия