Disentangling concept semantics via multilingual averaging in Sparse Autoencoders

2508.14275v1 cs.CL, cs.AI 2025-08-22
Авторы:

Cliff O'Reilly, Ernesto Jimenez-Ruiz, Tillman Weyde

Резюме на русском

## Контекст Современные языковые модели (LLMs) становятся все более мощными в обработке и генерации текстов. Однако их недостатком является неполное понимание концептуальной семантики, которая часто замешательна синтаксическими и языковыми особенностями. Это ограничивает их применение в задачах, требующих точного понимания смысла, таких как семантический анализ и рассуждения с применением формального знания. Например, LLMs могут недостаточно различать семантические отношения между классами в формальных знаниях, таких как классы в языках ontology (OWL). Исследователи ищут методы, позволяющие лучше раскладывать семантические компоненты, отделяя их от синтаксических и языковых зависимостей. ## Метод Мы предлагаем метод, основанный на **Sparse Autoencoders**, для того, чтобы выделить концептуальные семантики с помощью **среднего активации** по словарным словам. Мы начинаем с классов OWL-онтологии написанных на английском языке, переводим их на французский и китайский, а затем вводим эти переводы в LLM Gemma 2B. Используя **Gemma Scope**, мы получаем активации слов для каждого класса и каждого языка. Затем мы создаем **средние значения активаций** для каждого класса на каждом языке, создавая **концептуальный средний профиль** для класса. Эти профили мы сравниваем с знаниями из онтологии в тесте, используя корреляцию, чтобы определить, насколько они соответствуют знаниям. ## Результаты Проведенные эксперименты показывают, что средние концептуальные профили, полученные с помощью **многоязычного среднего**, дают более точный результат, чем средние для отдельных языков. Мы выявляем, что когда мы объединяем активации из нескольких языков, получается более четкое представление значения класса. На примере классов OWL-онтологии, мы получили **высокую корреляцию** с знаниями, которая была **выше**, чем когда мы использовали только один язык. Это указывает на то, что **многоязычное среднее** позволяет лучше отделить семантические смыслы от языковых и синтаксических зависимостей. ## Значимость Наш метод демонстрирует потенциал для **более точного понимания семантических отношений** в LLMs. Это может быть использовано для улучшения семантического анализа, формальных рассуждений, интеллектуальных систем, а также для классификации и поиска информации. Мы также отмечаем, что наш подход может быть применен к другим языкам, что делает его **универсальным** и **перспективным** для развития методов в семантической обработке текста. ## Выводы Мы предложили метод для **выделения концептуальных семантик** с помощью **

Abstract

Connecting LLMs with formal knowledge representation and reasoning is a promising approach to address their shortcomings. Embeddings and sparse autoencoders are widely used to represent textual content, but the semantics are entangled with syntactic and language-specific information. We propose a method that isolates concept semantics in Large Langue Models by averaging concept activations derived via Sparse Autoencoders. We create English text representations from OWL ontology classes, translate the English into French and Chinese and then pass these texts as prompts to the Gemma 2B LLM. Using the open source Gemma Scope suite of Sparse Autoencoders, we obtain concept activations for each class and language version. We average the different language activations to derive a conceptual average. We then correlate the conceptual averages with a ground truth mapping between ontology classes. Our results give a strong indication that the conceptual average aligns to the true relationship between classes when compared with a single language by itself. The result hints at a new technique which enables mechanistic interpretation of internal network states with higher accuracy.

Ссылки и действия