Disentangling concept semantics via multilingual averaging in Sparse Autoencoders
2508.14275v1
cs.CL, cs.AI
2025-08-22
Авторы:
Cliff O'Reilly, Ernesto Jimenez-Ruiz, Tillman Weyde
Резюме на русском
## Контекст
Современные языковые модели (LLMs) становятся все более мощными в обработке и генерации текстов. Однако их недостатком является неполное понимание концептуальной семантики, которая часто замешательна синтаксическими и языковыми особенностями. Это ограничивает их применение в задачах, требующих точного понимания смысла, таких как семантический анализ и рассуждения с применением формального знания. Например, LLMs могут недостаточно различать семантические отношения между классами в формальных знаниях, таких как классы в языках ontology (OWL). Исследователи ищут методы, позволяющие лучше раскладывать семантические компоненты, отделяя их от синтаксических и языковых зависимостей.
## Метод
Мы предлагаем метод, основанный на **Sparse Autoencoders**, для того, чтобы выделить концептуальные семантики с помощью **среднего активации** по словарным словам. Мы начинаем с классов OWL-онтологии написанных на английском языке, переводим их на французский и китайский, а затем вводим эти переводы в LLM Gemma 2B. Используя **Gemma Scope**, мы получаем активации слов для каждого класса и каждого языка. Затем мы создаем **средние значения активаций** для каждого класса на каждом языке, создавая **концептуальный средний профиль** для класса. Эти профили мы сравниваем с знаниями из онтологии в тесте, используя корреляцию, чтобы определить, насколько они соответствуют знаниям.
## Результаты
Проведенные эксперименты показывают, что средние концептуальные профили, полученные с помощью **многоязычного среднего**, дают более точный результат, чем средние для отдельных языков. Мы выявляем, что когда мы объединяем активации из нескольких языков, получается более четкое представление значения класса. На примере классов OWL-онтологии, мы получили **высокую корреляцию** с знаниями, которая была **выше**, чем когда мы использовали только один язык. Это указывает на то, что **многоязычное среднее** позволяет лучше отделить семантические смыслы от языковых и синтаксических зависимостей.
## Значимость
Наш метод демонстрирует потенциал для **более точного понимания семантических отношений** в LLMs. Это может быть использовано для улучшения семантического анализа, формальных рассуждений, интеллектуальных систем, а также для классификации и поиска информации. Мы также отмечаем, что наш подход может быть применен к другим языкам, что делает его **универсальным** и **перспективным** для развития методов в семантической обработке текста.
## Выводы
Мы предложили метод для **выделения концептуальных семантик** с помощью **
Abstract
Connecting LLMs with formal knowledge representation and reasoning is a
promising approach to address their shortcomings. Embeddings and sparse
autoencoders are widely used to represent textual content, but the semantics
are entangled with syntactic and language-specific information. We propose a
method that isolates concept semantics in Large Langue Models by averaging
concept activations derived via Sparse Autoencoders. We create English text
representations from OWL ontology classes, translate the English into French
and Chinese and then pass these texts as prompts to the Gemma 2B LLM. Using the
open source Gemma Scope suite of Sparse Autoencoders, we obtain concept
activations for each class and language version. We average the different
language activations to derive a conceptual average. We then correlate the
conceptual averages with a ground truth mapping between ontology classes. Our
results give a strong indication that the conceptual average aligns to the true
relationship between classes when compared with a single language by itself.
The result hints at a new technique which enables mechanistic interpretation of
internal network states with higher accuracy.
Ссылки и действия
Дополнительные ресурсы: