Prediction is not Explanation: Revisiting the Explanatory Capacity of Mapping Embeddings

2508.13729v1 cs.CL, cs.AI, cs.LG 2025-08-21

Авторы:

Hanna Herasimchyk, Alhassan Abdelhalim, Sören Laue, Michaela Regneri

Резюме на русском

## Контекст Область исследования, связанная с пониманием представленного в глубоких нейронных сетях знаний, является одной из ключевых проблем в развитии интерпретируемых систем машинного обучения. Несмотря на то, что нейронные сети достигли высокого эффективности в решении различных задач, их внутренняя структура и инкапсулированные в ней знания часто остаются непонятными. Это снижает уровень доверия к AI-системам и ограничивает их применение в критически важных сферах. Глубокие нейронные сети, такие как Большие Лингвистические Модели (LLMs), основываются на эмбеддингах слов, которые представляют собой векторные представления лексико-семантических свойств слов. Одним из известных методов изучения этих представлений является поиск их семантических особенностей (feature norms), которые могут быть установлены через людей. Тем не менее, существуют значительные проблемы с точки зрения интерпретируемости и надежности этих методов. ## Метод В данной работе предлагается изучить методы, использующиеся для описания знаний, заключенных в эмбеддингах слов, с использованием наборов данных семантических особенностей (semantic feature norms). Обычно используется предположение, что если модель эффективно предсказывает эти семантические особенности из эмбеддингов, то это значит, что эмбеддинги содержат соответствующие знания. Однако, в данном исследовании проводится критический анализ этого предположения. Авторы используют методы глубокого обучения, включая методы регрессии, чтобы проверить предположения, связанные с интерпретируемостью эмбеддингов. Одной из главных тезисов является то, что точность предсказания не гарантирует наличия глубокого понимания семантической структуры в эмбеддингах. ## Результаты На основе целого ряда экспериментов, проводившихся на разных наборах данных, показано, что прогностическая модель может достигать высокой точности даже на вымышленных или случайных наборах данных, что снижает доверие к полученным результатам. В частности, выявлено, что некоторые методы семантического анализа эмбеддингов оказываются неустойчивыми в своих выводах. Модель может оптимизироваться для того, чтобы выглядеть как более интерпретируемая, но это не означает, что она действительно понимает значение своих представлений. На основе этих результатов авторы показывают, что методы маппинга эмбеддингов на семантические характеристики могут давать высокую точность, но это не является доказательством, что эмбеддинги действительно включают семантические знания. ## Значимость Результаты исследования по

Abstract

Understanding what knowledge is implicitly encoded in deep learning models is essential for improving the interpretability of AI systems. This paper examines common methods to explain the knowledge encoded in word embeddings, which are core elements of large language models (LLMs). These methods typically involve mapping embeddings onto collections of human-interpretable semantic features, known as feature norms. Prior work assumes that accurately predicting these semantic features from the word embeddings implies that the embeddings contain the corresponding knowledge. We challenge this assumption by demonstrating that prediction accuracy alone does not reliably indicate genuine feature-based interpretability. We show that these methods can successfully predict even random information, concluding that the results are predominantly determined by an algorithmic upper bound rather than meaningful semantic representation in the word embeddings. Consequently, comparisons between datasets based solely on prediction performance do not reliably indicate which dataset is better captured by the word embeddings. Our analysis illustrates that such mappings primarily reflect geometric similarity within vector spaces rather than indicating the genuine emergence of semantic properties.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Prediction is not Explanation: Revisiting the Explanatory Capacity of Mapping Embeddings

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация