Do Natural Language Descriptions of Model Activations Convey Privileged Information?

2509.13316v1 cs.CL, cs.LG 2025-09-18
Авторы:

Millicent Li, Alberto Mario Ceballos Arroyo, Giordano Rogers, Naomi Saphra, Byron C. Wallace

Резюме на русском

## Контекст Современные глубоко обученные языковые модели (LLM) используют внутренние представления для выполнения сложных задач. Однако понимание того, как эти модели представляют и обрабатывают входные данные, остается неполным. Это недостаточное понимание затрудняет их анализ и настройку. Одним из подходов к решению этой проблемы является использование второй модели языка для перевода внутренних представлений LLM в удобочитаемые естественные языковые описания. Такой подход, известный как "декодирование активаций", называется также "деклассификацией" или "уточнением". Он стремится предоставить пользователю лучшего качества инсайтов в работу LLM, однако его эффективность и достоверность подвергались критике. Неясно, насколько эти методы действительно позволяют понять внутренние механизмы модели, а не лишь трактуют входные данные. ## Метод Мы исследуем популярные методы декодирования активаций, оценивая их работу на различных данных и задачах. Методология включает эксперименты с целевыми моделями и вспомогательными моделями во время обучения, а также с использованием выборок входного текста. Мы устанавливаем несколько условий для тестирования: отсутствие доступа к внутренним представлениям LLM (только входные данные) и сравнение результатов с предварительно обученными методами. Наши эксперименты использовали обученные модели GPT-3 и BERT на различных задачах, включая классификацию и семантическое понимание. ## Результаты Наши эксперименты показали, что методы декодирования активаций дают высокие результаты на бенчмарках, но эти результаты оказались связаны с контекстом входных данных, а не с реальными внутренними представлениями LLM. Например, даже при отсутствии доступа к модели, техники декодирования позволили достичь высокого уровня точности в задаче классификации. Дополнительные эксперименты показали, что результаты зависят от параметров и обучения вспомогательной модели-декодера, а не от силы LLM-целевой. Это указывает на то, что методы деклассификации могут просто отражать предварительную знания модели-декодера, а не трактуют внутренние представления LLM. ## Значимость Результаты имеют высокую значимость для развития методов интерпретирования LLM. Мы показали, что существующие бенчмарки для оценки этих методов неэффективны, так как они не отражают реальную силу техник. Наши результаты подчеркивают необходимость создания новых, более тщательных бенчмарков, которые будут контролировать зависимость результатов от контекста и параметров вспомогательных моделей. Это позволит доказать, насколько эффективно техники декодировани

Abstract

Recent interpretability methods have proposed to translate LLM internal representations into natural language descriptions using a second verbalizer LLM. This is intended to illuminate how the target model represents and operates on inputs. But do such activation verbalization approaches actually provide privileged knowledge about the internal workings of the target model, or do they merely convey information about its inputs? We critically evaluate popular verbalization methods across datasets used in prior work and find that they succeed at benchmarks without any access to target model internals, suggesting that these datasets are not ideal for evaluating verbalization methods. We then run controlled experiments which reveal that verbalizations often reflect the parametric knowledge of the verbalizer LLM which generated them, rather than the activations of the target LLM being decoded. Taken together, our results indicate a need for targeted benchmarks and experimental controls to rigorously assess whether verbalization methods provide meaningful insights into the operations of LLMs.

Ссылки и действия