Do Natural Language Descriptions of Model Activations Convey Privileged Information?
2509.13316v1
cs.CL, cs.LG
2025-09-18
Авторы:
Millicent Li, Alberto Mario Ceballos Arroyo, Giordano Rogers, Naomi Saphra, Byron C. Wallace
Резюме на русском
## Контекст
Современные глубоко обученные языковые модели (LLM) используют внутренние представления для выполнения сложных задач. Однако понимание того, как эти модели представляют и обрабатывают входные данные, остается неполным. Это недостаточное понимание затрудняет их анализ и настройку. Одним из подходов к решению этой проблемы является использование второй модели языка для перевода внутренних представлений LLM в удобочитаемые естественные языковые описания. Такой подход, известный как "декодирование активаций", называется также "деклассификацией" или "уточнением". Он стремится предоставить пользователю лучшего качества инсайтов в работу LLM, однако его эффективность и достоверность подвергались критике. Неясно, насколько эти методы действительно позволяют понять внутренние механизмы модели, а не лишь трактуют входные данные.
## Метод
Мы исследуем популярные методы декодирования активаций, оценивая их работу на различных данных и задачах. Методология включает эксперименты с целевыми моделями и вспомогательными моделями во время обучения, а также с использованием выборок входного текста. Мы устанавливаем несколько условий для тестирования: отсутствие доступа к внутренним представлениям LLM (только входные данные) и сравнение результатов с предварительно обученными методами. Наши эксперименты использовали обученные модели GPT-3 и BERT на различных задачах, включая классификацию и семантическое понимание.
## Результаты
Наши эксперименты показали, что методы декодирования активаций дают высокие результаты на бенчмарках, но эти результаты оказались связаны с контекстом входных данных, а не с реальными внутренними представлениями LLM. Например, даже при отсутствии доступа к модели, техники декодирования позволили достичь высокого уровня точности в задаче классификации. Дополнительные эксперименты показали, что результаты зависят от параметров и обучения вспомогательной модели-декодера, а не от силы LLM-целевой. Это указывает на то, что методы деклассификации могут просто отражать предварительную знания модели-декодера, а не трактуют внутренние представления LLM.
## Значимость
Результаты имеют высокую значимость для развития методов интерпретирования LLM. Мы показали, что существующие бенчмарки для оценки этих методов неэффективны, так как они не отражают реальную силу техник. Наши результаты подчеркивают необходимость создания новых, более тщательных бенчмарков, которые будут контролировать зависимость результатов от контекста и параметров вспомогательных моделей. Это позволит доказать, насколько эффективно техники декодировани
Abstract
Recent interpretability methods have proposed to translate LLM internal
representations into natural language descriptions using a second verbalizer
LLM. This is intended to illuminate how the target model represents and
operates on inputs. But do such activation verbalization approaches actually
provide privileged knowledge about the internal workings of the target model,
or do they merely convey information about its inputs? We critically evaluate
popular verbalization methods across datasets used in prior work and find that
they succeed at benchmarks without any access to target model internals,
suggesting that these datasets are not ideal for evaluating verbalization
methods. We then run controlled experiments which reveal that verbalizations
often reflect the parametric knowledge of the verbalizer LLM which generated
them, rather than the activations of the target LLM being decoded. Taken
together, our results indicate a need for targeted benchmarks and experimental
controls to rigorously assess whether verbalization methods provide meaningful
insights into the operations of LLMs.
Ссылки и действия
Дополнительные ресурсы: