Efficient Knowledge Probing of Large Language Models by Adapting Pre-trained Embeddings

2508.06030v1 cs.CL, cs.LG 2025-08-12
Авторы:

Kartik Sharma, Yiqiao Jin, Rakshit Trivedi, Srijan Kumar

Резюме на русском

## Контекст Большие языковые модели (LLMs) обладают широкими возможностями для получения и обработки знаний в различных областях, таких как наука, история и география. Однако их стохастический характер делает прогнозирование того, что знают они, непростой задачей. Исследователи ранее развили методы, включающие рассмотрение скрытых представлений, создание специальных задач, сбор представительных образцов и оценку неуверенности. Однако эти методы требуют нескольких проходов через модель, что делает процесс дорогостоящим и трудоемким. Напротив, наша работа предлагает новый подход, который использует предварительно обученные модели эмбеддингов для предсказания знаний LLMs, сделав процесс быстрым и эффективным. ## Метод Мы предлагаем метод $\textbf{PEEK}$ (Proxy Embeddings to Estimate Knowledge), который использует предварительно обученные модели эмбеддингов для проверки знаний LLMs. Мы запускаем эмбеддинговую модель на проверку знаний, адаптировав её с помощью линейного декодерного слоя, чтобы она могла предсказывать выводы LLMs. Эта модель обучается на выборке из фактов, известных LLMs, используя различные пробивные стратегии. Мы выбираем три датасета, построенные на основе Википедии, проверяем семь эмбеддинговых моделей и четыре LLMs. Эксперименты показали, что наш подход достигает до 90% точности при предсказании знаний LLMs. ## Результаты Мы провели тщательные эксперименты с $3$ Wikipedia-derived datasets, $4$ LLMs и $7$ embedding models. Наши результаты показали, что модели сентенций эмбеддингов дают лучший результат в предсказании знаний LLMs, получив до 90% точности. Мы также обнаружили, что эмбеддинговые модели выполняются гораздо эффективнее, чем модели графов, что позволяет понять, как LLMs хранят знания. Наши результаты подчеркивают возможность использования эмбеддингов для оценки и выявления пробелов в знаниях LLMs. ## Значимость Мы рассмотрели применение нашего подхода в следующих областях: сравнение LLMs, выявление пробелов в их знаниях и получение более глубоких познаний о внутренней структуре LLMs. Наш подход обладает огромным потенциалом, так как он предлагает быстрый, эффективный и точный способ оценки LLMs. Мы видим возможности использовать нашу работу для улучшения текущих моделей и для получения более глубоких представлений о том, как LLMs обрабатывают знания. ## Выводы Мы предложили новый подход к оценке знаний LLMs, используя предварительно обученные модели эмбеддингов. Мы показали, что наш метод дает высокую точность при предсказании знаний LLMs на новых данных. Мы также отметили, что модели сентенций эмбеддингов даю

Abstract

Large language models (LLMs) acquire knowledge across diverse domains such as science, history, and geography encountered during generative pre-training. However, due to their stochasticity, it is difficult to predict what LLMs have acquired. Prior work has developed different ways to probe this knowledge by investigating the hidden representations, crafting specific task prompts, curating representative samples, and estimating their uncertainty. However, these methods require making forward passes through the underlying model to probe the LLM's knowledge about a specific fact, making them computationally expensive and time-consuming. To bridge this gap, we propose $\textbf{PEEK}$ or $\textbf{P}$roxy $\textbf{E}$mbeddings to $\textbf{E}$stimate $\textbf{K}$nowledge of LLMs, by leveraging the pre-trained embedding models that effectively encode factual knowledge as text or graphs as proxies for LLMs. First, we identify a training set of facts known by LLMs through various probing strategies and then adapt embedding models to predict the LLM outputs with a linear decoder layer. Comprehensive evaluation on $3$ Wikipedia-derived datasets, $4$ LLMs, and $7$ embedding models shows that embeddings can predict LLM knowledge on a held-out set with up to 90 % accuracy. Furthermore, we find that sentence embedding models are more suitable than graph embeddings to predict LLM knowledge, shedding light on the underlying representation of the factual landscape. Thus, we believe that knowledge-adapted embeddings can be used to identify knowledge gaps in LLMs at scale and can provide deeper insights into LLMs' internal inductive bias. The code and data are made available at https://github.com/claws-lab/peek.

Ссылки и действия