Knowledge Homophily in Large Language Models
2509.23773v1
cs.LG, cs.AI, cs.CL, cs.SI
2025-10-01
Авторы:
Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang
Резюме на русском
#### Контекст
Large Language Models (LLMs) являются мощными инструментами для поддержки знаний-интенсивных приложений, таких как вопрос-ответ и проверка фактов. Однако структура, в которой хранится их знание, пока остается недостаточно изученной. Это ограничивает возможности для эффективного управления и расширения знаний внутри этих моделей. Наблюдения из когнитивной науки, такие как семантическое кластеризация и прайминг, описывают связь между знаниями, при которой знание одного факта повышает вероятность помнить связанные с ним факты. Эта теория подсказывает, что LLMs также могут иметь аналогичную структуру. Несмотря на высокую точность LLMs, неясно, как их знания организованы, что делает необходимым подробное исследование. Наша мотивация заключается в выявлении и использовании этой структуры для улучшения эффективности и точности работы LLMs.
#### Метод
Для изучения структуры знаний в LLMs мы представляем их в виде графа, где узлы представляют собой сущности, а рёбра — отношения между ними, определяемые знаниями, которые модель обладает. Для построения этого графа используется техника знаний-проверки на двух уровнях: триплетах и сущностях. Это позволяет определить, насколько хорошо LLM знает отдельные факты и отношения. Затем мы проводим анализ взаимосвязи знаний между сущностями, определяя, насколько знания одной сущности похожи на знания её соседних в графе. Это позволяет выделить тренд: ближайшие в графе сущности имеют более похожие уровни знаний. Основываясь на этой идее, мы предложили Graph Neural Network (GNN) для регрессионной оценки уровня знаний для каждого триплета, используя знания соседей в графе.
#### Результаты
Мы провели эксперименты с широким спектром данных, включая TripleGraph и внешние ресурсы, чтобы проверить эффективность нашей модели. Результаты показали, что GNN-модель успешно предсказывает уровень знаний для триплетов, оптимизируя покрытие знаний в пределах ограниченного бюджета. Это приводит к улучшению активного метода лейблинга, который требуется для развития модели. Также, мы продемонстрировали, что наш подход повышает эффективность рассуждений в задачах вопроса-ответа, позволяя лучше организовывать поиск путей во многоступенчатых задачах.
#### Значимость
Предложенный подход имеет широкие потенциальные применения в области знаний-интенсивных приложений. Он позволяет улучшить эффективность активного лейблинга, обеспечивая более точный выбор триплетов для лейблинга, чтобы получить максимальное покрытие новых знаний с минимальными зат
Abstract
Large Language Models (LLMs) have been increasingly studied as neural
knowledge bases for supporting knowledge-intensive applications such as
question answering and fact checking. However, the structural organization of
their knowledge remains unexplored. Inspired by cognitive neuroscience
findings, such as semantic clustering and priming, where knowing one fact
increases the likelihood of recalling related facts, we investigate an
analogous knowledge homophily pattern in LLMs. To this end, we map LLM
knowledge into a graph representation through knowledge checking at both the
triplet and entity levels. After that, we analyze the knowledgeability
relationship between an entity and its neighbors, discovering that LLMs tend to
possess a similar level of knowledge about entities positioned closer in the
graph. Motivated by this homophily principle, we propose a Graph Neural Network
(GNN) regression model to estimate entity-level knowledgeability scores for
triplets by leveraging their neighborhood scores. The predicted
knowledgeability enables us to prioritize checking less well-known triplets,
thereby maximizing knowledge coverage under the same labeling budget. This not
only improves the efficiency of active labeling for fine-tuning to inject
knowledge into LLMs but also enhances multi-hop path retrieval in
reasoning-intensive question answering.