Knowledge Homophily in Large Language Models

2509.23773v1 cs.LG, cs.AI, cs.CL, cs.SI 2025-10-01
Авторы:

Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang

Резюме на русском

#### Контекст Large Language Models (LLMs) являются мощными инструментами для поддержки знаний-интенсивных приложений, таких как вопрос-ответ и проверка фактов. Однако структура, в которой хранится их знание, пока остается недостаточно изученной. Это ограничивает возможности для эффективного управления и расширения знаний внутри этих моделей. Наблюдения из когнитивной науки, такие как семантическое кластеризация и прайминг, описывают связь между знаниями, при которой знание одного факта повышает вероятность помнить связанные с ним факты. Эта теория подсказывает, что LLMs также могут иметь аналогичную структуру. Несмотря на высокую точность LLMs, неясно, как их знания организованы, что делает необходимым подробное исследование. Наша мотивация заключается в выявлении и использовании этой структуры для улучшения эффективности и точности работы LLMs. #### Метод Для изучения структуры знаний в LLMs мы представляем их в виде графа, где узлы представляют собой сущности, а рёбра — отношения между ними, определяемые знаниями, которые модель обладает. Для построения этого графа используется техника знаний-проверки на двух уровнях: триплетах и сущностях. Это позволяет определить, насколько хорошо LLM знает отдельные факты и отношения. Затем мы проводим анализ взаимосвязи знаний между сущностями, определяя, насколько знания одной сущности похожи на знания её соседних в графе. Это позволяет выделить тренд: ближайшие в графе сущности имеют более похожие уровни знаний. Основываясь на этой идее, мы предложили Graph Neural Network (GNN) для регрессионной оценки уровня знаний для каждого триплета, используя знания соседей в графе. #### Результаты Мы провели эксперименты с широким спектром данных, включая TripleGraph и внешние ресурсы, чтобы проверить эффективность нашей модели. Результаты показали, что GNN-модель успешно предсказывает уровень знаний для триплетов, оптимизируя покрытие знаний в пределах ограниченного бюджета. Это приводит к улучшению активного метода лейблинга, который требуется для развития модели. Также, мы продемонстрировали, что наш подход повышает эффективность рассуждений в задачах вопроса-ответа, позволяя лучше организовывать поиск путей во многоступенчатых задачах. #### Значимость Предложенный подход имеет широкие потенциальные применения в области знаний-интенсивных приложений. Он позволяет улучшить эффективность активного лейблинга, обеспечивая более точный выбор триплетов для лейблинга, чтобы получить максимальное покрытие новых знаний с минимальными зат

Abstract

Large Language Models (LLMs) have been increasingly studied as neural knowledge bases for supporting knowledge-intensive applications such as question answering and fact checking. However, the structural organization of their knowledge remains unexplored. Inspired by cognitive neuroscience findings, such as semantic clustering and priming, where knowing one fact increases the likelihood of recalling related facts, we investigate an analogous knowledge homophily pattern in LLMs. To this end, we map LLM knowledge into a graph representation through knowledge checking at both the triplet and entity levels. After that, we analyze the knowledgeability relationship between an entity and its neighbors, discovering that LLMs tend to possess a similar level of knowledge about entities positioned closer in the graph. Motivated by this homophily principle, we propose a Graph Neural Network (GNN) regression model to estimate entity-level knowledgeability scores for triplets by leveraging their neighborhood scores. The predicted knowledgeability enables us to prioritize checking less well-known triplets, thereby maximizing knowledge coverage under the same labeling budget. This not only improves the efficiency of active labeling for fine-tuning to inject knowledge into LLMs but also enhances multi-hop path retrieval in reasoning-intensive question answering.

Ссылки и действия

Связанные статьи

Agentic Username Suggestion and Multimodal Gender Detection in Online Platforms:...

## Контекст Задачи понимания языка и анализа цифровых идентитетов возникают во многих приложениях, от социальных сетей ...

2025-09-17