ReFactX: Scalable Reasoning with Reliable Facts via Constrained Generation

2508.16983v1 cs.CL, cs.AI, I.2.7 2025-08-27

Авторы:

Riccardo Pozzi, Matteo Palmonari, Andrea Coletta, Luigi Bellomarini, Jens Lehmann, Sahar Vahdati

Резюме на русском

## Контекст В последние годы искусственные нейронные сети, в частности Large Language Models (LLMs), получили широкое применение в различных областях, от работы со сложными текстами до разработки систем умных помощников. Однако существуют значительные проблемы, связанные с генерированием информации, которая не всегда достоверна. Эти проблемы, известные как "темные тени" или "халлуцинации", возникают из-за того, что генерирующие модели не всегда могут получить достаточные данные для точного ответа на пользовательский запрос. В результате, LLMs могут выдавать неточные или даже несоответствующие ответы. Это ограничивает их применение в решении реальных задач, где достоверная информация крайне важна. Наиболее распространенным подходом к решению этой проблемы является **Retrieval-Augmented Generation (RAG)**, который использует дополнительные модели или сервисы для доступа к внешним источникам знаний. Однако этот подход имеет свои ограничения: за счет дополнительных моделей и сложности конвейера, он может влечь за собой проблемы, такие как повышение времени вычислений, риск ошибок во взаимодействии моделей, и большое количество обрабатываемых токенов. Решением этих трудностей может стать новый подход, который обеспечит доступ к внешней информации без дополнительных моделей, а вместо этого будет опираться на эффективную индексацию и поиск внутри самой модели. ## Метод Методология, предложенная в ReFactX, основывается на **constrained generation**, позволяющем LLMs самостоятельно получать доступ к внешней информации. Это решение основывается на **prefix-tree index**, в котором хранятся графы знаний в форме текстовых фактов. Такие факты берутся из стандартных Knowledge Graphs и подвергаются преобразованию в короткие текстовые строки, которые затем проходят индексацию в префиксном дереве. Это позволяет модели эффективно искать информацию внутри графа без необходимости запускать дополнительные модели или вызывать сервисы. Метод основывается на том, что LLM может генерировать только факты, которые есть в индексе, что гарантирует достоверность информации. Во время работы модели реагирует на запросы, генерируя ответы в виде фактов, которые включают в себя входной запрос и нужные данные из префиксного дерева. Эта архитектура имеет минимальный overhead во время генерирования и может обрабатывать очень большие объемы данных, такие как 800 миллионов фактов. Это решение легко адаптируется к различным спецификам задач и доменам, что делает его универсальным и мощным. ## Результаты Для оценки эффективности ReFactX проведены эксперименты на задаче Question Answering (QA). Использовались два типа данных: широко известный LLaMA2 и доменно-специ

Abstract

Knowledge gaps and hallucinations are persistent challenges for Large Language Models (LLMs), which generate unreliable responses when lacking the necessary information to fulfill user instructions. Existing approaches, such as Retrieval-Augmented Generation (RAG) and tool use, aim to address these issues by incorporating external knowledge. Yet, they rely on additional models or services, resulting in complex pipelines, potential error propagation, and often requiring the model to process a large number of tokens. In this paper, we present a scalable method that enables LLMs to access external knowledge without depending on retrievers or auxiliary models. Our approach uses constrained generation with a pre-built prefix-tree index. Triples from a Knowledge Graph are verbalized in textual facts, tokenized, and indexed in a prefix tree for efficient access. During inference, to acquire external knowledge, the LLM generates facts with constrained generation which allows only sequences of tokens that form an existing fact. We evaluate our proposal on Question Answering and show that it scales to large knowledge bases (800 million facts), adapts to domain-specific data, and achieves effective results. These gains come with minimal generation-time overhead. ReFactX code is available at https://github.com/rpo19/ReFactX.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ReFactX: Scalable Reasoning with Reliable Facts via Constrained Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Direct Semantic Communication Between Large Language Models via Vector Translati...

Detecting Data Contamination in LLMs via In-Context Learning

LASTIST: LArge-Scale Target-Independent STance dataset

PerCoR: Evaluating Commonsense Reasoning in Persian via Multiple-Choice Sentence...

A Use-Case Specific Dataset for Measuring Dimensions of Responsible Performance ...

Навигация