ReFactX: Scalable Reasoning with Reliable Facts via Constrained Generation
2508.16983v1
cs.CL, cs.AI, I.2.7
2025-08-27
Авторы:
Riccardo Pozzi, Matteo Palmonari, Andrea Coletta, Luigi Bellomarini, Jens Lehmann, Sahar Vahdati
Резюме на русском
## Контекст
В последние годы искусственные нейронные сети, в частности Large Language Models (LLMs), получили широкое применение в различных областях, от работы со сложными текстами до разработки систем умных помощников. Однако существуют значительные проблемы, связанные с генерированием информации, которая не всегда достоверна. Эти проблемы, известные как "темные тени" или "халлуцинации", возникают из-за того, что генерирующие модели не всегда могут получить достаточные данные для точного ответа на пользовательский запрос. В результате, LLMs могут выдавать неточные или даже несоответствующие ответы. Это ограничивает их применение в решении реальных задач, где достоверная информация крайне важна. Наиболее распространенным подходом к решению этой проблемы является **Retrieval-Augmented Generation (RAG)**, который использует дополнительные модели или сервисы для доступа к внешним источникам знаний. Однако этот подход имеет свои ограничения: за счет дополнительных моделей и сложности конвейера, он может влечь за собой проблемы, такие как повышение времени вычислений, риск ошибок во взаимодействии моделей, и большое количество обрабатываемых токенов. Решением этих трудностей может стать новый подход, который обеспечит доступ к внешней информации без дополнительных моделей, а вместо этого будет опираться на эффективную индексацию и поиск внутри самой модели.
## Метод
Методология, предложенная в ReFactX, основывается на **constrained generation**, позволяющем LLMs самостоятельно получать доступ к внешней информации. Это решение основывается на **prefix-tree index**, в котором хранятся графы знаний в форме текстовых фактов. Такие факты берутся из стандартных Knowledge Graphs и подвергаются преобразованию в короткие текстовые строки, которые затем проходят индексацию в префиксном дереве. Это позволяет модели эффективно искать информацию внутри графа без необходимости запускать дополнительные модели или вызывать сервисы. Метод основывается на том, что LLM может генерировать только факты, которые есть в индексе, что гарантирует достоверность информации. Во время работы модели реагирует на запросы, генерируя ответы в виде фактов, которые включают в себя входной запрос и нужные данные из префиксного дерева. Эта архитектура имеет минимальный overhead во время генерирования и может обрабатывать очень большие объемы данных, такие как 800 миллионов фактов. Это решение легко адаптируется к различным спецификам задач и доменам, что делает его универсальным и мощным.
## Результаты
Для оценки эффективности ReFactX проведены эксперименты на задаче Question Answering (QA). Использовались два типа данных: широко известный LLaMA2 и доменно-специ
Abstract
Knowledge gaps and hallucinations are persistent challenges for Large
Language Models (LLMs), which generate unreliable responses when lacking the
necessary information to fulfill user instructions. Existing approaches, such
as Retrieval-Augmented Generation (RAG) and tool use, aim to address these
issues by incorporating external knowledge. Yet, they rely on additional models
or services, resulting in complex pipelines, potential error propagation, and
often requiring the model to process a large number of tokens. In this paper,
we present a scalable method that enables LLMs to access external knowledge
without depending on retrievers or auxiliary models. Our approach uses
constrained generation with a pre-built prefix-tree index. Triples from a
Knowledge Graph are verbalized in textual facts, tokenized, and indexed in a
prefix tree for efficient access. During inference, to acquire external
knowledge, the LLM generates facts with constrained generation which allows
only sequences of tokens that form an existing fact. We evaluate our proposal
on Question Answering and show that it scales to large knowledge bases (800
million facts), adapts to domain-specific data, and achieves effective results.
These gains come with minimal generation-time overhead. ReFactX code is
available at https://github.com/rpo19/ReFactX.
Ссылки и действия
Дополнительные ресурсы: