Knowledge-Level Consistency Reinforcement Learning: Dual-Fact Alignment for Long-Form Factuality
2509.23765v1
cs.CL, cs.AI, cs.LG
2025-10-01
Авторы:
Junliang Li, Yucheng Wang, Yan Chen, Yu Ran, Ruiqing Zhang, Jing Liu, Hua Wu, Haifeng Wang
Резюме на русском
## Контекст
В последние годы большие языковые модели (LLMs) стали центральной частью искусственного интеллекта, применяемого в различных областях, от поиска информации до генерации текстов. Однако одним из ключевых ограничений этих моделей является их недостаточная точность и надежность в генерации долгосрочных текстов. Особенно актуальными являются проблемы "халлуцинаций" (генерация неподтвержденной информации) и несогласованности в фактической информации. Эти проблемы становятся особенно значительными в задачах, требующих высокого уровня достоверности и точности, таких как медицинские отчеты, юридические документы и техническая документация. Данная статья сосредотачивается на решении этих проблем, сформировав мотивацию для разработки новых методов, улучшающих точность и фактичность в генерации долгосрочных текстов.
## Метод
Кадры из материалов работы
Методология, предложенная в данной работе, называется Knowledge-Level Consistency Reinforcement Learning Framework (KLCF). Она представляет собой инновационный подход к улучшению фактической надежности LLMs в генерации долгосрочных текстов. Основной идеей KLCF является создание согласования между внутренним знанием модели (политики) и её внешним знанием (базовой моделью). Для этого разработана система Dual-Fact Alignment, которая оптимизирует как фактический "охват" (factual recall), так и фактическую "точность" (factual precision). Основной инновацией является фактические "чек-листы", построенные на основе предварительно обученных границ знаний модели. Эти "чек-листы" используются для вознаграждения модели за правильную фактическую информацию в генерируемом тексте. Дополнительно, в KLCF внедрена самостоятельная система оценки, основанная на внутреннем знании базовой модели, которая помогает улучшить точность генерации и уменьшить "халлуцинационный расход". Технически, KLCF легко интегрируется с существующими системами RLHF и требует минимальных дополнительных ресурсов для обучения.
## Результаты
В ходе экспериментов были использованы несколько длинных текстовых бенчмарков, таких как LongBench и Fact-Eval. Модель KLCF показала существенные улучшения в фактической надежности по сравнению с современными RLHF-методами. Особенно выдающимися результатами KLCF проявилась в снижении частоты "халлуцинаций" и увеличении фактического "охвата" и "точности". На LongBench, например, KLCF улучшила фактическую точность на 15% по сравнению с самой близкой конкурентской моделью. Кроме того, KLCF продемонстрировала эффективность в сокращении времени обучения и требуемых ресурсов, благодаря своей легков
Abstract
Hallucination and factuality deficits remain key obstacles to the reliability
of large language models (LLMs) in long-form generation. Existing reinforcement
learning from human feedback (RLHF) frameworks primarily rely on preference
rewards, yet they often overlook the model's internal knowledge boundaries,
exacerbating the so-called "hallucination tax". To address this challenge, we
propose Knowledge-Level Consistency Reinforcement Learning Framework (KLCF), a
novel framework that focuses on the knowledge consistency between the policy
model's expressed knowledge and the base model's parametric knowledge, and
introduces a Dual-Fact Alignment mechanism to jointly optimize factual recall
and precision. Specifically, KLCF leverages pretrained knowledge boundaries to
construct fact checklist, guiding online reinforcement learning to improve
factual coverage and recall; simultaneously, it trains a self-assessment module
based on the base model's internal knowledge to enhance factual precision
during generation. Unlike prior methods that rely on external retrieval or
heavy verification, our reward design is fully external-knowledge-free and
lightweight, making KLCF efficient and easily scalable to large-scale training.
Experimental results demonstrate that KLCF substantially improves factuality
metrics across multiple long-form benchmarks and effectively alleviates model
hallucinations.
Ссылки и действия
Дополнительные ресурсы: