Knowledge-Level Consistency Reinforcement Learning: Dual-Fact Alignment for Long-Form Factuality

2509.23765v1 cs.CL, cs.AI, cs.LG 2025-10-01
Авторы:

Junliang Li, Yucheng Wang, Yan Chen, Yu Ran, Ruiqing Zhang, Jing Liu, Hua Wu, Haifeng Wang

Резюме на русском

## Контекст В последние годы большие языковые модели (LLMs) стали центральной частью искусственного интеллекта, применяемого в различных областях, от поиска информации до генерации текстов. Однако одним из ключевых ограничений этих моделей является их недостаточная точность и надежность в генерации долгосрочных текстов. Особенно актуальными являются проблемы "халлуцинаций" (генерация неподтвержденной информации) и несогласованности в фактической информации. Эти проблемы становятся особенно значительными в задачах, требующих высокого уровня достоверности и точности, таких как медицинские отчеты, юридические документы и техническая документация. Данная статья сосредотачивается на решении этих проблем, сформировав мотивацию для разработки новых методов, улучшающих точность и фактичность в генерации долгосрочных текстов. ## Метод Кадры из материалов работы Методология, предложенная в данной работе, называется Knowledge-Level Consistency Reinforcement Learning Framework (KLCF). Она представляет собой инновационный подход к улучшению фактической надежности LLMs в генерации долгосрочных текстов. Основной идеей KLCF является создание согласования между внутренним знанием модели (политики) и её внешним знанием (базовой моделью). Для этого разработана система Dual-Fact Alignment, которая оптимизирует как фактический "охват" (factual recall), так и фактическую "точность" (factual precision). Основной инновацией является фактические "чек-листы", построенные на основе предварительно обученных границ знаний модели. Эти "чек-листы" используются для вознаграждения модели за правильную фактическую информацию в генерируемом тексте. Дополнительно, в KLCF внедрена самостоятельная система оценки, основанная на внутреннем знании базовой модели, которая помогает улучшить точность генерации и уменьшить "халлуцинационный расход". Технически, KLCF легко интегрируется с существующими системами RLHF и требует минимальных дополнительных ресурсов для обучения. ## Результаты В ходе экспериментов были использованы несколько длинных текстовых бенчмарков, таких как LongBench и Fact-Eval. Модель KLCF показала существенные улучшения в фактической надежности по сравнению с современными RLHF-методами. Особенно выдающимися результатами KLCF проявилась в снижении частоты "халлуцинаций" и увеличении фактического "охвата" и "точности". На LongBench, например, KLCF улучшила фактическую точность на 15% по сравнению с самой близкой конкурентской моделью. Кроме того, KLCF продемонстрировала эффективность в сокращении времени обучения и требуемых ресурсов, благодаря своей легков

Abstract

Hallucination and factuality deficits remain key obstacles to the reliability of large language models (LLMs) in long-form generation. Existing reinforcement learning from human feedback (RLHF) frameworks primarily rely on preference rewards, yet they often overlook the model's internal knowledge boundaries, exacerbating the so-called "hallucination tax". To address this challenge, we propose Knowledge-Level Consistency Reinforcement Learning Framework (KLCF), a novel framework that focuses on the knowledge consistency between the policy model's expressed knowledge and the base model's parametric knowledge, and introduces a Dual-Fact Alignment mechanism to jointly optimize factual recall and precision. Specifically, KLCF leverages pretrained knowledge boundaries to construct fact checklist, guiding online reinforcement learning to improve factual coverage and recall; simultaneously, it trains a self-assessment module based on the base model's internal knowledge to enhance factual precision during generation. Unlike prior methods that rely on external retrieval or heavy verification, our reward design is fully external-knowledge-free and lightweight, making KLCF efficient and easily scalable to large-scale training. Experimental results demonstrate that KLCF substantially improves factuality metrics across multiple long-form benchmarks and effectively alleviates model hallucinations.

Ссылки и действия