Learning to Reason for Factuality
2508.05618v1
cs.CL
2025-08-09
Авторы:
Xilun Chen, Ilia Kulikov, Vincent-Pierre Berges, Barlas Oğuz, Rulin Shao, Gargi Ghosh, Jason Weston, Wen-tau Yih
Резюме на русском
Ло LLM модели с возможностью вывода сложности (Reasoning Large Language Models, R-LLMs) достигли значительных успехов в выполнении задач, но часто сталкиваются с проблемой выдачи неточной информации (hallucination). Эта проблема соблюдается особенно часто при решении задач, требующих длинных ответов с высокой фактической точностью. Ранее использовавшаяся в online RL на таких задачах функция награды оказалась эффективной в обучении моделей, но приводила к нежелательному поведению, такому как генерация менее подробных или не отвечающих вопросу ответов. В статье предлагается новый подход к формированию функции награды, который учитывает фактическую точность, детализацию ответа и его адекватность запросу. Эта функция применяется в сочетании с online RL для обучения моделей, значительно повышающих фактическую точность ответов. На шести длинных задачах фактической точности реализованные модели показали среднюю снижение халлуцинаций на 23.1%, увеличение детализации ответов на 23% и незначительный падение уровня помощности ответов.
Abstract
Reasoning Large Language Models (R-LLMs) have significantly advanced complex
reasoning tasks but often struggle with factuality, generating substantially
more hallucinations than their non-reasoning counterparts on long-form
factuality benchmarks. However, extending online Reinforcement Learning (RL), a
key component in recent R-LLM advancements, to the long-form factuality setting
poses several unique challenges due to the lack of reliable verification
methods. Previous work has utilized automatic factuality evaluation frameworks
such as FActScore to curate preference data in the offline RL setting, yet we
find that directly leveraging such methods as the reward in online RL leads to
reward hacking in multiple ways, such as producing less detailed or relevant
responses. We propose a novel reward function that simultaneously considers the
factual precision, response detail level, and answer relevance, and applies
online RL to learn high quality factual reasoning. Evaluated on six long-form
factuality benchmarks, our factual reasoning model achieves an average
reduction of 23.1 percentage points in hallucination rate, a 23% increase in
answer detail level, and no degradation in the overall response helpfulness.
Ссылки и действия
Дополнительные ресурсы: