Deliberative Reasoning Network: An Uncertainty-Driven Paradigm for Belief-Tracked Inference with Pretrained Language Models

2508.04339v1 cs.AI 2025-08-09

Авторы:

Anran Xu, Jincheng Wang, Baigen Cai, Tao Wen

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Большие языковые модели (LLMs) достигли впечатляющих результатов в задачах естественного языка, однако они часто сталкиваются с трудностями в логическом резонировании, особенно когда семантические гейзинги конфликтуют с решающими факторами. Это явление, которое авторы называют "когнитивными ловушками", приводит к недостаточной логической согласованности ответов моделей. Традиционные подходы к резонированию основаны на максимизации вероятности ответов, что может привести к недостаточной учету противоречивых или неоднозначных доказательств. Ключевая проблема заключается в том, что существующие модели не в состоянии эффективно отслеживать состояния убеждений (belief states) и оценивать неопределенность (epistemic uncertainty) при проведении логических выводов. Это ограничивает их способность к интерпретируемому и надежному резонированию, особенно в ситуациях, где необходимо учитывать контекстуальные и конфликтующие доказательства. Мотивацией для разработки нового подхода является необходимость создания моделей, способных проводить более консистентный и интерпретируемый логический вывод, особенно в сложных или противоречивых ситуациях. Авторы предлагают переосмыслить задачу логического резонирования как процесс минимизации неопределенности, а не максимизации вероятности, что позволяет сосредоточиться на внутренней согласованности доказательств. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают **Deliberative Reasoning Network (DRN)**, новый парадигматический подход к логическому резонированию, основанный на минимизации неопределенности. DRN представляет собой систему, которая явно отслеживает состояния убеждений (belief states) и выполняет итеративный процесс синтеза доказательств для оценки консистентности и неопределенности различных гипотез. Для реализации этой концепции предложены две комплементарные архитектуры: 1. **Беспечная дискриминативная модель**, которая прямо воплощает принципы минимизации неопределенности. 2. **Легковесный верификационный модуль**, который может быть интегрирован в существующие генеративные модели, такие как Mistral-7B, для улучшения их способности к логическому резонированию. DRN оперирует на основе следующих принципов: - **Явное отслеживание убеждений**: модель динамически обновляет состояния убеждений в процессе анализа доказательств. - **Количественная оценка неопределенности**: DRN использует метрики неопределенности для определения наиболее консистентной гипотезы. - **Итеративный синтез доказательств**: модель последовательно анализирует и объединяет доказательства, стремясь к наиболее логически консистентному выводу. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности DRN авторы разработали новый бенчмарк **LCR-1000**, специально созданный для выявления "когнитивных ловушек". Эксперименты показали, что беспечная дискриминативная модель DRN достигает улучшения результатов до 15,2% по сравнению со стандартными базовыми моделями. Кроме того, когда DRN использовался в качестве верификатора для Mistral-7B, точность модели в решении самых сложных задач выросла с 20% до 80%. Это демонстрирует высокую эффективность интеграции DRN в качестве параметрически эффективного дополнения к существующим генеративным моделям. DRN также демострирует **сильную нуль-шот генерализацию**, улучшив результаты на датасете TruthfulQA без дополнительного обучения на 23,6%. Это показывает, что универсальные принципы резонирования, основанные на минимизации неопределенности, могут эффективно переноситься на различные задачи. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод DRN имеет широкое применение в областях, требующих надежного и интерпретируемого логического резонирования. Это может включать задачи в областях медицины, финансов, юриспруденции и других сферах, где важно обеспечить высокую точность и консистентность выводов. Преимущества DRN включают: - **Интерпретируемость**: явное отслеживание убеждений и неопределенности позволяет пользователям понимать процесс принятия решений. - **Эффективность**: легковесный верификатор может быть легко интегрирован в существующие модели без значительного увеличения их размера. - **Универсальность**: способность DRN к нуль-шот генерализации демонстрирует его потенциал для решения различных задач без необходимости дополнительного обучения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Deliberative Reasoning Network (DRN) представляет собой инновационный подход к логическому резонированию, основанный на принципе минимизации неопределенности. Результаты экспериментов показывают, что DRN может значительно улучшить точность и консистентность выводов языковых моделей, особенно в ситуациях, где требуется учет противоречивых доказательств. В будущем могут быть исследованы дополнительные способы интеграции DRN в различные модели и приложения, а также расширение его возможностей для решения более широкого круга задач. DRN может стать ключевым компонентом для создания более надежных и доверительных искусственных интеллектуальных систем.

Abstract

Large language models often fail at logical reasoning when semantic heuristics conflict with decisive evidence - a phenomenon we term cognitive traps. To address this fundamental limitation, we introduce the Deliberative Reasoning Network (DRN), a novel paradigm that reframes logical reasoning from probability maximization to uncertainty minimization. Instead of asking "Which answer is most likely?", DRN asks "Which hypothesis has the most internally consistent evidence?". DRN achieves intrinsic interpretability by explicitly tracking belief states and quantifying epistemic uncertainty for competing hypotheses through an iterative evidence synthesis process. We validate our approach through two complementary architectures - a bespoke discriminative model that embodies the core uncertainty minimization principle, and a lightweight verification module that enhances existing generative LLMs. Evaluated on LCR-1000, our new adversarial reasoning benchmark designed to expose cognitive traps, the bespoke DRN achieves up to 15.2% improvement over standard baselines. When integrated as a parameter-efficient verifier with Mistral-7B, our hybrid system boosts accuracy from 20% to 80% on the most challenging problems. Critically, DRN demonstrates strong zero-shot generalization, improving TruthfulQA performance by 23.6% without additional training, indicating that uncertainty-driven deliberation learns transferable reasoning principles. We position DRN as a foundational, verifiable System 2 reasoning component for building more trustworthy AI systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Deliberative Reasoning Network: An Uncertainty-Driven Paradigm for Belief-Tracked Inference with Pretrained Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Executable Governance for AI: Translating Policies into Rules Using LLMs

Solving LLM Repetition Problem in Production: A Comprehensive Study of Multiple ...

BiTAgent: A Task-Aware Modular Framework for Bidirectional Coupling between Mult...

SlideGen: Collaborative Multimodal Agents for Scientific Slide Generation

GTM: Simulating the World of Tools for AI Agents

Навигация