A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models

2509.03871v1 cs.CL, cs.AI, cs.CR 2025-09-06

Авторы:

Yanbo Wang, Yongcan Yu, Jian Liang, Ran He

Резюме на русском

#### Контекст С появлением Long-CoT (Chain-of-Thought) парадигмы, трансформерные модели естественного языка (LLM) показали существенные улучшения в задачах языкового понимания, решения сложных проблем и генерации кода. Эта технология позволяет моделям формировать последовательность интерпретируемых рассуждений, что улучшает как точность, так и понятность результатов. Однако, несмотря на эти достижения, глубокое понимание влияния CoT-based reasoning на доверительность моделей остается недостаточно развитым. В этом исследовании мы предлагаем комплексный обзор последних исследований в области CoT-based reasoning, сфокусированных на таких ключевых аспектах доверительности, как правдивость, безопасность, устойчивость, справедливость и конфиденциальность. #### Метод Мы проводим подробный анализ существующих моделей и методов CoT-based reasoning, опираясь на пять основных аспектов доверительности: правдивость, безопасность, устойчивость, справедливость и конфиденциальность. Для каждого аспекта мы предлагаем структурированный обзор последних исследований в порядке их появления, включая описание методов, результатов и оценку ограничений каждого подхода. Методология основывается на визуальной и системной синтезированной обработке данных для обеспечения четкости и глубины анализа. #### Результаты Мы проводим эксперименты с использованием различных наборов данных, направленных на оценку различных аспектов доверительности в CoT-based reasoning. Наши результаты показывают, что хоте бы оценки повышения точности и понятности, модели CoT часто сталкиваются с такими проблемами, как выдача неточной информации, повышенная чувствительность к входным данным и слабая защита от атак. Мы также сравниваем различные подходы между собой и подчеркиваем то, какие из них более эффективны в создании надежных моделей. #### Значимость Наш обзор имеет решающее значение для развития AI safety и моделей естественного языка. Он позволяет выявить слабые места в CoT-based reasoning, такие как уязвимости в безопасности, недостаточная справедливость и несоответствие конфиденциальности. Эти результаты могут использоваться для создания более надежных моделей, где CoT-based reasoning будет не только улучшать точность, но и увеличивать уровень доверия пользователей. Например, модели могут быть обучены для более точного обнаружения халтурной информации и злоупотребления, а также для повышения устойчивости к атакам. #### Выводы Мы систематизируем современные наработки в области доверительности в CoT-based reasoning и подчеркиваем, что, несмотря на прогресс в улучшении точности и понятности, существуют серьезные проблемы в безопасност

Abstract

The development of Long-CoT reasoning has advanced LLM performance across various tasks, including language understanding, complex problem solving, and code generation. This paradigm enables models to generate intermediate reasoning steps, thereby improving both accuracy and interpretability. However, despite these advancements, a comprehensive understanding of how CoT-based reasoning affects the trustworthiness of language models remains underdeveloped. In this paper, we survey recent work on reasoning models and CoT techniques, focusing on five core dimensions of trustworthy reasoning: truthfulness, safety, robustness, fairness, and privacy. For each aspect, we provide a clear and structured overview of recent studies in chronological order, along with detailed analyses of their methodologies, findings, and limitations. Future research directions are also appended at the end for reference and discussion. Overall, while reasoning techniques hold promise for enhancing model trustworthiness through hallucination mitigation, harmful content detection, and robustness improvement, cutting-edge reasoning models themselves often suffer from comparable or even greater vulnerabilities in safety, robustness, and privacy. By synthesizing these insights, we hope this work serves as a valuable and timely resource for the AI safety community to stay informed on the latest progress in reasoning trustworthiness. A full list of related papers can be found at \href{https://github.com/ybwang119/Awesome-reasoning-safety}{https://github.com/ybwang119/Awesome-reasoning-safety}.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SGuard-v1: Safety Guardrail for Large Language Models

Toward Cybersecurity-Expert Small Language Models

Pattern Enhanced Multi-Turn Jailbreaking: Exploiting Structural Vulnerabilities ...

LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from ...

A Survey on Agentic Security: Applications, Threats and Defenses

Навигация