A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models
2509.03871v1
cs.CL, cs.AI, cs.CR
2025-09-06
Авторы:
Yanbo Wang, Yongcan Yu, Jian Liang, Ran He
Резюме на русском
#### Контекст
С появлением Long-CoT (Chain-of-Thought) парадигмы, трансформерные модели естественного языка (LLM) показали существенные улучшения в задачах языкового понимания, решения сложных проблем и генерации кода. Эта технология позволяет моделям формировать последовательность интерпретируемых рассуждений, что улучшает как точность, так и понятность результатов. Однако, несмотря на эти достижения, глубокое понимание влияния CoT-based reasoning на доверительность моделей остается недостаточно развитым. В этом исследовании мы предлагаем комплексный обзор последних исследований в области CoT-based reasoning, сфокусированных на таких ключевых аспектах доверительности, как правдивость, безопасность, устойчивость, справедливость и конфиденциальность.
#### Метод
Мы проводим подробный анализ существующих моделей и методов CoT-based reasoning, опираясь на пять основных аспектов доверительности: правдивость, безопасность, устойчивость, справедливость и конфиденциальность. Для каждого аспекта мы предлагаем структурированный обзор последних исследований в порядке их появления, включая описание методов, результатов и оценку ограничений каждого подхода. Методология основывается на визуальной и системной синтезированной обработке данных для обеспечения четкости и глубины анализа.
#### Результаты
Мы проводим эксперименты с использованием различных наборов данных, направленных на оценку различных аспектов доверительности в CoT-based reasoning. Наши результаты показывают, что хоте бы оценки повышения точности и понятности, модели CoT часто сталкиваются с такими проблемами, как выдача неточной информации, повышенная чувствительность к входным данным и слабая защита от атак. Мы также сравниваем различные подходы между собой и подчеркиваем то, какие из них более эффективны в создании надежных моделей.
#### Значимость
Наш обзор имеет решающее значение для развития AI safety и моделей естественного языка. Он позволяет выявить слабые места в CoT-based reasoning, такие как уязвимости в безопасности, недостаточная справедливость и несоответствие конфиденциальности. Эти результаты могут использоваться для создания более надежных моделей, где CoT-based reasoning будет не только улучшать точность, но и увеличивать уровень доверия пользователей. Например, модели могут быть обучены для более точного обнаружения халтурной информации и злоупотребления, а также для повышения устойчивости к атакам.
#### Выводы
Мы систематизируем современные наработки в области доверительности в CoT-based reasoning и подчеркиваем, что, несмотря на прогресс в улучшении точности и понятности, существуют серьезные проблемы в безопасност
Abstract
The development of Long-CoT reasoning has advanced LLM performance across
various tasks, including language understanding, complex problem solving, and
code generation. This paradigm enables models to generate intermediate
reasoning steps, thereby improving both accuracy and interpretability. However,
despite these advancements, a comprehensive understanding of how CoT-based
reasoning affects the trustworthiness of language models remains
underdeveloped. In this paper, we survey recent work on reasoning models and
CoT techniques, focusing on five core dimensions of trustworthy reasoning:
truthfulness, safety, robustness, fairness, and privacy. For each aspect, we
provide a clear and structured overview of recent studies in chronological
order, along with detailed analyses of their methodologies, findings, and
limitations. Future research directions are also appended at the end for
reference and discussion. Overall, while reasoning techniques hold promise for
enhancing model trustworthiness through hallucination mitigation, harmful
content detection, and robustness improvement, cutting-edge reasoning models
themselves often suffer from comparable or even greater vulnerabilities in
safety, robustness, and privacy. By synthesizing these insights, we hope this
work serves as a valuable and timely resource for the AI safety community to
stay informed on the latest progress in reasoning trustworthiness. A full list
of related papers can be found at
\href{https://github.com/ybwang119/Awesome-reasoning-safety}{https://github.com/ybwang119/Awesome-reasoning-safety}.
Ссылки и действия
Дополнительные ресурсы: