Answering the Unanswerable Is to Err Knowingly: Analyzing and Mitigating Abstention Failures in Large Reasoning Models

2508.18760v1 cs.AI, cs.CL 2025-08-28
Авторы:

Yi Liu, Xiangyu Liu, Zequn Sun, Wei Hu

Резюме на русском

## Контекст Large reasoning models (LRMs) показали впечатляющие результаты в решении сложных задач, особенно в области интеллектуального анализа и принятия решений. Однако они не всегда справляются с вопросами, которые не имеют четкого ответа, такими как неполные математические задачи или неопределенные ситуации. Такие вопросы требуют от LRMs не только выдавать правильный ответ, но и знать, когда ответить на них невозможно. В настоящей работе мы исследуем проблему неправильного поведения LRMs в отношении таких "неответственных" задач и предлагаем решение, улучшающее надежность и доверие к ним. ## Метод Мы проводим подробный анализ поведения LRMs на задачах, требующих абстенции (отказа от ответа). Используемая методология включает три этапа: 1. **Анализ внутренних механизмов LRMs** для определения моментов, при которых модель понимает, что вопрос не имеет ответа, но всё же пытается ответить. 2. **Исследование связи между внутренними функциями LRMs и их внешним поведением**, включая моделирование ситуаций, где модель склоняется к ответу, хотя не имеет достаточной информации. 3. **Разработка нового метода**, который использует мониторинг внутренней активности модели во время выполнения и вмешательство в процесс принятия решений. ## Результаты Мы проводим эксперименты на различных наборах данных, включая задачи математики, естествознания и глубокого анализа текста. Наши результаты показывают, что LRMs обладают необходимыми способностями для распознавания неответственных задач, но не всегда корректно реагируют на них. Наш новый подход увеличивает частоту отказов от ответов (abstention rate) без существенного снижения общей точности. Это демонстрирует улучшение надежности LRMs в ситуациях, требующих осторожности. ## Значимость Наша работа может быть применена в сферах, где надежность моделей критична, таких как финансы, медицина и решение юридических задач. Улучшение моделей в тех областях, где ответы на задачи не всегда ясны, повысит доверие к использованию LRMs в реальной жизни. Это также открывает возможности для развития новых методов, которые сделают модели более интеллектуальной и устойчивой к ошибкам. ## Выводы Мы демонстрируем, что LRMs могут быть обучены более достоверно отказываться от ответов на неответственные вопросы. Наш подход демонстрирует значительное улучшение в отказах от ответов, сохраняя производительность. Для будущих исследований мы планируем расширить применение этого метода к другим типам задач и внедрить эти технологии в системы с более широким спектром приложений.

Abstract

Large reasoning models (LRMs) have shown remarkable progress on complex reasoning tasks. However, some questions posed to LRMs are inherently unanswerable, such as math problems lacking sufficient conditions. We find that LRMs continually fail to provide appropriate abstentions when confronted with these unanswerable questions. In this paper, we systematically analyze, investigate, and resolve this issue for trustworthy AI. We first conduct a detailed analysis of the distinct response behaviors of LRMs when facing unanswerable questions. Then, we show that LRMs possess sufficient cognitive capabilities to recognize the flaws in these questions. However, they fail to exhibit appropriate abstention behavior, revealing a misalignment between their internal cognition and external response. Finally, to resolve this issue, we propose a lightweight, two-stage method that combines cognitive monitoring with inference-time intervention. Experimental results demonstrate that our method significantly improves the abstention rate while maintaining the overall reasoning performance.

Ссылки и действия