Answering the Unanswerable Is to Err Knowingly: Analyzing and Mitigating Abstention Failures in Large Reasoning Models
2508.18760v1
cs.AI, cs.CL
2025-08-28
Авторы:
Yi Liu, Xiangyu Liu, Zequn Sun, Wei Hu
Резюме на русском
## Контекст
Large reasoning models (LRMs) показали впечатляющие результаты в решении сложных задач, особенно в области интеллектуального анализа и принятия решений. Однако они не всегда справляются с вопросами, которые не имеют четкого ответа, такими как неполные математические задачи или неопределенные ситуации. Такие вопросы требуют от LRMs не только выдавать правильный ответ, но и знать, когда ответить на них невозможно. В настоящей работе мы исследуем проблему неправильного поведения LRMs в отношении таких "неответственных" задач и предлагаем решение, улучшающее надежность и доверие к ним.
## Метод
Мы проводим подробный анализ поведения LRMs на задачах, требующих абстенции (отказа от ответа). Используемая методология включает три этапа:
1. **Анализ внутренних механизмов LRMs** для определения моментов, при которых модель понимает, что вопрос не имеет ответа, но всё же пытается ответить.
2. **Исследование связи между внутренними функциями LRMs и их внешним поведением**, включая моделирование ситуаций, где модель склоняется к ответу, хотя не имеет достаточной информации.
3. **Разработка нового метода**, который использует мониторинг внутренней активности модели во время выполнения и вмешательство в процесс принятия решений.
## Результаты
Мы проводим эксперименты на различных наборах данных, включая задачи математики, естествознания и глубокого анализа текста. Наши результаты показывают, что LRMs обладают необходимыми способностями для распознавания неответственных задач, но не всегда корректно реагируют на них. Наш новый подход увеличивает частоту отказов от ответов (abstention rate) без существенного снижения общей точности. Это демонстрирует улучшение надежности LRMs в ситуациях, требующих осторожности.
## Значимость
Наша работа может быть применена в сферах, где надежность моделей критична, таких как финансы, медицина и решение юридических задач. Улучшение моделей в тех областях, где ответы на задачи не всегда ясны, повысит доверие к использованию LRMs в реальной жизни. Это также открывает возможности для развития новых методов, которые сделают модели более интеллектуальной и устойчивой к ошибкам.
## Выводы
Мы демонстрируем, что LRMs могут быть обучены более достоверно отказываться от ответов на неответственные вопросы. Наш подход демонстрирует значительное улучшение в отказах от ответов, сохраняя производительность. Для будущих исследований мы планируем расширить применение этого метода к другим типам задач и внедрить эти технологии в системы с более широким спектром приложений.
Abstract
Large reasoning models (LRMs) have shown remarkable progress on complex
reasoning tasks. However, some questions posed to LRMs are inherently
unanswerable, such as math problems lacking sufficient conditions. We find that
LRMs continually fail to provide appropriate abstentions when confronted with
these unanswerable questions. In this paper, we systematically analyze,
investigate, and resolve this issue for trustworthy AI. We first conduct a
detailed analysis of the distinct response behaviors of LRMs when facing
unanswerable questions. Then, we show that LRMs possess sufficient cognitive
capabilities to recognize the flaws in these questions. However, they fail to
exhibit appropriate abstention behavior, revealing a misalignment between their
internal cognition and external response. Finally, to resolve this issue, we
propose a lightweight, two-stage method that combines cognitive monitoring with
inference-time intervention. Experimental results demonstrate that our method
significantly improves the abstention rate while maintaining the overall
reasoning performance.
Ссылки и действия
Дополнительные ресурсы: