Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information
2508.11252v1
cs.AI, cs.CL, cs.IR
2025-08-19
Авторы:
Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei
Резюме на русском
## Контекст
Исследование функциональных возможностей Large Reasoning Models (LRMs) в области математики остается актуальным в связи с их успехами в задачах решения математических задач. Однако существующие бенчмарки, ориентированные на проверку решения явно заданных математических задач, скрывают суть истинного интеллектуального поведения. Настоящий интеллектуальный агент должен не только решать задачи, но и способен задавать вопросы, когда задача не хватает информации. Такой функционал отсутствует у LRMs, что становится критическим элементом в их развитии. Этот пробел мотивирует разработку новых подходов к их проверке и развитию.
## Метод
Для анализа возможностей LRMs разработана новая датасет, содержащий две категории неполных задач с различными контекстами. Эти задачи были разработаны с целью проверки возможности LRMs уверенно задавать вопросы в ситуациях неопределенности. Методология основывается на создании тестов, которые не только проверяют решение, но и исследуют поведение моделей в ситуациях неопределенности. Это позволило выявить слабые стороны LRMs, такие как переоценка своих возможностей, искаженное понимание задач, и выявить потенциал научных решений.
## Результаты
Эксперименты показали, что LRMs существенно проваливаются в задаче проявления инициативы в ситуации нехватки информации. Они часто прибегают к предположениям или начинают "переоценивать" задачи, что приводит к неточностям. Также было выявлено, что модели склонны к "халлуцинациям", что подтверждает проблемы в их моделировании. Эти результаты направляют нас на место мониторинга и тестирования, чтобы улучшить продуктивность моделей в сложных ситуациях.
## Значимость
Результаты исследования могут быть применены в различных областях, где требуется настоящая интеллектуальная модель, включая вопросы, требующие проявления проактивности и логического поведения. Данные работы открывают новые пути для развития LRMs, которые не только решают задачи, но и взаимодействуют с пользователями, вправляясь в сложные ситуации. Это может повысить ценность LRMs в реальных приложениях, повысив их удобство и эффективность.
## Выводы
Основной вывод заключается в том, что LRMs, несмотря на свои успехи в решении задач, слабо работают в ситуациях, требующих активного взаимодействия с пользователем. Новые модели должны быть разработаны с учетом новых подходов, включая супервайзированный файнтюнинг и более точное моделирование задач. Будущие исследования должны сосредоточиться на преодолении этих проблем для развития истинно интеллектуальных моделей, которые будут проявлять бо
Abstract
Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving
abilities in mathematics, as evaluated by existing benchmarks exclusively on
well-defined problems. However, such evaluation setup constitutes a critical
gap, since a genuine intelligent agent should not only solve problems (as a
math quiz solver), but also be able~to ask for information when the problems
lack sufficient information, enabling proactivity in responding users'
requests. To bridge such gap, we proposes a new dataset consisting of two types
of incomplete problems with diverse contexts. Based on the dataset, our
systematical evaluation of LRMs reveals their inability in proactively asking
for information. In addition, we uncover the behaviors related to overthinking
and hallucination of LRMs, and highlight the potential and challenges of
supervised fine-tuning in learning such ability. We hope to provide new
insights in developing LRMs with genuine intelligence, rather than just solving
problems.
Ссылки и действия
Дополнительные ресурсы: