Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information

2508.11252v1 cs.AI, cs.CL, cs.IR 2025-08-19

Авторы:

Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei

Резюме на русском

## Контекст Исследование функциональных возможностей Large Reasoning Models (LRMs) в области математики остается актуальным в связи с их успехами в задачах решения математических задач. Однако существующие бенчмарки, ориентированные на проверку решения явно заданных математических задач, скрывают суть истинного интеллектуального поведения. Настоящий интеллектуальный агент должен не только решать задачи, но и способен задавать вопросы, когда задача не хватает информации. Такой функционал отсутствует у LRMs, что становится критическим элементом в их развитии. Этот пробел мотивирует разработку новых подходов к их проверке и развитию. ## Метод Для анализа возможностей LRMs разработана новая датасет, содержащий две категории неполных задач с различными контекстами. Эти задачи были разработаны с целью проверки возможности LRMs уверенно задавать вопросы в ситуациях неопределенности. Методология основывается на создании тестов, которые не только проверяют решение, но и исследуют поведение моделей в ситуациях неопределенности. Это позволило выявить слабые стороны LRMs, такие как переоценка своих возможностей, искаженное понимание задач, и выявить потенциал научных решений. ## Результаты Эксперименты показали, что LRMs существенно проваливаются в задаче проявления инициативы в ситуации нехватки информации. Они часто прибегают к предположениям или начинают "переоценивать" задачи, что приводит к неточностям. Также было выявлено, что модели склонны к "халлуцинациям", что подтверждает проблемы в их моделировании. Эти результаты направляют нас на место мониторинга и тестирования, чтобы улучшить продуктивность моделей в сложных ситуациях. ## Значимость Результаты исследования могут быть применены в различных областях, где требуется настоящая интеллектуальная модель, включая вопросы, требующие проявления проактивности и логического поведения. Данные работы открывают новые пути для развития LRMs, которые не только решают задачи, но и взаимодействуют с пользователями, вправляясь в сложные ситуации. Это может повысить ценность LRMs в реальных приложениях, повысив их удобство и эффективность. ## Выводы Основной вывод заключается в том, что LRMs, несмотря на свои успехи в решении задач, слабо работают в ситуациях, требующих активного взаимодействия с пользователем. Новые модели должны быть разработаны с учетом новых подходов, включая супервайзированный файнтюнинг и более точное моделирование задач. Будущие исследования должны сосредоточиться на преодолении этих проблем для развития истинно интеллектуальных моделей, которые будут проявлять бо

Abstract

Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving abilities in mathematics, as evaluated by existing benchmarks exclusively on well-defined problems. However, such evaluation setup constitutes a critical gap, since a genuine intelligent agent should not only solve problems (as a math quiz solver), but also be able~to ask for information when the problems lack sufficient information, enabling proactivity in responding users' requests. To bridge such gap, we proposes a new dataset consisting of two types of incomplete problems with diverse contexts. Based on the dataset, our systematical evaluation of LRMs reveals their inability in proactively asking for information. In addition, we uncover the behaviors related to overthinking and hallucination of LRMs, and highlight the potential and challenges of supervised fine-tuning in learning such ability. We hope to provide new insights in developing LRMs with genuine intelligence, rather than just solving problems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Are LLMs Truly Multilingual? Exploring Zero-Shot Multilingual Capability of LLMs...

Paper2SysArch: Structure-Constrained System Architecture Generation from Scienti...

Think Before You Retrieve: Learning Test-Time Adaptive Search with Small Languag...

ATOM: AdapTive and OptiMized dynamic temporal knowledge graph construction using...

Deterministic Legal Retrieval: An Action API for Querying the SAT-Graph RAG

Навигация