OptimalThinkingBench: Evaluating Over and Underthinking in LLMs

2508.13141v1 cs.CL, cs.LG 2025-08-20

Авторы:

Pranjal Aggarwal, Seungone Kim, Jack Lanchantin, Sean Welleck, Jason Weston, Ilia Kulikov, Swarnadeep Saha

Резюме на русском

#### Контекст Современные языковые модели трансформеров (LLMs) отличаются по способности к "мышлению" — то есть, к эффективному решению сложных задач. Мышление в LLMs позволяет им решать задачи, требующие высокого уровня рационального анализа, но при этом может привести к "перерасчету" (overthinking) на простых задачах, что увеличивает время обработки и затраты ресурсов. Невзирая на это, невзвешенные (non-thinking) модели, которые эффективно решают простые задачи, часто не могут справиться с более сложными задачами, требующими мышления. Это сужает подходы к использованию LLMs, так как разработка отдельных моделей для "мышления" и "немышления" создает сложности для пользователя, который должен выбирать подходящую модель для каждого запроса. Наша мотивация заключается в разработке б BENCHMARK, который бы оценивал значение "мышления" для объединения этих двух подходов в одном решении. #### Метод Мы предлагаем **OptimalThinkingBench**, многомерный бенчмарк, который учитывает оба аспекта — overthinking и underthinking. Он состоит из двух подмножеств: OverthinkingBench, которое оценивает простоту задач в 72 различных областях, и UnderthinkingBench, которое детализирует 11 сложных задач, требующих мышления. В качестве метрик используются новые методы, измеряющие "thinking-adjusted accuracy", которые учитывают вклад логического мышления в эффективность решения задач. Мы проводим эксперименты с 33 моделями, включая обычные (non-thinking) и мышлющие (thinking) варианты, для оценки их поведения в различных ситуациях. #### Результаты Исследования показали, что ни одна из изучаемых моделей не получает оптимальные результаты во всех условиях нашего бенчмарка. Мышлющие модели часто "перерасчитывают" (overthink) простые задачи, выделяя немеренное количество ресурсов без улучшения результатов. Невзвешенные модели, в свою очередь, не в состоянии решить трудные задачи, требующие мышления. Мы также проверяли несколько методов для повышения "оптимального мышления", но обнаружили, что эти методы часто улучшают результаты только на одном из подмножеств, без обеспечения оптимального решения в целом. #### Значимость Наша работа может быть применена во многих областях, где требуется компромисс между производительностью и эффективностью — например, в образовательных системах, здравоохранении и системах рекомендаций. Она демонстрирует важность создания моделей, которые могут принимать оптимальные решения, не перерасходя ресурсы в ненужных ситуациях. Благодаря OptimalThinkingBench, разработчики могут работать над моделями, которые бы оптимально сбалансировали "мышление" и "немышление", чтобы повысить эффективность и экономику ресурсов. #### Выводы Мы показали, что с

Abstract

Thinking LLMs solve complex tasks at the expense of increased compute and overthinking on simpler problems, while non-thinking LLMs are faster and cheaper but underthink on harder reasoning problems. This has led to the development of separate thinking and non-thinking LLM variants, leaving the onus of selecting the optimal model for each query on the end user. In this work, we introduce OptimalThinkingBench, a unified benchmark that jointly evaluates overthinking and underthinking in LLMs and also encourages the development of optimally-thinking models that balance performance and efficiency. Our benchmark comprises two sub-benchmarks: OverthinkingBench, featuring simple queries in 72 domains, and UnderthinkingBench, containing 11 challenging reasoning tasks. Using novel thinking-adjusted accuracy metrics, we perform extensive evaluation of 33 different thinking and non-thinking models and show that no model is able to optimally think on our benchmark. Thinking models often overthink for hundreds of tokens on the simplest user queries without improving performance. In contrast, large non-thinking models underthink, often falling short of much smaller thinking models. We further explore several methods to encourage optimal thinking, but find that these approaches often improve on one sub-benchmark at the expense of the other, highlighting the need for better unified and optimal models in the future.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

OptimalThinkingBench: Evaluating Over and Underthinking in LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация