Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

2509.06861v1 cs.AI, cs.CL, cs.LG 2025-09-10
Авторы:

James Xu Zhao, Bryan Hooi, See-Kiong Ng

Резюме на русском

#### Контекст Проблема эффективности интерпретации моделей глубокого обучения возникает в рамках развития знаний-интенсивных задач, где точность и отсутствие халлюцинаций (недостоверных ответов) являются критичными. Тест-тайм скалирование (test-time scaling, TTS) позволяет моделям увеличивать вычисления во время инференции, генерируя длинные цепи рассуждений. Несмотря на успех этого подхода в многих областях, в настоящем исследовании мы рассматриваем его неэффективность в знаний-интенсивных задачах. #### Метод Мы проводим оценку TTS на 12 моделях логического рассуждения в двух бенчмарках, характерных для знаний-интенсивных задач. Используемые модели включают модели с различными архитектурами, подходами и способами увеличения вычислительной сложности во время инференции. Мы измеряем точность результатов, частоту халлюцинаций, а также проводим анализ поведения моделей в зависимости от расширенных рассуждений. #### Результаты Наши эксперименты показывают, что TTS не способен постоянно улучшать точность в знаний-интенсивных задачах. В некоторых случаях он даже приводит к увеличению частоты халлюцинаций. Мы обнаружили, что модели часто воздерживаются от ответов при длинных рассуждениях, что приводит к снижению частоты халлюцинаций. Тем не менее, длительное рассуждение может побуждать модели попытаться ответить на вопросы, на которые они ранее отказались отвечать, что приводит к новым халлюцинациям. Были проведены случайные исследования, показавшие, что TTS может вдохновить модели на подтверждение неверных халлюцинаций, что усиливает конфирмационные биазы. #### Значимость Результаты имеют практическое значение для аспирантов, работающих с моделями знаний-интенсивных задач, такими как системы ответа на вопросы, генерация текста и решение задач логического рассуждения. Наше исследование показывает, что TTS может не являться приоритетным подходом для этих задач, несмотря на его полезность в других сферах. Мы также отмечаем, что хотя TTS может повысить точность в некоторых случаях, оно не может быть рассматривано как широко применимый инструмент для улучшения задач знаний-интенсивных. #### Выводы Наши результаты подтверждают, что TTS не является эффективным для знаний-интенсивных задач, несмотря на его успех в других областях. Мы призываем к углубленному исследованию эффективных методов улучшения точности и уменьшения халлюцинаций в знаний-интенсивных моделях. Наша работа открывает путь к будущим исследованиям в области разработки моделей, которые могут более точно и надежно работать в знани

Abstract

Test-time scaling increases inference-time computation by allowing models to generate long reasoning chains, and has shown strong performance across many domains. However, in this work, we show that this approach is not yet effective for knowledge-intensive tasks, where high factual accuracy and low hallucination rates are essential. We conduct a comprehensive evaluation of test-time scaling using 12 reasoning models on two knowledge-intensive benchmarks. Our results reveal that increasing test-time computation does not consistently improve accuracy and, in many cases, it even leads to more hallucinations. We then analyze how extended reasoning affects hallucination behavior. We find that reduced hallucinations often result from the model choosing to abstain after thinking more, rather than from improved factual recall. Conversely, for some models, longer reasoning encourages attempts on previously unanswered questions, many of which result in hallucinations. Case studies show that extended reasoning can induce confirmation bias, leading to overconfident hallucinations. Despite these limitations, we observe that compared to non-thinking, enabling thinking remains beneficial. Code and data are available at https://github.com/XuZhao0/tts-knowledge

Ссылки и действия