Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet
2509.06861v1
cs.AI, cs.CL, cs.LG
2025-09-10
Авторы:
James Xu Zhao, Bryan Hooi, See-Kiong Ng
Резюме на русском
#### Контекст
Проблема эффективности интерпретации моделей глубокого обучения возникает в рамках развития знаний-интенсивных задач, где точность и отсутствие халлюцинаций (недостоверных ответов) являются критичными. Тест-тайм скалирование (test-time scaling, TTS) позволяет моделям увеличивать вычисления во время инференции, генерируя длинные цепи рассуждений. Несмотря на успех этого подхода в многих областях, в настоящем исследовании мы рассматриваем его неэффективность в знаний-интенсивных задачах.
#### Метод
Мы проводим оценку TTS на 12 моделях логического рассуждения в двух бенчмарках, характерных для знаний-интенсивных задач. Используемые модели включают модели с различными архитектурами, подходами и способами увеличения вычислительной сложности во время инференции. Мы измеряем точность результатов, частоту халлюцинаций, а также проводим анализ поведения моделей в зависимости от расширенных рассуждений.
#### Результаты
Наши эксперименты показывают, что TTS не способен постоянно улучшать точность в знаний-интенсивных задачах. В некоторых случаях он даже приводит к увеличению частоты халлюцинаций. Мы обнаружили, что модели часто воздерживаются от ответов при длинных рассуждениях, что приводит к снижению частоты халлюцинаций. Тем не менее, длительное рассуждение может побуждать модели попытаться ответить на вопросы, на которые они ранее отказались отвечать, что приводит к новым халлюцинациям. Были проведены случайные исследования, показавшие, что TTS может вдохновить модели на подтверждение неверных халлюцинаций, что усиливает конфирмационные биазы.
#### Значимость
Результаты имеют практическое значение для аспирантов, работающих с моделями знаний-интенсивных задач, такими как системы ответа на вопросы, генерация текста и решение задач логического рассуждения. Наше исследование показывает, что TTS может не являться приоритетным подходом для этих задач, несмотря на его полезность в других сферах. Мы также отмечаем, что хотя TTS может повысить точность в некоторых случаях, оно не может быть рассматривано как широко применимый инструмент для улучшения задач знаний-интенсивных.
#### Выводы
Наши результаты подтверждают, что TTS не является эффективным для знаний-интенсивных задач, несмотря на его успех в других областях. Мы призываем к углубленному исследованию эффективных методов улучшения точности и уменьшения халлюцинаций в знаний-интенсивных моделях. Наша работа открывает путь к будущим исследованиям в области разработки моделей, которые могут более точно и надежно работать в знани
Abstract
Test-time scaling increases inference-time computation by allowing models to
generate long reasoning chains, and has shown strong performance across many
domains. However, in this work, we show that this approach is not yet effective
for knowledge-intensive tasks, where high factual accuracy and low
hallucination rates are essential. We conduct a comprehensive evaluation of
test-time scaling using 12 reasoning models on two knowledge-intensive
benchmarks. Our results reveal that increasing test-time computation does not
consistently improve accuracy and, in many cases, it even leads to more
hallucinations. We then analyze how extended reasoning affects hallucination
behavior. We find that reduced hallucinations often result from the model
choosing to abstain after thinking more, rather than from improved factual
recall. Conversely, for some models, longer reasoning encourages attempts on
previously unanswered questions, many of which result in hallucinations. Case
studies show that extended reasoning can induce confirmation bias, leading to
overconfident hallucinations. Despite these limitations, we observe that
compared to non-thinking, enabling thinking remains beneficial. Code and data
are available at https://github.com/XuZhao0/tts-knowledge
Ссылки и действия
Дополнительные ресурсы: