Diagnosing Memorization in Chain-of-Thought Reasoning, One Token at a Time
2508.02037v1
cs.CL, cs.AI
2025-08-09
Авторы:
Huihan Li, You Chen, Siyuan Wang, Yixin He, Ninareh Mehrabi, Rahul Gupta, Xiang Ren
Резюме на русском
Большие языковые модели (LLMs) проявляют высокую эффективность в решении рассуждений, но часто страдают от падения качества при небольших изменениях входа. Это особенно заметно в Chain-of-Thought (CoT) решении, где спуражийные запоминания могут привести к ошибкам на промежуточных шагах, приводящим к неверному ответу. Для диагностики этой проблемы предлагается фреймворк STIM (Source-aware Token-level Identification of Memorization), который анализирует каждый токен рассуждения и присваивает его одной из трех категорий запоминания: локальное, среднестепенное или дальностепенное, определяясь по частоте встречаемости в корпусе предварительного тренирования. Исследования показали, что модели в трудных и редких случаях часто полагаются на локальные запоминания, что приводит к ошибкам в 67% токенов. Метрики STIM могут эффективно предсказывать неверные токены на неверных шагах. Таким образом, STIM предоставляет мощный инструмент для диагностики и улучшения логики моделей, применимость которого распространяется на другие задачи структурированного пошагового генерирования.
Abstract
Large Language Models (LLMs) perform well on reasoning benchmarks but often
fail when inputs alter slightly, raising concerns about the extent to which
their success relies on memorization. This issue is especially acute in
Chain-of-Thought (CoT) reasoning, where spurious memorized patterns can trigger
intermediate errors that cascade into incorrect final answers. We introduce
STIM, a novel framework for Source-aware Token-level Identification of
Memorization, which attributes each token in a reasoning chain to one of
multiple memorization sources - local, mid-range, or long-range - based on
their statistical co-occurrence with the token in the pretraining corpus. Our
token-level analysis across tasks and distributional settings reveals that
models rely more on memorization in complex or long-tail cases, and that local
memorization is often the dominant driver of errors, leading to up to 67% of
wrong tokens. We also show that memorization scores from STIM can be effective
in predicting the wrong tokens in the wrong reasoning step. STIM offers a
powerful tool for diagnosing and improving model reasoning and can generalize
to other structured step-wise generation tasks.
Ссылки и действия
Дополнительные ресурсы: