All for One: LLMs Solve Mental Math at the Last Token With Information Transferred From Other Tokens
2509.09650v1
cs.CL, I.2.7
2025-09-13
Авторы:
Siddarth Mamidanna, Daking Rai, Ziyu Yao, Yilun Zhou
Резюме на русском
#### Контекст
Large language models (LLMs) отличаются своей широкой профессиональностью в решении различных задач, включая вычислительные. Однако механизмы, позволяющие им так эффективно работать, до сих пор невнятны. Исходя из теории, возможности каждого токена обращаться к данным, обработанным в предшествующих токенах, обеспечивается с помощью слоев самообратимого внимания и полносвязных слоев. Однако на практике вопрос о том, насколько эти процессы реализованы, остается открытым. Наше исследование фокусируется на ментальных задачах математики (то есть, считании чисел непосредственно в процессе вывода следующего токена, без использования прямого рассуждения) для изучения механизмов, которые позволяют LLMs решать такие задачи.
#### Метод
Мы применяем предложенные техники Context-Aware Mean Ablation (CAMA) и Attention-Based Peeking (ABP) для исследования поведения LLMs в задачах математического считания. CAMA позволяет определить, какие токены в фактическом выполнении отвечают за вычисления, а ABP позволяет проверить, как именно информация передается между токенами в разных слоях. Эти техники позволяют определить, что во внутренней архитектуре LLMs существует специфический подграф (All-for-One, AF1), в котором вычисления происходят поздно, только в последнем токене, и только после того, как информация перенесена из определенных слоев среднего уровня.
#### Результаты
Мы проводим эксперименты с различными моделями и математическими выражениями, используя CAMA и ABP для выявления AF1. Мы обнаружили, что этот подграф важен для повышения производительности моделей и является необходимым и достаточным условием для высокого качества решения задач математического считания. Мы также находим, что AF1 не только работает на одной модели, но и может быть перенесен на другие модели с различными архитектурами, а также способен работать на разных видах входных данных. Это демонстрирует свойство общей переносимости и эффективности AF1.
#### Значимость
Наши результаты демонстрируют, что LLMs имеют не только широкую обобщающую способность, но и возможность выполнять вычисления с высокой эффективностью, где все основные вычисления происходят в самом конце процесса. Это может быть применено в различных областях, включая решение задач в реальном времени, где модели должны быстро реагировать и предоставлять результаты. Это также открывает путь для дальнейшего изучения и оптимизации подграфов AF1, что может помочь в улучшении производительности LLMs в других видах вычислительных задач.
#### Выводы
Мы показали, что в LLMs существует специфическое подмножество токенов, отвечающих за большую часть вычислений, и это происходит только в последнем токене. Мы также у
Abstract
Large language models (LLMs) demonstrate proficiency across numerous
computational tasks, yet their inner workings remain unclear. In theory, the
combination of causal self-attention and multilayer perceptron layers allows
every token to access and compute information based on all preceding tokens. In
practice, to what extent are such operations present? In this paper, on mental
math tasks (i.e., direct math calculation via next-token prediction without
explicit reasoning), we investigate this question in three steps: inhibiting
input-specific token computations in the initial layers, restricting the routes
of information transfer across token positions in the next few layers, and
forcing all computation to happen at the last token in the remaining layers.
With two proposed techniques, Context-Aware Mean Ablation (CAMA) and
Attention-Based Peeking (ABP), we identify an All-for-One subgraph (AF1) with
high accuracy on a wide variety of mental math tasks, where meaningful
computation occurs very late (in terms of layer depth) and only at the last
token, which receives information of other tokens in few specific middle
layers. Experiments on a variety of models and arithmetic expressions show that
this subgraph is sufficient and necessary for high model performance, transfers
across different models, and works on a variety of input styles. Ablations on
different CAMA and ABP alternatives reveal their unique advantages over other
methods, which may be of independent interest.
Ссылки и действия
Дополнительные ресурсы: