All for One: LLMs Solve Mental Math at the Last Token With Information Transferred From Other Tokens

2509.09650v1 cs.CL, I.2.7 2025-09-13
Авторы:

Siddarth Mamidanna, Daking Rai, Ziyu Yao, Yilun Zhou

Резюме на русском

#### Контекст Large language models (LLMs) отличаются своей широкой профессиональностью в решении различных задач, включая вычислительные. Однако механизмы, позволяющие им так эффективно работать, до сих пор невнятны. Исходя из теории, возможности каждого токена обращаться к данным, обработанным в предшествующих токенах, обеспечивается с помощью слоев самообратимого внимания и полносвязных слоев. Однако на практике вопрос о том, насколько эти процессы реализованы, остается открытым. Наше исследование фокусируется на ментальных задачах математики (то есть, считании чисел непосредственно в процессе вывода следующего токена, без использования прямого рассуждения) для изучения механизмов, которые позволяют LLMs решать такие задачи. #### Метод Мы применяем предложенные техники Context-Aware Mean Ablation (CAMA) и Attention-Based Peeking (ABP) для исследования поведения LLMs в задачах математического считания. CAMA позволяет определить, какие токены в фактическом выполнении отвечают за вычисления, а ABP позволяет проверить, как именно информация передается между токенами в разных слоях. Эти техники позволяют определить, что во внутренней архитектуре LLMs существует специфический подграф (All-for-One, AF1), в котором вычисления происходят поздно, только в последнем токене, и только после того, как информация перенесена из определенных слоев среднего уровня. #### Результаты Мы проводим эксперименты с различными моделями и математическими выражениями, используя CAMA и ABP для выявления AF1. Мы обнаружили, что этот подграф важен для повышения производительности моделей и является необходимым и достаточным условием для высокого качества решения задач математического считания. Мы также находим, что AF1 не только работает на одной модели, но и может быть перенесен на другие модели с различными архитектурами, а также способен работать на разных видах входных данных. Это демонстрирует свойство общей переносимости и эффективности AF1. #### Значимость Наши результаты демонстрируют, что LLMs имеют не только широкую обобщающую способность, но и возможность выполнять вычисления с высокой эффективностью, где все основные вычисления происходят в самом конце процесса. Это может быть применено в различных областях, включая решение задач в реальном времени, где модели должны быстро реагировать и предоставлять результаты. Это также открывает путь для дальнейшего изучения и оптимизации подграфов AF1, что может помочь в улучшении производительности LLMs в других видах вычислительных задач. #### Выводы Мы показали, что в LLMs существует специфическое подмножество токенов, отвечающих за большую часть вычислений, и это происходит только в последнем токене. Мы также у

Abstract

Large language models (LLMs) demonstrate proficiency across numerous computational tasks, yet their inner workings remain unclear. In theory, the combination of causal self-attention and multilayer perceptron layers allows every token to access and compute information based on all preceding tokens. In practice, to what extent are such operations present? In this paper, on mental math tasks (i.e., direct math calculation via next-token prediction without explicit reasoning), we investigate this question in three steps: inhibiting input-specific token computations in the initial layers, restricting the routes of information transfer across token positions in the next few layers, and forcing all computation to happen at the last token in the remaining layers. With two proposed techniques, Context-Aware Mean Ablation (CAMA) and Attention-Based Peeking (ABP), we identify an All-for-One subgraph (AF1) with high accuracy on a wide variety of mental math tasks, where meaningful computation occurs very late (in terms of layer depth) and only at the last token, which receives information of other tokens in few specific middle layers. Experiments on a variety of models and arithmetic expressions show that this subgraph is sufficient and necessary for high model performance, transfers across different models, and works on a variety of input styles. Ablations on different CAMA and ABP alternatives reveal their unique advantages over other methods, which may be of independent interest.

Ссылки и действия