What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains
2508.07208v1
cs.LG, cs.AI
2025-08-13
Авторы:
Chanakya Ekbote, Marco Bondaschi, Nived Rajaraman, Jason D. Lee, Michael Gastpar, Ashok Vardhan Makkuva, Paul Pu Liang
Резюме на русском
#### Контекст
Трансформеры стали ключевым инструментом в области машинного обучения, особенно с возникновением возможности **ин-контекстного обучения (ICL)**. Это способность моделей трансформеров адаптироваться к новым задачах путем использования информации из контекста входных данных. Однако вопрос о том, как эта функциональность возникает в моделях с определенным числом слоёв и взаимоотношении между глубиной модели и её ICL-возможностями, остаётся открытым. Известно, что ICL может проявляться в двухслойных трансформерах с одним заголовком на слой, однако для понимания более широкого класса последовательных моделей, таких как задачи с Markov-структурой, необходимо дальнейшее исследование.
#### Метод
Мы рассматриваем модель, основанную на двухслойном трансформере с одним заголовком на слой, и изучаем её возможность решать задачи с Markov-структурой различного порядка. Мы формализуем задачи последовательностей в терминах Markov-чинов и исследуем, каким образом двухслойная модель может эффективно репрезентовать высокопорядковые Markov-зависимости. Для этого мы проводим теоретические рассуждения и анализируем градиентные динамики в процессе обучения.
#### Результаты
Мы доказываем, что двухслойный трансформер с одним заголовком на каждый слой может эффективно решать задачи с Markov-структурой любого порядка, используя лишь два слоя с одним заголовком. Это достигается благодаря специальным сущностям, называемым **induction heads**, которые выполняют ключевую роль в ICL. Наши эксперименты показывают, что даже такая простая модель может создавать эффективные ICL-репрезентации рандомизированных последовательностей, которые не требуют глубоких архитектур.
#### Значимость
Результаты имеют значение для широкого круга приложений, включая естественно-языковые задачи, анализ последовательностей и рекомендательные системы. Наша модель демонстрирует, что двухслойные трансформеры могут поставлять ICL-возможности, которые ранее считались доступными только для глубинных архитектур. Это не только улучшает эффективность обучения, но и сокращает необходимость в ресурсоемких моделях.
#### Выводы
Мы доказали, что двухслойные трансформеры могут эффективно решать задачи с Markov-структурой любого порядка, показав, что ICL может проявляться даже в глубине двух слоёв. Будущие исследования будут направлены на расширение этих результатов на более сложные модели и анализ динамических свойств двухслойных трансформеров в расширенной среде с Markov-зависимостями.
Abstract
In-context learning (ICL) is a hallmark capability of transformers, through
which trained models learn to adapt to new tasks by leveraging information from
the input context. Prior work has shown that ICL emerges in transformers due to
the presence of special circuits called induction heads. Given the equivalence
between induction heads and conditional k-grams, a recent line of work modeling
sequential inputs as Markov processes has revealed the fundamental impact of
model depth on its ICL capabilities: while a two-layer transformer can
efficiently represent a conditional 1-gram model, its single-layer counterpart
cannot solve the task unless it is exponentially large. However, for higher
order Markov sources, the best known constructions require at least three
layers (each with a single attention head) - leaving open the question: can a
two-layer single-head transformer represent any kth-order Markov process? In
this paper, we precisely address this and theoretically show that a two-layer
transformer with one head per layer can indeed represent any conditional
k-gram. Thus, our result provides the tightest known characterization of the
interplay between transformer depth and Markov order for ICL. Building on this,
we further analyze the learning dynamics of our two-layer construction,
focusing on a simplified variant for first-order Markov chains, illustrating
how effective in-context representations emerge during training. Together,
these results deepen our current understanding of transformer-based ICL and
illustrate how even shallow architectures can surprisingly exhibit strong ICL
capabilities on structured sequence modeling tasks.
Ссылки и действия
Дополнительные ресурсы: