In-Context Algorithm Emulation in Fixed-Weight Transformers
2508.17550v1
cs.LG, cs.AI, stat.ML
2025-08-27
Авторы:
Jerry Yao-Chieh Hu, Hude Liu, Jennifer Yuntong Zhang, Han Liu
Резюме на русском
#### Контекст
В последние годы трансформеры стали одним из ключевых инструментов в области обработки естественного языка и других задач машинного обучения. Одним из самых захватывающих аспектов их работы является возможность "вывода по контексту" (in-context learning). Это позволяет трансформерам выполнять задачи, вроде регрессии или вычисления, не прибегая к обучению на новых данных, а просто подстраивая входные данные (промпты). Однако существует небольшая проблема: не всегда понятно, насколько эффективны трансформеры в эмуляции сложных алгоритмов, и возможно ли использовать их как универсальные "программы" без изменения весов. Этот вопрос лежит в основе нашего исследования.
#### Метод
Мы исследовали минимальную архитектуру трансформера, ограниченную двумя слоями с пулингом и фиксированными весами. Этот минимальный трансформер способен эмулировать широкий класс алгоритмов, включая градиентный спуск и линейную регрессию, с помощью специально сконструированных промптов. Эти промпты являются набором токенов, которые интерпретируются трансформером в виде алгоритмических данных или параметров. Мы доказали, что можно построить промпт, который приведет к точной эмуляции алгоритма с любым уровнем точности, используя только две слои с пулингом и последовательное применение трансформаций. Таким образом, мы установили, что трансформеры могут выполнять алгоритмы с фиксированными весами без изменения внутреннего состояния.
#### Результаты
Мы провели эксперименты для нескольких алгоритмов, таких как градиентный спуск, линейная регрессия и другие. Наши результаты показали, что трансформер с фиксированными весами может эффективно эмулировать эти алгоритмы с помощью промптов. Мы также изучили точность результатов и обнаружили, что они соответствуют запрошенной точности. Этот подход позволяет трансформерам заменять сложные модели на простую архитектуру с постоянным весом, что значительно упрощает их использование в задачах программирования алгоритмов.
#### Значимость
Наши результаты имеют значительное значение для области обучения без потери весов (weight-agnostic learning). Мы продемонстрировали, что трансформеры могут эмулировать алгоритмы таких областей, как машинное обучение, вычисления и даже численные решения уравнений. Это делает их универсальными инструментами для решения различных задач, не требуя постоянного обучения. Этот подход также может быть применен в ситуациях, когда необходимо быстро программировать алгоритмы во время выполнения, без дополнительных обучающих э
Abstract
We prove that a minimal Transformer architecture with frozen weights is
capable of emulating a broad class of algorithms by in-context prompting. In
particular, for any algorithm implementable by a fixed-weight attention head
(e.g. one-step gradient descent or linear/ridge regression), there exists a
prompt that drives a two-layer softmax attention module to reproduce the
algorithm's output with arbitrary precision. This guarantee extends even to a
single-head attention layer (using longer prompts if necessary), achieving
architectural minimality. Our key idea is to construct prompts that encode an
algorithm's parameters into token representations, creating sharp dot-product
gaps that force the softmax attention to follow the intended computation. This
construction requires no feed-forward layers and no parameter updates. All
adaptation happens through the prompt alone. These findings forge a direct link
between in-context learning and algorithmic emulation, and offer a simple
mechanism for large Transformers to serve as prompt-programmable libraries of
algorithms. They illuminate how GPT-style foundation models may swap algorithms
via prompts alone, establishing a form of algorithmic universality in modern
Transformer models.
Ссылки и действия
Дополнительные ресурсы: