In-Context Algorithm Emulation in Fixed-Weight Transformers

2508.17550v1 cs.LG, cs.AI, stat.ML 2025-08-27

Авторы:

Jerry Yao-Chieh Hu, Hude Liu, Jennifer Yuntong Zhang, Han Liu

Резюме на русском

#### Контекст В последние годы трансформеры стали одним из ключевых инструментов в области обработки естественного языка и других задач машинного обучения. Одним из самых захватывающих аспектов их работы является возможность "вывода по контексту" (in-context learning). Это позволяет трансформерам выполнять задачи, вроде регрессии или вычисления, не прибегая к обучению на новых данных, а просто подстраивая входные данные (промпты). Однако существует небольшая проблема: не всегда понятно, насколько эффективны трансформеры в эмуляции сложных алгоритмов, и возможно ли использовать их как универсальные "программы" без изменения весов. Этот вопрос лежит в основе нашего исследования. #### Метод Мы исследовали минимальную архитектуру трансформера, ограниченную двумя слоями с пулингом и фиксированными весами. Этот минимальный трансформер способен эмулировать широкий класс алгоритмов, включая градиентный спуск и линейную регрессию, с помощью специально сконструированных промптов. Эти промпты являются набором токенов, которые интерпретируются трансформером в виде алгоритмических данных или параметров. Мы доказали, что можно построить промпт, который приведет к точной эмуляции алгоритма с любым уровнем точности, используя только две слои с пулингом и последовательное применение трансформаций. Таким образом, мы установили, что трансформеры могут выполнять алгоритмы с фиксированными весами без изменения внутреннего состояния. #### Результаты Мы провели эксперименты для нескольких алгоритмов, таких как градиентный спуск, линейная регрессия и другие. Наши результаты показали, что трансформер с фиксированными весами может эффективно эмулировать эти алгоритмы с помощью промптов. Мы также изучили точность результатов и обнаружили, что они соответствуют запрошенной точности. Этот подход позволяет трансформерам заменять сложные модели на простую архитектуру с постоянным весом, что значительно упрощает их использование в задачах программирования алгоритмов. #### Значимость Наши результаты имеют значительное значение для области обучения без потери весов (weight-agnostic learning). Мы продемонстрировали, что трансформеры могут эмулировать алгоритмы таких областей, как машинное обучение, вычисления и даже численные решения уравнений. Это делает их универсальными инструментами для решения различных задач, не требуя постоянного обучения. Этот подход также может быть применен в ситуациях, когда необходимо быстро программировать алгоритмы во время выполнения, без дополнительных обучающих э

Abstract

We prove that a minimal Transformer architecture with frozen weights is capable of emulating a broad class of algorithms by in-context prompting. In particular, for any algorithm implementable by a fixed-weight attention head (e.g. one-step gradient descent or linear/ridge regression), there exists a prompt that drives a two-layer softmax attention module to reproduce the algorithm's output with arbitrary precision. This guarantee extends even to a single-head attention layer (using longer prompts if necessary), achieving architectural minimality. Our key idea is to construct prompts that encode an algorithm's parameters into token representations, creating sharp dot-product gaps that force the softmax attention to follow the intended computation. This construction requires no feed-forward layers and no parameter updates. All adaptation happens through the prompt alone. These findings forge a direct link between in-context learning and algorithmic emulation, and offer a simple mechanism for large Transformers to serve as prompt-programmable libraries of algorithms. They illuminate how GPT-style foundation models may swap algorithms via prompts alone, establishing a form of algorithmic universality in modern Transformer models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

In-Context Algorithm Emulation in Fixed-Weight Transformers

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Single-Round Scalable Analytic Federated Learning

Does Flatness imply Generalization for Logistic Loss in Univariate Two-Layer ReL...

Multi-view diffusion geometry using intertwined diffusion trajectories

A Diffusion Model Framework for Maximum Entropy Reinforcement Learning

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainab...

Навигация