Asymptotic Study of In-context Learning with Random Transformers through Equivalent Models
2509.15152v1
stat.ML, cs.LG
2025-09-20
Авторы:
Samet Demir, Zafer Dogan
Резюме на русском
## Контекст
Узнайте больше о возможностях асинхронного обучения с помощью трансформеров в области сложной нелинейной регрессии. Особое внимание уделено случаю, когда первая слоя случайно инициализируется и остается неизменной, а вторая слоя обучается. Более того, рассматривается асимптотический режим, в котором контекстная длина, размерность входных данных, размерность скрытого слоя, количество задач обучения и количество выборок обучения постепенно увеличиваются. В этом контексте мы рассматриваем то, как случайный трансформер с нелинейной моделью MLP может подходить к решению задач ин-контекстного обучения. Это важно для понимания, как пространство моделей и асимптотические условия влияют на качество обучения.
## Метод
Мы используем асимптотический подход, в котором слои трансформера случайно инициализируются, а параметры обучения строго регулируются. Основная модель является нелинейной, используя первый слой, который неизменен, а второй слой, который обучается. Мы используем визуализацию и симуляции для проверки того, как размеры, активационные функции и регуляризационные методы влияют на поведение модели в среде асимптотического регрессионного обучения. Это позволяет понять, почему модель работает так, как работает, и как можно улучшить ее производительность в задачах регрессии.
## Результаты
Мы проводим эксперименты с разными размерами контекста, размерностями скрытого слоя и регуляризационными методами. Мы наблюдаем "двойное дескентное явление" (double descent phenomenon), когда модель становится точнее при увеличении размера входных данных и скрытого слоя. Мы также показываем, как различные активационные функции и регуляризаторы влияют на ошибку ICL. Эти результаты позволяют нам лучше понять, как трансформеры вносят улучшения в качество решения в задачах регрессии в асимптотических условиях.
## Значимость
Наша работа имеет значение в теоретической и практической области. Она позволяет понять, как трансформеры повышают качество обучения в задачах регрессии, а также как увеличение размерности модели и контекста влияет на производительность. Мы также открываем возможность использования этих наблюдений для будущих исследований в области машинного обучения и ин-контекстного обучения с нелинейными моделями.
## Выводы
Мы показали, что случайный трансформер с нелинейной моделью MLP может быть эффективно использован для решения задач регрессии с помощью ин-контекстного обучения. Наша работа открывает путь к дальнейшим исследованиям в области масштабируемости трансформеров и их влияния на качество решения в задачах регрессии в асимптотических условиях. Будущий
Abstract
We study the in-context learning (ICL) capabilities of pretrained
Transformers in the setting of nonlinear regression. Specifically, we focus on
a random Transformer with a nonlinear MLP head where the first layer is
randomly initialized and fixed while the second layer is trained. Furthermore,
we consider an asymptotic regime where the context length, input dimension,
hidden dimension, number of training tasks, and number of training samples
jointly grow. In this setting, we show that the random Transformer behaves
equivalent to a finite-degree Hermite polynomial model in terms of ICL error.
This equivalence is validated through simulations across varying activation
functions, context lengths, hidden layer widths (revealing a double-descent
phenomenon), and regularization settings. Our results offer theoretical and
empirical insights into when and how MLP layers enhance ICL, and how
nonlinearity and over-parameterization influence model performance.
Ссылки и действия
Дополнительные ресурсы: