Asymptotic Study of In-context Learning with Random Transformers through Equivalent Models

2509.15152v1 stat.ML, cs.LG 2025-09-20

Авторы:

Samet Demir, Zafer Dogan

Резюме на русском

## Контекст Узнайте больше о возможностях асинхронного обучения с помощью трансформеров в области сложной нелинейной регрессии. Особое внимание уделено случаю, когда первая слоя случайно инициализируется и остается неизменной, а вторая слоя обучается. Более того, рассматривается асимптотический режим, в котором контекстная длина, размерность входных данных, размерность скрытого слоя, количество задач обучения и количество выборок обучения постепенно увеличиваются. В этом контексте мы рассматриваем то, как случайный трансформер с нелинейной моделью MLP может подходить к решению задач ин-контекстного обучения. Это важно для понимания, как пространство моделей и асимптотические условия влияют на качество обучения. ## Метод Мы используем асимптотический подход, в котором слои трансформера случайно инициализируются, а параметры обучения строго регулируются. Основная модель является нелинейной, используя первый слой, который неизменен, а второй слой, который обучается. Мы используем визуализацию и симуляции для проверки того, как размеры, активационные функции и регуляризационные методы влияют на поведение модели в среде асимптотического регрессионного обучения. Это позволяет понять, почему модель работает так, как работает, и как можно улучшить ее производительность в задачах регрессии. ## Результаты Мы проводим эксперименты с разными размерами контекста, размерностями скрытого слоя и регуляризационными методами. Мы наблюдаем "двойное дескентное явление" (double descent phenomenon), когда модель становится точнее при увеличении размера входных данных и скрытого слоя. Мы также показываем, как различные активационные функции и регуляризаторы влияют на ошибку ICL. Эти результаты позволяют нам лучше понять, как трансформеры вносят улучшения в качество решения в задачах регрессии в асимптотических условиях. ## Значимость Наша работа имеет значение в теоретической и практической области. Она позволяет понять, как трансформеры повышают качество обучения в задачах регрессии, а также как увеличение размерности модели и контекста влияет на производительность. Мы также открываем возможность использования этих наблюдений для будущих исследований в области машинного обучения и ин-контекстного обучения с нелинейными моделями. ## Выводы Мы показали, что случайный трансформер с нелинейной моделью MLP может быть эффективно использован для решения задач регрессии с помощью ин-контекстного обучения. Наша работа открывает путь к дальнейшим исследованиям в области масштабируемости трансформеров и их влияния на качество решения в задачах регрессии в асимптотических условиях. Будущий

Abstract

We study the in-context learning (ICL) capabilities of pretrained Transformers in the setting of nonlinear regression. Specifically, we focus on a random Transformer with a nonlinear MLP head where the first layer is randomly initialized and fixed while the second layer is trained. Furthermore, we consider an asymptotic regime where the context length, input dimension, hidden dimension, number of training tasks, and number of training samples jointly grow. In this setting, we show that the random Transformer behaves equivalent to a finite-degree Hermite polynomial model in terms of ICL error. This equivalence is validated through simulations across varying activation functions, context lengths, hidden layer widths (revealing a double-descent phenomenon), and regularization settings. Our results offer theoretical and empirical insights into when and how MLP layers enhance ICL, and how nonlinearity and over-parameterization influence model performance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Asymptotic Study of In-context Learning with Random Transformers through Equivalent Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Comparison of neural network training strategies for the simulation of dynamical...

Informative missingness and its implications in semi-supervised learning

Recurrent Neural Networks with Linear Structures for Electricity Price Forecasti...

Control Consistency Losses for Diffusion Bridges

Foundations of Diffusion Models in General State Spaces: A Self-Contained Introd...

Навигация