Is In-Context Learning Learning?
2509.10414v2
cs.CL, cs.AI, cs.LG
2025-09-16
Авторы:
Adrian de Wynter
Резюме на русском
## Контекст
In-context learning (ICL) позволяет некоторым авторегрессионным моделям решать задачи с помощью next-token prediction без дополнительной обучения. Это привело к утверждениям о способности этих моделей решать невидящие задачи с помощью небольшого числа примеров в подсказке (exemplars). Однако дедукция не всегда означает обучение, так как ICL не явно инкорпорирует полученные наблюдения. Вместо этого модели полагаются на свой предварительный опыт и примеры соответствующие данной задаче. Мы утверждаем, что теоретически ICL может считаться обучением, но его полное характеристирование требует эмпирических исследований. Мы проводим крупномасштабный анализ ICL, учитывая абляционные модели и различные моменты вступления в задачу, включая меморизацию, предварительное обучение, распределения задач и стили подсказок. Мы обнаружили, что ICL является эффективным парадигмой обучения, но ограниченным в способности к обучению и общеприменимой генерализации. Мы отмечаем, что при увеличении числа примеров точность независима от распределения примеров, модели, оформления подсказок и лингвистических черт ввода. Вместо этого она дедуцирует шаблоны из регулярностей в подсказке, что приводит к распределенной чувствительности, особенно в стилях подсказок, таких как chain-of-thought. Несмотря на разные точности в формально похожих задачах, мы приходим к выводу, что ад-хак инкорпорация, предоставляемая потоковыми моделями, не является устойчивым механизмом и указывает на ограниченную мощь общей генерализации.
## Метод
Мы проводим крупномасштабный экспериментальный анализ ICL, используя несколько авторегрессионных моделей с различными техническими возможностями, включая предварительно обученные модели с различными глубинами. Мы подготавливаем наборы данных, покрывающие различные типы задач, включая текстовую классификацию, регрессию и задачи смешанного ввода. Мы проводим эксперименты с различными стилями подсказок, глубинами модели, размерами примеров и разными распределениями примеров. Мы также проводим абляционные эксперименты, убирая формальные элементы, такие как порядок примеров, и несколько типов внешних модификаций, таких как исключение pretraining или введение новых стилей подсказок. Мы измеряем точность решения задач и сравниваем её по отдельности для каждого варианта. Мы также изучаем влияние различных типов модификаций на точность, включая различные оформления подсказок и типы задач.
## Результаты
Мы обнаружили, что ICL эффективно решает задачи с малым числом примеров, но слабо генерализируется на невидящие задачи. Мы обнаружили, что точность зависит от количества примеров, стиля подсказки
Abstract
In-context learning (ICL) allows some autoregressive models to solve tasks
via next-token prediction and without needing further training. This has led to
claims about these model's ability to solve (learn) unseen tasks with only a
few shots (exemplars) in the prompt. However, deduction does not always imply
learning, as ICL does not explicitly encode a given observation. Instead, the
models rely on their prior knowledge and the exemplars given, if any. We argue
that, mathematically, ICL does constitute learning, but its full
characterisation requires empirical work. We then carry out a large-scale
analysis of ICL ablating out or accounting for memorisation, pretraining,
distributional shifts, and prompting style and phrasing. We find that ICL is an
effective learning paradigm, but limited in its ability to learn and generalise
to unseen tasks. We note that, in the limit where exemplars become more
numerous, accuracy is insensitive to exemplar distribution, model, prompt
style, and the input's linguistic features. Instead, it deduces patterns from
regularities in the prompt, which leads to distributional sensitivity,
especially in prompting styles such as chain-of-thought. Given the varied
accuracies on formally similar tasks, we conclude that autoregression's ad-hoc
encoding is not a robust mechanism, and suggests limited all-purpose
generalisability.
Ссылки и действия
Дополнительные ресурсы: