What Matters More For In-Context Learning under Matched Compute Budgets: Pretraining on Natural Text or Incorporating Targeted Synthetic Examples?
2509.22947v1
cs.CL, cs.AI, cs.LG
2025-10-01
Авторы:
Mohammed Sabry, Anya Belz
Резюме на русском
#### Контекст
В последние годы в области глубокого обучения наблюдается растущий интерес к вопросу о том, насколько эффективны различные подходы к обучению моделей естественного языка. Одной из актуальных проблем является оптимизация возможностей in-context learning (ICL), которая заключается в использовании моделей естественного языка для решения задач на основе контекста, не затрачивая дополнительных вычислительных ресурсов. Несмотря на выдающиеся достижения, возрастающий размер моделей и потребление ресурсов приводят к вопросам о том, какие приемлемые свойства моделей должны развиваться во время обучения. В частности, возникает вопрос о том, какой тип данных — натуральный текст или синтетические целенаправленные примеры — более эффективен для развития возможностей ICL при ограничении вычислительных бюджетов. Какие стратегии обучения могут ускорить возникновение индуктивных механизмов и улучшить эффективность ICL?
#### Метод
Чтобы расследовать эту проблему, авторы предлагают Bi-Induct — новую методику, которая включает в себя специальный курс для моделей естественного языка. Этот курс включает в себя три типа данных для обучения: forward-copy (Induction), backward-copy (Anti) и их смесь. Эти данные вставляются в процесс обучения с целью стимулировать развитие индуктивных механизмов. Модели обучаются в диапазоне от 0.13B до 1B параметров, при этом количество вычислительных операций (иso-FLOPs) сохраняется постоянным для каждого размера. Результаты оцениваются на нескольких наборах данных: (i) в тех задачах, требующих нескольких примеров обучения, (ii) в задачах, которые измеряют вклад отдельных "голов" (heads) модели в решение задач, и (iii) в задачах языковой моделирования.
#### Результаты
Исследователи выяснили, что Bi-Induct ускоряет процесс возникновения индуктивных механизмов при малых моделях (до 0.13B параметров), но это не всегда приводит к значительным улучшениям в ICL. В стандартных задачах языковой моделирования Bi-Induct демонстрирует результаты, схожие с результатами моделей, обученных на натуральном тексте без синтетических примеров. На задачах, которые требуют более сложного индуктивного поведения, 1B-модель с натуральным текстом показывает лучшие результаты. Анализ стресс-тестов (например, различных методов оценки HITS@1 и HITS@3) показал, что низкая производительность Bi-Induct связана с менее эффективным использованием индуктивных механизмов. Также было выявлено, что погрешность предсказания текста (perplexity) уменьшается с увеличением размера моделей, что указывает на то, что большие модели могут более эффективно воспринимать си
Abstract
Does explicitly exercising the induction circuit during pretraining improve
in-context learning (ICL), or is natural text sufficient when compute is held
constant (iso-FLOPs)? To test whether targeted synthetic data can accelerate
induction-head emergence and enhance ICL, we introduce Bi-Induct, a lightweight
curriculum that injects forward-copy (Induction), backward-copy (Anti), or a
balanced mix into the pretraining stream. We train models from 0.13B to 1B
parameters under iso-FLOPs, evaluating (i) few-shot ICL benchmarks, (ii)
head-level telemetry, and (iii) held-out language modeling perplexity. Our
findings challenge the assumption that early induction circuit activation
directly improves ICL. While Bi-Induct accelerates induction-head emergence at
small scales, this does not consistently yield stronger generalization. On
standard LM benchmarks, Bi-Induct matches natural-only training; on
function-style ICL probes, the 1B natural-only performs best. Stress tests
(e.g., label permutation, HITS@1 vs. HITS@3, 1 vs. 10 shots) preserve these
trends. Telemetry shows larger natural-only models develop broader, earlier
induction heads without explicit induction patterns. Anti-induction data fails
to elicit meaningful activation. Perplexity penalties from synthetic data
shrink with scale, suggesting larger models can absorb non-natural patterns
with minimal cost. Crucially, ablating the top 2% of induction heads degrades
ICL more than random ablations, especially for natural-only models, indicating
more centralized, load-bearing circuits. Bi-Induct variants exhibit more
redundant induction activity, implying different circuit utilization. Overall,
inducing activation is not sufficient: ICL gains depend on these circuits
becoming functionally necessary. These results underscore mechanism-aware
pretraining diagnostics and data mixtures that foster load-bearing, not merely
present, structure.
Ссылки и действия
Дополнительные ресурсы: