What Matters More For In-Context Learning under Matched Compute Budgets: Pretraining on Natural Text or Incorporating Targeted Synthetic Examples?

2509.22947v1 cs.CL, cs.AI, cs.LG 2025-10-01
Авторы:

Mohammed Sabry, Anya Belz

Резюме на русском

#### Контекст В последние годы в области глубокого обучения наблюдается растущий интерес к вопросу о том, насколько эффективны различные подходы к обучению моделей естественного языка. Одной из актуальных проблем является оптимизация возможностей in-context learning (ICL), которая заключается в использовании моделей естественного языка для решения задач на основе контекста, не затрачивая дополнительных вычислительных ресурсов. Несмотря на выдающиеся достижения, возрастающий размер моделей и потребление ресурсов приводят к вопросам о том, какие приемлемые свойства моделей должны развиваться во время обучения. В частности, возникает вопрос о том, какой тип данных — натуральный текст или синтетические целенаправленные примеры — более эффективен для развития возможностей ICL при ограничении вычислительных бюджетов. Какие стратегии обучения могут ускорить возникновение индуктивных механизмов и улучшить эффективность ICL? #### Метод Чтобы расследовать эту проблему, авторы предлагают Bi-Induct — новую методику, которая включает в себя специальный курс для моделей естественного языка. Этот курс включает в себя три типа данных для обучения: forward-copy (Induction), backward-copy (Anti) и их смесь. Эти данные вставляются в процесс обучения с целью стимулировать развитие индуктивных механизмов. Модели обучаются в диапазоне от 0.13B до 1B параметров, при этом количество вычислительных операций (иso-FLOPs) сохраняется постоянным для каждого размера. Результаты оцениваются на нескольких наборах данных: (i) в тех задачах, требующих нескольких примеров обучения, (ii) в задачах, которые измеряют вклад отдельных "голов" (heads) модели в решение задач, и (iii) в задачах языковой моделирования. #### Результаты Исследователи выяснили, что Bi-Induct ускоряет процесс возникновения индуктивных механизмов при малых моделях (до 0.13B параметров), но это не всегда приводит к значительным улучшениям в ICL. В стандартных задачах языковой моделирования Bi-Induct демонстрирует результаты, схожие с результатами моделей, обученных на натуральном тексте без синтетических примеров. На задачах, которые требуют более сложного индуктивного поведения, 1B-модель с натуральным текстом показывает лучшие результаты. Анализ стресс-тестов (например, различных методов оценки HITS@1 и HITS@3) показал, что низкая производительность Bi-Induct связана с менее эффективным использованием индуктивных механизмов. Также было выявлено, что погрешность предсказания текста (perplexity) уменьшается с увеличением размера моделей, что указывает на то, что большие модели могут более эффективно воспринимать си

Abstract

Does explicitly exercising the induction circuit during pretraining improve in-context learning (ICL), or is natural text sufficient when compute is held constant (iso-FLOPs)? To test whether targeted synthetic data can accelerate induction-head emergence and enhance ICL, we introduce Bi-Induct, a lightweight curriculum that injects forward-copy (Induction), backward-copy (Anti), or a balanced mix into the pretraining stream. We train models from 0.13B to 1B parameters under iso-FLOPs, evaluating (i) few-shot ICL benchmarks, (ii) head-level telemetry, and (iii) held-out language modeling perplexity. Our findings challenge the assumption that early induction circuit activation directly improves ICL. While Bi-Induct accelerates induction-head emergence at small scales, this does not consistently yield stronger generalization. On standard LM benchmarks, Bi-Induct matches natural-only training; on function-style ICL probes, the 1B natural-only performs best. Stress tests (e.g., label permutation, HITS@1 vs. HITS@3, 1 vs. 10 shots) preserve these trends. Telemetry shows larger natural-only models develop broader, earlier induction heads without explicit induction patterns. Anti-induction data fails to elicit meaningful activation. Perplexity penalties from synthetic data shrink with scale, suggesting larger models can absorb non-natural patterns with minimal cost. Crucially, ablating the top 2% of induction heads degrades ICL more than random ablations, especially for natural-only models, indicating more centralized, load-bearing circuits. Bi-Induct variants exhibit more redundant induction activity, implying different circuit utilization. Overall, inducing activation is not sufficient: ICL gains depend on these circuits becoming functionally necessary. These results underscore mechanism-aware pretraining diagnostics and data mixtures that foster load-bearing, not merely present, structure.

Ссылки и действия