IA2: Alignment with ICL Activations Improves Supervised Fine-Tuning
2509.22621v1
cs.LG, cs.AI, cs.CL
2025-09-30
Авторы:
Aayush Mishra, Daniel Khashabi, Anqi Liu
Резюме на русском
#### Контекст
Супервизированное тюнинг (Supervised Fine-Tuning, SFT) широко используется для приспособления моделей к конкретным задачам, позволяя их вырабатывать желаемые реакции на запросы. Однако модели, основанные на In-Context Learning (ICL), внедряют приемы взаимодействия во время инференса с использованием инструкций или демонстраций в подсказке. ICL обеспечивает лучшую общизну и более обоснованные ответы, особенно при недостатке данных, но при этом требует более высокого расхода вычислительных ресурсов. В данной работе мы рассматриваем вопрос о возможности использования внутренних вычислений ICL для повышения качества SFT.
#### Метод
Мы проводим исследования, которые показывают, что ICL и SFT используют разные механизмы функционирования, что демонстрируется разными активациями моделей. Чтобы использовать преимущества ICL, мы предлагаем технику само-дистилляции под названием ICL Activation Alignment (IA2). Эта методика нацелена на повторение активаций ICL в модели SFT, причем предварительное применение этой техники раньше SFT-процесса влияет на улучшение точности и калибровки моделей. Мы используем 12 основных бенчмарков и две модели для проверки нашего подхода.
#### Результаты
Наши эксперименты показали, что IA2 значительно улучшает точность и калибровку моделей в сравнении с стандартным SFT. На 12 бенчмарках и 2 моделях SFT с IA2 показали существенное увеличение качества исходных моделей. Эти результаты доказывают эффективность данного подхода и показывают, что ICL может быть эффективно интегрирована в SFT для повышения результатов.
#### Значимость
Данный подход имеет широкое применение в ситуациях, где данных для тюнинга мало, а требуется высокий уровень качества и калибровки результатов. IA2 позволяет использовать ICL как эффективное средство для улучшения SFT, не требуя дополнительных вычислений во время инференса. Это делает IA2 перспективным для применения в технологиях прикладного машинного обучения и систем многомодального понимания.
#### Выводы
Мы показали, что IA2 значительно улучшает качество SFT, используя ICL в качестве источника сигналов. Будущие исследования будут сфокусированы на детализации механизмов взаимодействия между ICL и SFT, а также на расширении этой техники для различных моделей и задач.
Abstract
Supervised Fine-Tuning (SFT) is used to specialize model behavior by training
weights to produce intended target responses for queries. In contrast,
In-Context Learning (ICL) adapts models during inference with instructions or
demonstrations in the prompt. ICL can offer better generalizability and more
calibrated responses compared to SFT in data scarce settings, at the cost of
more inference compute. In this work, we ask the question: Can ICL's internal
computations be used to improve the qualities of SFT? We first show that ICL
and SFT produce distinct activation patterns, indicating that the two methods
achieve adaptation through different functional mechanisms. Motivated by this
observation and to use ICL's rich functionality, we introduce ICL Activation
Alignment (IA2), a self-distillation technique which aims to replicate ICL's
activation patterns in SFT models and incentivizes ICL-like internal reasoning.
Performing IA2 as a priming step before SFT significantly improves the accuracy
and calibration of model outputs, as shown by our extensive empirical results
on 12 popular benchmarks and 2 model families. This finding is not only
practically useful, but also offers a conceptual window into the inner
mechanics of model adaptation.
Ссылки и действия
Дополнительные ресурсы: