Mechanism of Task-oriented Information Removal in In-context Learning

2509.21012v1 cs.LG, cs.AI, cs.CL 2025-09-27
Авторы:

Hakaze Cho, Haolin Yang, Gouki Minegishi, Naoya Inoue

Резюме на русском

## Контекст In-context Learning (ICL) является продвинутой методологией нескольких примеров обучения, основанной на современных языковых моделях. Она позволяет моделям генерировать ответы на задачи, используя несколько примеров в качестве контекста. Несмотря на высокую точность и практическую полезность, механизм ICL остается недостаточно изученным. Этот недостаток ограничивает понимание способов оптимизации и применения этой методологии. Особенно актуальной является проблема необходимости удаления ненужной информации для улучшения фокусировки модели на задаче, что остается неясным. Данное исследование направлено на раскрытие такого механизма и на проведение экспериментов, подтверждающих его важность для повышения точности ICL. ## Метод Методология исследования основывается на анализе представлений в скрытых слоях моделей и применению техник, нацеленных на выделение и удаление ненужной информации. Исходный подход включал эксперименты с метриками, определяющими степень объединения информации в представлениях. Для отбора "денойзинговых" слоев, которые отвечают за удаление ненужной информации, применялась априорная оценка релевантности этих слоев в процессе вывода. Были разработаны новые метрики для измерения того, насколько хорошо ICL моделирует процесс выбора информации, относящейся к конкретной задаче. Эти алгоритмы позволяют регулировать поведение модели, принудительно выделяя нужное представление. ## Результаты На основе созданных метрик был проведен эксперимент, показавший, что ICL модели успешно отбирают информацию, относящуюся к конкретной задаче, и отбрасывают ненужные сведения. Этот процесс является ключевым для улучшения точности вывода. Были выявлены особенности работы "денойзинговых" слоев, которые отвечают за это удаление. Блокирование этих слоев приводит к существенной ухудшению точности ICL, особенно когда корректный ответ отсутствует в предоставленных демонстрациях. Эти результаты подтверждают важность информационного удаления для работы ICL. ## Значимость Результаты этого исследования имеют большое значение для области машинного обучения и специально для ICL. Они демонстрируют, что ICL модели могут ретрофитнуться для более точного удаления ненужной информации, что улучшает их применяемость в реальных задачах. Этот подход может быть использован в системах, требующих высокого фокусирования на конкретных задачах, таких как диагностика, поиск информации и принятие решений. На практике, это может привести к экономии ресурсов и повышению качества решений. ## Выводы В ходе исследования был показан значимый механизм информационного удаления в

Abstract

In-context Learning (ICL) is an emerging few-shot learning paradigm based on modern Language Models (LMs), yet its inner mechanism remains unclear. In this paper, we investigate the mechanism through a novel perspective of information removal. Specifically, we demonstrate that in the zero-shot scenario, LMs encode queries into non-selective representations in hidden states containing information for all possible tasks, leading to arbitrary outputs without focusing on the intended task, resulting in near-zero accuracy. Meanwhile, we find that selectively removing specific information from hidden states by a low-rank filter effectively steers LMs toward the intended task. Building on these findings, by measuring the hidden states on carefully designed metrics, we observe that few-shot ICL effectively simulates such task-oriented information removal processes, selectively removing the redundant information from entangled non-selective representations, and improving the output based on the demonstrations, which constitutes a key mechanism underlying ICL. Moreover, we identify essential attention heads inducing the removal operation, termed Denoising Heads, which enables the ablation experiments blocking the information removal operation from the inference, where the ICL accuracy significantly degrades, especially when the correct label is absent from the few-shot demonstrations, confirming both the critical role of the information removal mechanism and denoising heads.

Ссылки и действия