KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning
2509.15676v1
cs.LG, cs.AI, cs.CL
2025-09-23
Авторы:
Vaibhav Singh, Soumya Suvra Ghosal, Kapu Nirmal Joshua, Soumyabrata Pal, Sayak Ray Chowdhury
Резюме на русском
## Контекст
Ин-контекстное обучение (ICL) является мощным подходом к адаптации больших языковых моделей (LLM) к новым и данным-нехватке задачам, используя только несколько тщательно выбранных примеров, представленных в запросе. Однако существует основная проблема: какие примеры следует выбрать, чтобы максимально увеличить производительность на определенном запросе пользователя? Данный вопрос становится ключевым из-за ограниченного контекста LLMs. Ранее рассматривался подход KATE, основанный на ближайших соседях, но у него есть известные проблемы, включая малое универсальность при работе в высокомерных пространствах признаков и недостаток разнообразия выбранных примеров. В настоящей работе мы принимаем новый, принципиальный подход, основываясь на информационной теории, чтобы оптимизировать выбор примеров.
## Метод
Мы рассматриваем LLM как линейную модель, работающую над входными признаками, и преобразуем задачу выбора примеров в задачу оптимизации запроса-специфической: выбор подмножества примеров из большого банка примеров, которое минимизирует ошибку предсказания для конкретного запроса. Этот подход отличается от традиционных теоретико-обоснованных подходов к обучению, нацеленных на обеспечение общей точности, и сконцентрирован на достижении точного предсказания для конкретного запроса. Мы даем принципиальные обоснования для суррогатной функции, которая приближенно является подмодулярной, что позволяет применять жадный алгоритм с гарантией приближения. Для улучшения метода мы (i) вводим трюк кернела, чтобы работать в высокомерных пространствах признаков без непосредственной линейной маппинга, и (ii) добавляем оптимальный дизайн-регуляризатор, стимулирующий разнообразие выбранных примеров.
## Результаты
Мы проводим эксперименты на нескольких классификационных задачах и сравниваем наши результаты с существующими методами. Наши результаты показывают значительные улучшения по отношению к стандартным методам восстановления, в том числе повышение точности предсказаний и увеличение разнообразия выбранных примеров. Эти результаты подтверждают преимущества структурно-ориентированного, разнообразного выбора примеров для ICL в реальных, данным-нехватке сценариях.
## Значимость
Наш подход может быть применен в различных областях, где требуется эффективное использование ограниченных данных, такие как научная интерпретация, биология, интеллектуальные технологии. Основные преимущества заключаются в улучшении точности предсказаний, увеличении разнообразия выбранных примеров и эффективности применения в технических задачах. Б
Abstract
In-context learning (ICL) has emerged as a powerful paradigm for adapting
large language models (LLMs) to new and data-scarce tasks using only a few
carefully selected task-specific examples presented in the prompt. However,
given the limited context size of LLMs, a fundamental question arises: Which
examples should be selected to maximize performance on a given user query?
While nearest-neighbor-based methods like KATE have been widely adopted for
this purpose, they suffer from well-known drawbacks in high-dimensional
embedding spaces, including poor generalization and a lack of diversity. In
this work, we study this problem of example selection in ICL from a principled,
information theory-driven perspective. We first model an LLM as a linear
function over input embeddings and frame the example selection task as a
query-specific optimization problem: selecting a subset of exemplars from a
larger example bank that minimizes the prediction error on a specific query.
This formulation departs from traditional generalization-focused learning
theoretic approaches by targeting accurate prediction for a specific query
instance. We derive a principled surrogate objective that is approximately
submodular, enabling the use of a greedy algorithm with an approximation
guarantee. We further enhance our method by (i) incorporating the kernel trick
to operate in high-dimensional feature spaces without explicit mappings, and
(ii) introducing an optimal design-based regularizer to encourage diversity in
the selected examples. Empirically, we demonstrate significant improvements
over standard retrieval methods across a suite of classification tasks,
highlighting the benefits of structure-aware, diverse example selection for ICL
in real-world, label-scarce scenarios.
Ссылки и действия
Дополнительные ресурсы: