KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning

2509.15676v1 cs.LG, cs.AI, cs.CL 2025-09-23

Авторы:

Vaibhav Singh, Soumya Suvra Ghosal, Kapu Nirmal Joshua, Soumyabrata Pal, Sayak Ray Chowdhury

Резюме на русском

## Контекст Ин-контекстное обучение (ICL) является мощным подходом к адаптации больших языковых моделей (LLM) к новым и данным-нехватке задачам, используя только несколько тщательно выбранных примеров, представленных в запросе. Однако существует основная проблема: какие примеры следует выбрать, чтобы максимально увеличить производительность на определенном запросе пользователя? Данный вопрос становится ключевым из-за ограниченного контекста LLMs. Ранее рассматривался подход KATE, основанный на ближайших соседях, но у него есть известные проблемы, включая малое универсальность при работе в высокомерных пространствах признаков и недостаток разнообразия выбранных примеров. В настоящей работе мы принимаем новый, принципиальный подход, основываясь на информационной теории, чтобы оптимизировать выбор примеров. ## Метод Мы рассматриваем LLM как линейную модель, работающую над входными признаками, и преобразуем задачу выбора примеров в задачу оптимизации запроса-специфической: выбор подмножества примеров из большого банка примеров, которое минимизирует ошибку предсказания для конкретного запроса. Этот подход отличается от традиционных теоретико-обоснованных подходов к обучению, нацеленных на обеспечение общей точности, и сконцентрирован на достижении точного предсказания для конкретного запроса. Мы даем принципиальные обоснования для суррогатной функции, которая приближенно является подмодулярной, что позволяет применять жадный алгоритм с гарантией приближения. Для улучшения метода мы (i) вводим трюк кернела, чтобы работать в высокомерных пространствах признаков без непосредственной линейной маппинга, и (ii) добавляем оптимальный дизайн-регуляризатор, стимулирующий разнообразие выбранных примеров. ## Результаты Мы проводим эксперименты на нескольких классификационных задачах и сравниваем наши результаты с существующими методами. Наши результаты показывают значительные улучшения по отношению к стандартным методам восстановления, в том числе повышение точности предсказаний и увеличение разнообразия выбранных примеров. Эти результаты подтверждают преимущества структурно-ориентированного, разнообразного выбора примеров для ICL в реальных, данным-нехватке сценариях. ## Значимость Наш подход может быть применен в различных областях, где требуется эффективное использование ограниченных данных, такие как научная интерпретация, биология, интеллектуальные технологии. Основные преимущества заключаются в улучшении точности предсказаний, увеличении разнообразия выбранных примеров и эффективности применения в технических задачах. Б

Abstract

In-context learning (ICL) has emerged as a powerful paradigm for adapting large language models (LLMs) to new and data-scarce tasks using only a few carefully selected task-specific examples presented in the prompt. However, given the limited context size of LLMs, a fundamental question arises: Which examples should be selected to maximize performance on a given user query? While nearest-neighbor-based methods like KATE have been widely adopted for this purpose, they suffer from well-known drawbacks in high-dimensional embedding spaces, including poor generalization and a lack of diversity. In this work, we study this problem of example selection in ICL from a principled, information theory-driven perspective. We first model an LLM as a linear function over input embeddings and frame the example selection task as a query-specific optimization problem: selecting a subset of exemplars from a larger example bank that minimizes the prediction error on a specific query. This formulation departs from traditional generalization-focused learning theoretic approaches by targeting accurate prediction for a specific query instance. We derive a principled surrogate objective that is approximately submodular, enabling the use of a greedy algorithm with an approximation guarantee. We further enhance our method by (i) incorporating the kernel trick to operate in high-dimensional feature spaces without explicit mappings, and (ii) introducing an optimal design-based regularizer to encourage diversity in the selected examples. Empirically, we demonstrate significant improvements over standard retrieval methods across a suite of classification tasks, highlighting the benefits of structure-aware, diverse example selection for ICL in real-world, label-scarce scenarios.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация