Linear-Time Demonstration Selection for In-Context Learning via Gradient Estimation

2508.19999v1 cs.LG, cs.AI, cs.CL 2025-08-29
Авторы:

Ziniu Zhang, Zhenshuo Zhang, Dongyue Li, Lu Wang, Jennifer Dy, Hongyang R. Zhang

Резюме на русском

## Контекст В последние годы стала особенно актуальной работа с глубокими нейронными сетями, особенно в области обучения с подкреплением и машинного обучения. Одна из самых выгодных особенностей нейронных сетей — их потенциал для интеллектуального обработки больших объемов данных. Однако, в связи с этим потенциалом возникли новые проблемы, связанные с выбором оптимальных демонстрационных примеров для обучения. В частности, проблема выбора эффективных демонстраций для в контекстном обучении через интерпретацию информации попала в центр внимания. Необходимость быстрого и эффективного выбора примеров для ускорения процесса обучения и повышения точности модели стала приоритетной задачей в этой области. ## Метод Для решения этой задачи была разработана методология, основанная на использовании градиентной оценки. Метод предполагает вычисление градиентов модели в отношении входных примеров. На основе этих градиентов производится первоначальная оценка модели, которая позволяет производить выбор примеров без полного вычисления всех возможных комбинаций. Этот подход использует множество случайно выбранных подмножеств примеров, которые позволяют оценить вклад каждого примера в процесс обучения. Затем, с помощью этих оценок, выбираются $k$ самых важных примеров для дальнейшего обучения. Этот метод имеет линейную сложность по отношению к размеру модели и размеру обучающего множества. ## Результаты Опытные испытания проводились на различных моделях и данных. Было показано, что данный метод позволяет выбирать $k$ демонстрационных примеров быстрее, с меньшей ошибкой и высокой точностью. Например, средний процент улучшения выбора примеров составил около $11\%$ в сравнении с существующими методами, основанными на интерпретации входных примеров. Была также проведена оценка точности, показав, что градиентная оценка дает примерно $\mathbf{1}\%$ ошибки в сравнении с полным вычислением. Это позволяет ускорить выбор примеров до $\mathbf{37.7}\times$ при работе с моделями, имеющими до $34$ миллиардов параметров. ## Значимость Процедура выбора примеров, основанная на градиентной оценке, демонстрирует потенциал для распространенного применения в области контекстного обучения. Она позволяет существенно ускорить процесс обучения, уменьшить затраты ресурсов, а также повысить точность модели. Этот метод может быть применен в различных сферах, включая промышленные приложения, моделирование и анализ данных. Более того, он открывает новые возможности для расширения области применения нейронных сетей в сложных и больших объемах данных. ## Выводы На основе проведенных исследований, можно сделать вывод, что градиентна

Abstract

This paper introduces an algorithm to select demonstration examples for in-context learning of a query set. Given a set of $n$ examples, how can we quickly select $k$ out of $n$ to best serve as the conditioning for downstream inference? This problem has broad applications in prompt tuning and chain-of-thought reasoning. Since model weights remain fixed during in-context learning, previous work has sought to design methods based on the similarity of token embeddings. This work proposes a new approach based on gradients of the output taken in the input embedding space. Our approach estimates model outputs through a first-order approximation using the gradients. Then, we apply this estimation to multiple randomly sampled subsets. Finally, we aggregate the sampled subset outcomes to form an influence score for each demonstration, and select $k$ most relevant examples. This procedure only requires pre-computing model outputs and gradients once, resulting in a linear-time algorithm relative to model and training set sizes. Extensive experiments across various models and datasets validate the efficiency of our approach. We show that the gradient estimation procedure yields approximations of full inference with less than $\mathbf{1}\%$ error across six datasets. This allows us to scale up subset selection that would otherwise run full inference by up to $\mathbf{37.7}\times$ on models with up to $34$ billion parameters, and outperform existing selection methods based on input embeddings by $\mathbf{11}\%$ on average.

Ссылки и действия