Linear-Time Demonstration Selection for In-Context Learning via Gradient Estimation
2508.19999v1
cs.LG, cs.AI, cs.CL
2025-08-29
Авторы:
Ziniu Zhang, Zhenshuo Zhang, Dongyue Li, Lu Wang, Jennifer Dy, Hongyang R. Zhang
Резюме на русском
## Контекст
В последние годы стала особенно актуальной работа с глубокими нейронными сетями, особенно в области обучения с подкреплением и машинного обучения. Одна из самых выгодных особенностей нейронных сетей — их потенциал для интеллектуального обработки больших объемов данных. Однако, в связи с этим потенциалом возникли новые проблемы, связанные с выбором оптимальных демонстрационных примеров для обучения. В частности, проблема выбора эффективных демонстраций для в контекстном обучении через интерпретацию информации попала в центр внимания. Необходимость быстрого и эффективного выбора примеров для ускорения процесса обучения и повышения точности модели стала приоритетной задачей в этой области.
## Метод
Для решения этой задачи была разработана методология, основанная на использовании градиентной оценки. Метод предполагает вычисление градиентов модели в отношении входных примеров. На основе этих градиентов производится первоначальная оценка модели, которая позволяет производить выбор примеров без полного вычисления всех возможных комбинаций. Этот подход использует множество случайно выбранных подмножеств примеров, которые позволяют оценить вклад каждого примера в процесс обучения. Затем, с помощью этих оценок, выбираются $k$ самых важных примеров для дальнейшего обучения. Этот метод имеет линейную сложность по отношению к размеру модели и размеру обучающего множества.
## Результаты
Опытные испытания проводились на различных моделях и данных. Было показано, что данный метод позволяет выбирать $k$ демонстрационных примеров быстрее, с меньшей ошибкой и высокой точностью. Например, средний процент улучшения выбора примеров составил около $11\%$ в сравнении с существующими методами, основанными на интерпретации входных примеров. Была также проведена оценка точности, показав, что градиентная оценка дает примерно $\mathbf{1}\%$ ошибки в сравнении с полным вычислением. Это позволяет ускорить выбор примеров до $\mathbf{37.7}\times$ при работе с моделями, имеющими до $34$ миллиардов параметров.
## Значимость
Процедура выбора примеров, основанная на градиентной оценке, демонстрирует потенциал для распространенного применения в области контекстного обучения. Она позволяет существенно ускорить процесс обучения, уменьшить затраты ресурсов, а также повысить точность модели. Этот метод может быть применен в различных сферах, включая промышленные приложения, моделирование и анализ данных. Более того, он открывает новые возможности для расширения области применения нейронных сетей в сложных и больших объемах данных.
## Выводы
На основе проведенных исследований, можно сделать вывод, что градиентна
Abstract
This paper introduces an algorithm to select demonstration examples for
in-context learning of a query set. Given a set of $n$ examples, how can we
quickly select $k$ out of $n$ to best serve as the conditioning for downstream
inference? This problem has broad applications in prompt tuning and
chain-of-thought reasoning. Since model weights remain fixed during in-context
learning, previous work has sought to design methods based on the similarity of
token embeddings. This work proposes a new approach based on gradients of the
output taken in the input embedding space. Our approach estimates model outputs
through a first-order approximation using the gradients. Then, we apply this
estimation to multiple randomly sampled subsets. Finally, we aggregate the
sampled subset outcomes to form an influence score for each demonstration, and
select $k$ most relevant examples. This procedure only requires pre-computing
model outputs and gradients once, resulting in a linear-time algorithm relative
to model and training set sizes. Extensive experiments across various models
and datasets validate the efficiency of our approach. We show that the gradient
estimation procedure yields approximations of full inference with less than
$\mathbf{1}\%$ error across six datasets. This allows us to scale up subset
selection that would otherwise run full inference by up to
$\mathbf{37.7}\times$ on models with up to $34$ billion parameters, and
outperform existing selection methods based on input embeddings by
$\mathbf{11}\%$ on average.
Ссылки и действия
Дополнительные ресурсы: