Data Retrieval with Importance Weights for Few-Shot Imitation Learning
2509.01657v1
cs.RO, cs.AI
2025-09-05
Авторы:
Amber Xie, Rahul Chand, Dorsa Sadigh, Joey Hejna
Резюме на русском
## Контекст
Имитационное обучение (IL) является важной методологией для научных и прикладных задач, позволяющей модели роботов осваивать новые окружения и задачи с минимальным числом примеров. Одним из подходов является **ретриев-подход** (retrieval-based imitation learning), который использует богатые и доступные базы данных для увеличения размера демонстрационных данных. Традиционный подход к ретриеву заключается в поиске ближайших соседей (NN) в латентном пространстве, однако он имеет высокий шум и не учитывает распределение данных в основной базе. Это приводит к ограниченности при обучении на небольших наборах данных в неизвестных средах. Мы предлагаем метод **Importance Weighted Retrieval (IWR)**, который учитывает веса источника данных во время выбора обучающих примеров, чтобы улучшить точность и устойчивость IL-методов.
## Метод
Мы предложили **Importance Weighted Retrieval (IWR)**, который решает проблему выбора данных в ретриев-подходах, основываясь на оценке веса важности (importance weight) для каждого примера данных. Эти веса вычисляются с помощью гауссовой оценки плотности распределения (Gaussian KDE), учитывая распределение как целевого, так и предварительного набора данных. Чтобы выбрать наиболее подходящие примеры из базы данных, мы используем формулу: $w_i = \frac{p_{\text{target}}(x_i)}{p_{\text{prior}}(x_i)}$, где $w_i$ — веса примера $x_i$, а $p_{\text{target}}(x_i)$ и $p_{\text{prior}}(x_i)$ — распределения в целевой и предварительной базах данных соответственно. Этот подход устраняет неточности выбора примеров, обеспечивая более стабильное и точное обучение в режиме небольших демонстраций (few-shot learning).
## Результаты
Мы провели эксперименты на симуляционных средах и на реальных данных с датчиками Bridge. Мы сравнили IWR с традиционным методом выбора NN в латентном пространстве. Результаты показали, что IWR улучшает производительность в задачах нескольких примеров (few-shot learning), даже при небольших изменениях в архитектуре и количестве данных. Мы также проверили эффективность различных гиперпараметров KDE в нашем подходе, установив, что средние значения дают наилучший результат. Эти результаты подтверждают, что IWR способствует более эффективному обучению в ситуациях с малым количеством примеров.
## Значимость
Наш метод может быть применен в различных прикладных задачах, включая робототехнику, программирование на основе демонстраций и обучение моделей в сложных окружениях. IWR позволяет повысить точность и устойчивость обучения в режиме небольших демонстраций, что является ключевым для успешного применения в реальном мире. Этот подход имеет потенциал для расширения широты применения IL в сферах, где данных для обучения ограничены, но требуется высокая точ
Abstract
While large-scale robot datasets have propelled recent progress in imitation
learning, learning from smaller task specific datasets remains critical for
deployment in new environments and unseen tasks. One such approach to few-shot
imitation learning is retrieval-based imitation learning, which extracts
relevant samples from large, widely available prior datasets to augment a
limited demonstration dataset. To determine the relevant data from prior
datasets, retrieval-based approaches most commonly calculate a prior data
point's minimum distance to a point in the target dataset in latent space.
While retrieval-based methods have shown success using this metric for data
selection, we demonstrate its equivalence to the limit of a Gaussian kernel
density (KDE) estimate of the target data distribution. This reveals two
shortcomings of the retrieval rule used in prior work. First, it relies on
high-variance nearest neighbor estimates that are susceptible to noise. Second,
it does not account for the distribution of prior data when retrieving data. To
address these issues, we introduce Importance Weighted Retrieval (IWR), which
estimates importance weights, or the ratio between the target and prior data
distributions for retrieval, using Gaussian KDEs. By considering the
probability ratio, IWR seeks to mitigate the bias of previous selection rules,
and by using reasonable modeling parameters, IWR effectively smooths estimates
using all data points. Across both simulation environments and real-world
evaluations on the Bridge dataset we find that our method, IWR, consistently
improves performance of existing retrieval-based methods, despite only
requiring minor modifications.
Ссылки и действия
Дополнительные ресурсы: