Data Retrieval with Importance Weights for Few-Shot Imitation Learning

2509.01657v1 cs.RO, cs.AI 2025-09-05
Авторы:

Amber Xie, Rahul Chand, Dorsa Sadigh, Joey Hejna

Резюме на русском

## Контекст Имитационное обучение (IL) является важной методологией для научных и прикладных задач, позволяющей модели роботов осваивать новые окружения и задачи с минимальным числом примеров. Одним из подходов является **ретриев-подход** (retrieval-based imitation learning), который использует богатые и доступные базы данных для увеличения размера демонстрационных данных. Традиционный подход к ретриеву заключается в поиске ближайших соседей (NN) в латентном пространстве, однако он имеет высокий шум и не учитывает распределение данных в основной базе. Это приводит к ограниченности при обучении на небольших наборах данных в неизвестных средах. Мы предлагаем метод **Importance Weighted Retrieval (IWR)**, который учитывает веса источника данных во время выбора обучающих примеров, чтобы улучшить точность и устойчивость IL-методов. ## Метод Мы предложили **Importance Weighted Retrieval (IWR)**, который решает проблему выбора данных в ретриев-подходах, основываясь на оценке веса важности (importance weight) для каждого примера данных. Эти веса вычисляются с помощью гауссовой оценки плотности распределения (Gaussian KDE), учитывая распределение как целевого, так и предварительного набора данных. Чтобы выбрать наиболее подходящие примеры из базы данных, мы используем формулу: $w_i = \frac{p_{\text{target}}(x_i)}{p_{\text{prior}}(x_i)}$, где $w_i$ — веса примера $x_i$, а $p_{\text{target}}(x_i)$ и $p_{\text{prior}}(x_i)$ — распределения в целевой и предварительной базах данных соответственно. Этот подход устраняет неточности выбора примеров, обеспечивая более стабильное и точное обучение в режиме небольших демонстраций (few-shot learning). ## Результаты Мы провели эксперименты на симуляционных средах и на реальных данных с датчиками Bridge. Мы сравнили IWR с традиционным методом выбора NN в латентном пространстве. Результаты показали, что IWR улучшает производительность в задачах нескольких примеров (few-shot learning), даже при небольших изменениях в архитектуре и количестве данных. Мы также проверили эффективность различных гиперпараметров KDE в нашем подходе, установив, что средние значения дают наилучший результат. Эти результаты подтверждают, что IWR способствует более эффективному обучению в ситуациях с малым количеством примеров. ## Значимость Наш метод может быть применен в различных прикладных задачах, включая робототехнику, программирование на основе демонстраций и обучение моделей в сложных окружениях. IWR позволяет повысить точность и устойчивость обучения в режиме небольших демонстраций, что является ключевым для успешного применения в реальном мире. Этот подход имеет потенциал для расширения широты применения IL в сферах, где данных для обучения ограничены, но требуется высокая точ

Abstract

While large-scale robot datasets have propelled recent progress in imitation learning, learning from smaller task specific datasets remains critical for deployment in new environments and unseen tasks. One such approach to few-shot imitation learning is retrieval-based imitation learning, which extracts relevant samples from large, widely available prior datasets to augment a limited demonstration dataset. To determine the relevant data from prior datasets, retrieval-based approaches most commonly calculate a prior data point's minimum distance to a point in the target dataset in latent space. While retrieval-based methods have shown success using this metric for data selection, we demonstrate its equivalence to the limit of a Gaussian kernel density (KDE) estimate of the target data distribution. This reveals two shortcomings of the retrieval rule used in prior work. First, it relies on high-variance nearest neighbor estimates that are susceptible to noise. Second, it does not account for the distribution of prior data when retrieving data. To address these issues, we introduce Importance Weighted Retrieval (IWR), which estimates importance weights, or the ratio between the target and prior data distributions for retrieval, using Gaussian KDEs. By considering the probability ratio, IWR seeks to mitigate the bias of previous selection rules, and by using reasonable modeling parameters, IWR effectively smooths estimates using all data points. Across both simulation environments and real-world evaluations on the Bridge dataset we find that our method, IWR, consistently improves performance of existing retrieval-based methods, despite only requiring minor modifications.

Ссылки и действия