Robust Data Fusion via Subsampling

2508.12048v1 stat.ML, cs.LG, 62K05 2025-08-19
Авторы:

Jing Wang, HaiYing Wang, Kun Chen

Резюме на русском

## Контекст В последние годы наблюдается быстрое развитие области data fusion и transfer learning, которые способствуют улучшению моделей для конкретных аудиторий за счет использования данных из других связанных источников или задач. Однако в этой области существуют ряд проблем, включая различия между целевой и внешней выборками, а также технические и операционные ограничения, которые помешают простой интеграции данных. Мы рассматриваем сценарий, в котором целевая выборка ограничена размером, в то время как внешняя выборка является большой, но загрязненной выбросами. Данные загрязнения, вместе с вычислительными и операционными ограничениями, требуют оптимального выбора или субсэмплирования внешней выборки для transfer learning. На данный момент не достаточно тщательно изучены способы transfer learning и субсэмплирования в условиях загрязнения данных. Мы рассматриваем этот аспект, изучая различные методы transfer learning с выборкой внешних данных, учитывая выбросы, отклоняющиеся от главной модели в результате случайных сдвигов средних. ## Метод Мы разработали два стратегии субсэмплирования: одно для уменьшения биаса, а другое для минимизации дисперсии. Также предложены методы для комбинирования этих стратегий с целью повышения эффективности оценок. Мы предоставили неасимптотические ограничения ошибок для оценок transfer learning, в которых учитываются такие факторы, как размер выборок, сила сигнала, степень субсэмплирования, магнитуда выбросов и характеристики распределений модели. Эти подходы позволяют выявить основные факторы, влияющие на качество оценок в transfer learning. ## Результаты Мы провели обширные симуляционные эксперименты, которые подтвердили преимущество наших методов в сравнении с существующими подходами. В частности, мы продемонстрировали, что наши методы позволяют значительно улучшить точность оценок при субсэмплировании внешних данных, даже в условиях существенных загрязнений. Кроме того, мы применили наши методы для анализа риска тяжких посадок для самолета A380, используя данные с других типов самолетов. Это демонстрирует, что наш подход может повысить эффективность оценки для редких типов самолетов, используя данные от других типов. ## Значимость Наши результаты имеют значимое значение в области data fusion и transfer learning в условиях загрязнения данных. Мы показали, что наш подход может быть применен в различных областях, включая авиацию, медицину и финансы, где редкие типы событий или объектов имеют ограниченное количество данных. Наши методы обладают потенциалом для улучшения точности моделей и выявления рисков в таких областях. ## Выводы Мы раз

Abstract

Data fusion and transfer learning are rapidly growing fields that enhance model performance for a target population by leveraging other related data sources or tasks. The challenges lie in the various potential heterogeneities between the target and external data, as well as various practical concerns that prevent a na\"ive data integration. We consider a realistic scenario where the target data is limited in size while the external data is large but contaminated with outliers; such data contamination, along with other computational and operational constraints, necessitates proper selection or subsampling of the external data for transfer learning. To our knowledge,transfer learning and subsampling under data contamination have not been thoroughly investigated. We address this gap by studying various transfer learning methods with subsamples of the external data, accounting for outliers deviating from the underlying true model due to arbitrary mean shifts. Two subsampling strategies are investigated: one aimed at reducing biases and the other at minimizing variances. Approaches to combine these strategies are also introduced to enhance the performance of the estimators. We provide non-asymptotic error bounds for the transfer learning estimators, clarifying the roles of sample sizes, signal strength, sampling rates, magnitude of outliers, and tail behaviors of model error distributions, among other factors. Extensive simulations show the superior performance of the proposed methods. Additionally, we apply our methods to analyze the risk of hard landings in A380 airplanes by utilizing data from other airplane types,demonstrating that robust transfer learning can improve estimation efficiency for relatively rare airplane types with the help of data from other types of airplanes.

Ссылки и действия