Robust Data Fusion via Subsampling
2508.12048v1
stat.ML, cs.LG, 62K05
2025-08-19
Авторы:
Jing Wang, HaiYing Wang, Kun Chen
Резюме на русском
## Контекст
В последние годы наблюдается быстрое развитие области data fusion и transfer learning, которые способствуют улучшению моделей для конкретных аудиторий за счет использования данных из других связанных источников или задач. Однако в этой области существуют ряд проблем, включая различия между целевой и внешней выборками, а также технические и операционные ограничения, которые помешают простой интеграции данных. Мы рассматриваем сценарий, в котором целевая выборка ограничена размером, в то время как внешняя выборка является большой, но загрязненной выбросами. Данные загрязнения, вместе с вычислительными и операционными ограничениями, требуют оптимального выбора или субсэмплирования внешней выборки для transfer learning. На данный момент не достаточно тщательно изучены способы transfer learning и субсэмплирования в условиях загрязнения данных. Мы рассматриваем этот аспект, изучая различные методы transfer learning с выборкой внешних данных, учитывая выбросы, отклоняющиеся от главной модели в результате случайных сдвигов средних.
## Метод
Мы разработали два стратегии субсэмплирования: одно для уменьшения биаса, а другое для минимизации дисперсии. Также предложены методы для комбинирования этих стратегий с целью повышения эффективности оценок. Мы предоставили неасимптотические ограничения ошибок для оценок transfer learning, в которых учитываются такие факторы, как размер выборок, сила сигнала, степень субсэмплирования, магнитуда выбросов и характеристики распределений модели. Эти подходы позволяют выявить основные факторы, влияющие на качество оценок в transfer learning.
## Результаты
Мы провели обширные симуляционные эксперименты, которые подтвердили преимущество наших методов в сравнении с существующими подходами. В частности, мы продемонстрировали, что наши методы позволяют значительно улучшить точность оценок при субсэмплировании внешних данных, даже в условиях существенных загрязнений. Кроме того, мы применили наши методы для анализа риска тяжких посадок для самолета A380, используя данные с других типов самолетов. Это демонстрирует, что наш подход может повысить эффективность оценки для редких типов самолетов, используя данные от других типов.
## Значимость
Наши результаты имеют значимое значение в области data fusion и transfer learning в условиях загрязнения данных. Мы показали, что наш подход может быть применен в различных областях, включая авиацию, медицину и финансы, где редкие типы событий или объектов имеют ограниченное количество данных. Наши методы обладают потенциалом для улучшения точности моделей и выявления рисков в таких областях.
## Выводы
Мы раз
Abstract
Data fusion and transfer learning are rapidly growing fields that enhance
model performance for a target population by leveraging other related data
sources or tasks. The challenges lie in the various potential heterogeneities
between the target and external data, as well as various practical concerns
that prevent a na\"ive data integration. We consider a realistic scenario where
the target data is limited in size while the external data is large but
contaminated with outliers; such data contamination, along with other
computational and operational constraints, necessitates proper selection or
subsampling of the external data for transfer learning. To our
knowledge,transfer learning and subsampling under data contamination have not
been thoroughly investigated. We address this gap by studying various transfer
learning methods with subsamples of the external data, accounting for outliers
deviating from the underlying true model due to arbitrary mean shifts. Two
subsampling strategies are investigated: one aimed at reducing biases and the
other at minimizing variances. Approaches to combine these strategies are also
introduced to enhance the performance of the estimators. We provide
non-asymptotic error bounds for the transfer learning estimators, clarifying
the roles of sample sizes, signal strength, sampling rates, magnitude of
outliers, and tail behaviors of model error distributions, among other factors.
Extensive simulations show the superior performance of the proposed methods.
Additionally, we apply our methods to analyze the risk of hard landings in A380
airplanes by utilizing data from other airplane types,demonstrating that robust
transfer learning can improve estimation efficiency for relatively rare
airplane types with the help of data from other types of airplanes.
Ссылки и действия
Дополнительные ресурсы: