## Контекст
В последние годы наблюдается быстрое развитие области data fusion и transfer learning, которые способствуют улучшению моделей для конкретных аудиторий за счет использования данных из других связанных источников или задач. Однако в этой области существуют ряд проблем, включая различия между целевой и внешней выборками, а также технические и операционные ограничения, которые помешают простой интеграции данных. Мы рассматриваем сценарий, в котором целевая выборка ограничена размером, в то время как внешняя выборка является большой, но загрязненной выбросами. Данные загрязнения, вместе с вычислительными и операционными ограничениями, требуют оптимального выбора или субсэмплирования внешней выборки для transfer learning. На данный момент не достаточно тщательно изучены способы transfer learning и субсэмплирования в условиях загрязнения данных. Мы рассматриваем этот аспект, изучая различные методы transfer learning с выборкой внешних данных, учитывая выбросы, отклоняющиеся от главной модели в результате случайных сдвигов средних.
## Метод
Мы разработали два стратегии субсэмплирования: одно для уменьшения биаса, а другое для минимизации дисперсии. Также предложены методы для комбинирования этих стратегий с целью повышения эффективности оценок. Мы предоставили неасимптотические ограничения ошибок для оценок transfer learning, в которых учитываются такие факторы, как размер выборок, сила сигнала, степень субсэмплирования, магнитуда выбросов и характеристики распределений модели. Эти подходы позволяют выявить основные факторы, влияющие на качество оценок в transfer learning.
## Результаты
Мы провели обширные симуляционные эксперименты, которые подтвердили преимущество наших методов в сравнении с существующими подходами. В частности, мы продемонстрировали, что наши методы позволяют значительно улучшить точность оценок при субсэмплировании внешних данных, даже в условиях существенных загрязнений. Кроме того, мы применили наши методы для анализа риска тяжких посадок для самолета A380, используя данные с других типов самолетов. Это демонстрирует, что наш подход может повысить эффективность оценки для редких типов самолетов, используя данные от других типов.
## Значимость
Наши результаты имеют значимое значение в области data fusion и transfer learning в условиях загрязнения данных. Мы показали, что наш подход может быть применен в различных областях, включая авиацию, медицину и финансы, где редкие типы событий или объектов имеют ограниченное количество данных. Наши методы обладают потенциалом для улучшения точности моделей и выявления рисков в таких областях.
## Выводы
Мы раз