📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Robust Data Fusion via Subsampling

2025-08-19

Авторы:

Jing Wang, HaiYing Wang, Kun Chen

## Контекст В последние годы наблюдается быстрое развитие области data fusion и transfer learning, которые способствуют улучшению моделей для конкретных аудиторий за счет использования данных из других связанных источников или задач. Однако в этой области существуют ряд проблем, включая различия между целевой и внешней выборками, а также технические и операционные ограничения, которые помешают простой интеграции данных. Мы рассматриваем сценарий, в котором целевая выборка ограничена размером, в то время как внешняя выборка является большой, но загрязненной выбросами. Данные загрязнения, вместе с вычислительными и операционными ограничениями, требуют оптимального выбора или субсэмплирования внешней выборки для transfer learning. На данный момент не достаточно тщательно изучены способы transfer learning и субсэмплирования в условиях загрязнения данных. Мы рассматриваем этот аспект, изучая различные методы transfer learning с выборкой внешних данных, учитывая выбросы, отклоняющиеся от главной модели в результате случайных сдвигов средних. ## Метод Мы разработали два стратегии субсэмплирования: одно для уменьшения биаса, а другое для минимизации дисперсии. Также предложены методы для комбинирования этих стратегий с целью повышения эффективности оценок. Мы предоставили неасимптотические ограничения ошибок для оценок transfer learning, в которых учитываются такие факторы, как размер выборок, сила сигнала, степень субсэмплирования, магнитуда выбросов и характеристики распределений модели. Эти подходы позволяют выявить основные факторы, влияющие на качество оценок в transfer learning. ## Результаты Мы провели обширные симуляционные эксперименты, которые подтвердили преимущество наших методов в сравнении с существующими подходами. В частности, мы продемонстрировали, что наши методы позволяют значительно улучшить точность оценок при субсэмплировании внешних данных, даже в условиях существенных загрязнений. Кроме того, мы применили наши методы для анализа риска тяжких посадок для самолета A380, используя данные с других типов самолетов. Это демонстрирует, что наш подход может повысить эффективность оценки для редких типов самолетов, используя данные от других типов. ## Значимость Наши результаты имеют значимое значение в области data fusion и transfer learning в условиях загрязнения данных. Мы показали, что наш подход может быть применен в различных областях, включая авиацию, медицину и финансы, где редкие типы событий или объектов имеют ограниченное количество данных. Наши методы обладают потенциалом для улучшения точности моделей и выявления рисков в таких областях. ## Выводы Мы раз

Annotation:

Data fusion and transfer learning are rapidly growing fields that enhance model performance for a target population by leveraging other related data sources or tasks. The challenges lie in the various potential heterogeneities between the target and external data, as well as various practical concerns that prevent a na\"ive data integration. We consider a realistic scenario where the target data is limited in size while the external data is large but contaminated with outliers; such data contami...

ID: 2508.12048v1 stat.ML, cs.LG, 62K05

arXiv PDF