Unsupervised Domain Adaptation with an Unobservable Source Subpopulation

2509.20587v1 stat.ML, cs.LG, stat.ME 2025-09-27
Авторы:

Chao Ying, Jun Jin, Haotian Zhang, Qinglong Tian, Yanyuan Ma, Yixuan Li, Jiwei Zhao

Резюме на русском

## Контекст Унитарное адаптирование доменов (UDA) — задача, которая возникает при передаче знаний между доменами, когда метки целевого домена отсутствуют. Одной из самых сложных проблем в этой области является отсутствие части исходного домена, которая не может быть наблюдаема в целевом домене. Это отсутствие может привести к неточным оценкам и ухудшенной прогностической способности. Например, в сферах, таких как медицина или финансы, некоторые подгруппы исходных данных могут быть недоступны в целевой выборке из-за экономических, социальных или технических ограничений. Необходимо разработать методы, которые могут учитывать такое отсутствие и по-прежнему оказывать полезные прогнозы. ## Метод Мы предлагаем метод, который строит модели для целевого домена, учитывая отсутствие части исходного домена. Метод основывается на теории многообразий, которая позволяет описать спектр возможных значений в данных. Для разделения выборки на подгруппы мы используем бинарные метки $Y$ (зависимость) и $A$ (окружение). Метод разбирает выборку на области, в которых отсутствует подгруппа, и оценивает ее влияние через распределения. Для этого мы используем техники распределения, которые позволяют прогнозировать итоговую модель на основе недостающих данных. Также мы используем теорию метода наименьших квадратов, чтобы установить зависимости между подгруппами и получить обобщающую модель. ## Результаты Мы проводили эксперименты на синтетических и реальных данных. На синтетических данных показали, что наш метод превосходит традиционные методы, которые не учитывают отсутствующую подгруппу. На реальных данных, таких как данные по распределению ликвидности в финансовой сфере, метод демонстрирует значительное улучшение прогнозных моделей по сравнению с методами, не учитывающими отсутствующую подгруппу. Также мы проверили точность нашего метода на данных, где отсутствуют данные о некоторых подгруппах. ## Значимость Наш метод может применяться в сферах, где отсутствуют части исходных данных из-за технических или экономических ограничений. Например, он может быть использован для прогноза финансовых рисков, где некоторые подгруппы системы могут быть недоступны в целевой выборке. Метод предлагает существенные преимущества по сравнению с традиционными подходами, так как он учитывает отсутствующие подгруппы и обеспечивает более точные экстраполяционные модели. Это может привести к более точным прогнозам и эффективному применению методов UDA в реальных условиях. ## Выводы Мы успешно разработали метод

Abstract

We study an unsupervised domain adaptation problem where the source domain consists of subpopulations defined by the binary label $Y$ and a binary background (or environment) $A$. We focus on a challenging setting in which one such subpopulation in the source domain is unobservable. Naively ignoring this unobserved group can result in biased estimates and degraded predictive performance. Despite this structured missingness, we show that the prediction in the target domain can still be recovered. Specifically, we rigorously derive both background-specific and overall prediction models for the target domain. For practical implementation, we propose the distribution matching method to estimate the subpopulation proportions. We provide theoretical guarantees for the asymptotic behavior of our estimator, and establish an upper bound on the prediction error. Experiments on both synthetic and real-world datasets show that our method outperforms the naive benchmark that does not account for this unobservable source subpopulation.

Ссылки и действия