Statistical Inference for Autoencoder-based Anomaly Detection after Representation Learning-based Domain Adaptation
2508.07049v1
stat.ML, cs.LG
2025-08-13
Авторы:
Tran Tuan Kiet, Nguyen Thang Loi, Vo Nguyen Le Duy
Резюме на русском
#### Контекст
Аномалийное детектирование (AD) широко применяется в различных областях, включая медицину, финансы, ИТ-безопасность и промышленность. Однако применение AD в целевых доменах с ограниченными данными часто приводит к понижению точности и надежности результатов. Для улучшения производительности AD в таких ситуациях вводится подход доменной адаптации (DA), который предполагает передачу знаний из домена-источника, где данных достаточно, в целевой домен. Тем не менее, этот процесс может привести к новым неопределенностям, снижающим доверие к результатам AD. Цель нашей работы — разработать метод, обеспечивающий статистическую значимость результатов AD после использования DA.
#### Метод
Мы предлагаем STAND-DA — фреймворк, который объединяет представление объектов (Representation Learning) и доменную адаптацию (Domain Adaptation) в рамках Selective Inference (SI) фреймворка. Этот подход позволяет вычислить статистически достоверные $p$-значения для выявленных аномалий и управлять фальсидыми срабатываниями порогом $\alpha$, например, 0.05. Чтобы решить проблемы скорости и масштабируемости при работе с глубокими нейронными сетями, мы разработали GPU-акселерацию для SI, что позволяет эффективно использовать его в современных моделях.
#### Результаты
Мы провести эксперименты с синтетическими и реальными данными, сопоставив STAND-DA с другими подходами. Результаты показали, что наш метод обеспечивает высокую точность и достоверность в определении аномалий, даже при небольших объемах данных в целевом домене. Также были сравнены скорости выполнения STAND-DA и других подходов, подтверждая значительное увеличение производительности благодаря GPU-акселерации.
#### Значимость
STAND-DA может быть применен в таких областях, как безопасность систем, финансовый мониторинг, диагностика и техническое обслуживание. Он обеспечивает улучшенную надежность и точность результатов AD в условиях ограниченных данных, предоставляя статистически значимые выводы. Благодаря GPU-акселерации, STAND-DA эффективно работает с большими моделями и данными, что делает его применимым в многочисленных практических задачах.
#### Выводы
STAND-DA является первым подходом, объединяющим SI, AD и DA, обеспечивающий статистическую значимость результатов. В будущем планируется расширить функционал STAND-DA для поддержки других архитектур нейронных сетей и приложений. Также будет проводиться дополнительный анализ эффективности на более крупных реальных данных.
Abstract
Anomaly detection (AD) plays a vital role across a wide range of domains, but
its performance might deteriorate when applied to target domains with limited
data. Domain Adaptation (DA) offers a solution by transferring knowledge from a
related source domain with abundant data. However, this adaptation process can
introduce additional uncertainty, making it difficult to draw statistically
valid conclusions from AD results. In this paper, we propose STAND-DA -- a
novel framework for statistically rigorous Autoencoder-based AD after
Representation Learning-based DA. Built on the Selective Inference (SI)
framework, STAND-DA computes valid $p$-values for detected anomalies and
rigorously controls the false positive rate below a pre-specified level
$\alpha$ (e.g., 0.05). To address the computational challenges of applying SI
to deep learning models, we develop the GPU-accelerated SI implementation,
significantly enhancing both scalability and runtime performance. This
advancement makes SI practically feasible for modern, large-scale deep
architectures. Extensive experiments on synthetic and real-world datasets
validate the theoretical results and computational efficiency of the proposed
STAND-DA method.
Ссылки и действия
Дополнительные ресурсы: