Statistical Inference for Autoencoder-based Anomaly Detection after Representation Learning-based Domain Adaptation

2508.07049v1 stat.ML, cs.LG 2025-08-13
Авторы:

Tran Tuan Kiet, Nguyen Thang Loi, Vo Nguyen Le Duy

Резюме на русском

#### Контекст Аномалийное детектирование (AD) широко применяется в различных областях, включая медицину, финансы, ИТ-безопасность и промышленность. Однако применение AD в целевых доменах с ограниченными данными часто приводит к понижению точности и надежности результатов. Для улучшения производительности AD в таких ситуациях вводится подход доменной адаптации (DA), который предполагает передачу знаний из домена-источника, где данных достаточно, в целевой домен. Тем не менее, этот процесс может привести к новым неопределенностям, снижающим доверие к результатам AD. Цель нашей работы — разработать метод, обеспечивающий статистическую значимость результатов AD после использования DA. #### Метод Мы предлагаем STAND-DA — фреймворк, который объединяет представление объектов (Representation Learning) и доменную адаптацию (Domain Adaptation) в рамках Selective Inference (SI) фреймворка. Этот подход позволяет вычислить статистически достоверные $p$-значения для выявленных аномалий и управлять фальсидыми срабатываниями порогом $\alpha$, например, 0.05. Чтобы решить проблемы скорости и масштабируемости при работе с глубокими нейронными сетями, мы разработали GPU-акселерацию для SI, что позволяет эффективно использовать его в современных моделях. #### Результаты Мы провести эксперименты с синтетическими и реальными данными, сопоставив STAND-DA с другими подходами. Результаты показали, что наш метод обеспечивает высокую точность и достоверность в определении аномалий, даже при небольших объемах данных в целевом домене. Также были сравнены скорости выполнения STAND-DA и других подходов, подтверждая значительное увеличение производительности благодаря GPU-акселерации. #### Значимость STAND-DA может быть применен в таких областях, как безопасность систем, финансовый мониторинг, диагностика и техническое обслуживание. Он обеспечивает улучшенную надежность и точность результатов AD в условиях ограниченных данных, предоставляя статистически значимые выводы. Благодаря GPU-акселерации, STAND-DA эффективно работает с большими моделями и данными, что делает его применимым в многочисленных практических задачах. #### Выводы STAND-DA является первым подходом, объединяющим SI, AD и DA, обеспечивающий статистическую значимость результатов. В будущем планируется расширить функционал STAND-DA для поддержки других архитектур нейронных сетей и приложений. Также будет проводиться дополнительный анализ эффективности на более крупных реальных данных.

Abstract

Anomaly detection (AD) plays a vital role across a wide range of domains, but its performance might deteriorate when applied to target domains with limited data. Domain Adaptation (DA) offers a solution by transferring knowledge from a related source domain with abundant data. However, this adaptation process can introduce additional uncertainty, making it difficult to draw statistically valid conclusions from AD results. In this paper, we propose STAND-DA -- a novel framework for statistically rigorous Autoencoder-based AD after Representation Learning-based DA. Built on the Selective Inference (SI) framework, STAND-DA computes valid $p$-values for detected anomalies and rigorously controls the false positive rate below a pre-specified level $\alpha$ (e.g., 0.05). To address the computational challenges of applying SI to deep learning models, we develop the GPU-accelerated SI implementation, significantly enhancing both scalability and runtime performance. This advancement makes SI practically feasible for modern, large-scale deep architectures. Extensive experiments on synthetic and real-world datasets validate the theoretical results and computational efficiency of the proposed STAND-DA method.

Ссылки и действия