Rare anomalies require large datasets: About proving the existence of anomalies

2508.09894v1 cs.LG, cs.AI 2025-08-15
Авторы:

Simon Klüttermann, Emmanuel Müller

Резюме на русском

#### Контекст Детекция аномалий является основополагающим заданием в многих областях, включая безопасность, мониторинг систем, финансы и здравоохранение. Однако, существуют ситуации, когда аномалии являются такими редкими, что их существование становится трудно доказать. Эта проблема остается недостаточно исследована в литературе по детекции аномалий. Целью данного исследования является изучение условий, при которых можно убедиться в существовании аномалий в заданном данным ему датасете. Этот вопрос имеет решающее значение для разработки эффективных методов детекции аномалий и их практического применения. #### Метод Предлагаемая методология основывается на осуществлении статистических тестов для оценки распределения данных. Алгоритмы детекции аномалий применяются к различным датасетам с искусственной инъекцией аномалий. Модель анализирует поведение аномалий в зависимости от размера датасета, их редкости (крайности) и параметров алгоритмов детекции. Используется широкий спектл алгоритмов, включая локальные опорные векторы, автокодировщики и др. Таким образом, модель проверяет, какие условия должны выполняться для того, чтобы доказать существование аномалий. #### Результаты Исследование проводилось на более чем трех миллионах статистических тестов, проведенных на различных датасетах и алгоритмах. Найдено, что для определения существования аномалий в датасете удовлетворяются следующие условия: $ N \geq \frac{\alpha_{\text{algo}}}{\nu^2} $, где $ N $ — размер датасета, $ \nu $ — процент инъекций аномалий, $ \alpha_{\text{algo}} $ — константа, зависящая от выбранного алгоритма. Данные эксперименты показали, что для малых значений $ \nu $ и $ N $, доказательство существования аномалий становится невозможным. Таким образом, этот подход устанавливает минимальную границу для размера датасета, необходимого для подтверждения существования аномалий. #### Значимость Результаты имеют практическое значение для разработки алгоритмов детекции аномалий. Они позволяют определить, для каких видов аномалий (например, редких или чрезвычайно редких) статистические методы могут быть эффективными. Это имеет приложение в таких областях, как безопасность информационных систем, мониторинг инфраструктурных систем и детекция мошенничества. Данный подход позволяет также избегать ненужных исследований, когда доказательство существования аномалий невозможно. #### Выводы Данное исследование устанавливает новый подход к доказательству существования аномалий в данных. Оно показывает, что есть определенные границы, под которыми статистические м

Abstract

Detecting whether any anomalies exist within a dataset is crucial for effective anomaly detection, yet it remains surprisingly underexplored in anomaly detection literature. This paper presents a comprehensive study that addresses the fundamental question: When can we conclusively determine that anomalies are present? Through extensive experimentation involving over three million statistical tests across various anomaly detection tasks and algorithms, we identify a relationship between the dataset size, contamination rate, and an algorithm-dependent constant $ \alpha_{\text{algo}} $. Our results demonstrate that, for an unlabeled dataset of size $ N $ and contamination rate $ \nu $, the condition $ N \ge \frac{\alpha_{\text{algo}}}{\nu^2} $ represents a lower bound on the number of samples required to confirm anomaly existence. This threshold implies a limit to how rare anomalies can be before proving their existence becomes infeasible.

Ссылки и действия