Rare anomalies require large datasets: About proving the existence of anomalies
2508.09894v1
cs.LG, cs.AI
2025-08-15
Авторы:
Simon Klüttermann, Emmanuel Müller
Резюме на русском
#### Контекст
Детекция аномалий является основополагающим заданием в многих областях, включая безопасность, мониторинг систем, финансы и здравоохранение. Однако, существуют ситуации, когда аномалии являются такими редкими, что их существование становится трудно доказать. Эта проблема остается недостаточно исследована в литературе по детекции аномалий. Целью данного исследования является изучение условий, при которых можно убедиться в существовании аномалий в заданном данным ему датасете. Этот вопрос имеет решающее значение для разработки эффективных методов детекции аномалий и их практического применения.
#### Метод
Предлагаемая методология основывается на осуществлении статистических тестов для оценки распределения данных. Алгоритмы детекции аномалий применяются к различным датасетам с искусственной инъекцией аномалий. Модель анализирует поведение аномалий в зависимости от размера датасета, их редкости (крайности) и параметров алгоритмов детекции. Используется широкий спектл алгоритмов, включая локальные опорные векторы, автокодировщики и др. Таким образом, модель проверяет, какие условия должны выполняться для того, чтобы доказать существование аномалий.
#### Результаты
Исследование проводилось на более чем трех миллионах статистических тестов, проведенных на различных датасетах и алгоритмах. Найдено, что для определения существования аномалий в датасете удовлетворяются следующие условия: $ N \geq \frac{\alpha_{\text{algo}}}{\nu^2} $, где $ N $ — размер датасета, $ \nu $ — процент инъекций аномалий, $ \alpha_{\text{algo}} $ — константа, зависящая от выбранного алгоритма. Данные эксперименты показали, что для малых значений $ \nu $ и $ N $, доказательство существования аномалий становится невозможным. Таким образом, этот подход устанавливает минимальную границу для размера датасета, необходимого для подтверждения существования аномалий.
#### Значимость
Результаты имеют практическое значение для разработки алгоритмов детекции аномалий. Они позволяют определить, для каких видов аномалий (например, редких или чрезвычайно редких) статистические методы могут быть эффективными. Это имеет приложение в таких областях, как безопасность информационных систем, мониторинг инфраструктурных систем и детекция мошенничества. Данный подход позволяет также избегать ненужных исследований, когда доказательство существования аномалий невозможно.
#### Выводы
Данное исследование устанавливает новый подход к доказательству существования аномалий в данных. Оно показывает, что есть определенные границы, под которыми статистические м
Abstract
Detecting whether any anomalies exist within a dataset is crucial for
effective anomaly detection, yet it remains surprisingly underexplored in
anomaly detection literature. This paper presents a comprehensive study that
addresses the fundamental question: When can we conclusively determine that
anomalies are present? Through extensive experimentation involving over three
million statistical tests across various anomaly detection tasks and
algorithms, we identify a relationship between the dataset size, contamination
rate, and an algorithm-dependent constant $ \alpha_{\text{algo}} $. Our results
demonstrate that, for an unlabeled dataset of size $ N $ and contamination rate
$ \nu $, the condition $ N \ge \frac{\alpha_{\text{algo}}}{\nu^2} $ represents
a lower bound on the number of samples required to confirm anomaly existence.
This threshold implies a limit to how rare anomalies can be before proving
their existence becomes infeasible.
Ссылки и действия
Дополнительные ресурсы: