## Контекст
Киберугрозы становятся все более сложными, многоуровневыми и скрытыми, что затрудняет их предвидение и противостояние. Чтобы эффективно сражаться с этими угрозами, организации полагаются на Cyber Threat Intelligence (CTI) — информацию об угрозах, которая позволяет прогнозировать, обнаруживать и минимизировать воздействие кибератак. Однако эффективность CTI определяется качеством данных, которые используются для обучения моделей, их тестирования и сравнения. В связи с постоянным изменением киберугроз и атачерских технологий необходимо постоянно обновлять и расширять CTI-данные. Недавно Telegram получил популярность как источник CTI, поскольку он предоставляет актуальную и разнообразную информацию о киберугрозах. Этот рабочий процесс адресует проблему создания CTI-данных через автоматизацию сбора и фильтрации содержимого из Telegram.
## Метод
Для построения CTI-данных был разработан автоматизированный пайплайн, который автоматически собирает и отбирает угрожающую информацию из Telegram. Этот процесс начинается с идентификации релевантных Telegram-каналов, связанных с кибербезопасностью. Затем, используя пайплайн, были собраны 145 349 сообщений из 12 каналов, выбранных из 150 источников. Для того, чтобы отфильтровать угрожающую информацию от нерелевантного контента, был использован BERT-базированный классификатор. Этот классификатор достиг точности 96.64% в отборе релевантных CTI-данных. Отфильтрованные данные включают 86 509 угроз, таких как домены, IP-адреса, URL-адреса, хеши и CVE-идентификаторы. Эта методология обеспечивает построение большого, высококачественного набора данных CTI.
## Результаты
Проведенные эксперименты показали, что автоматизированный пайплайн эффективно собирает и отбирает угрожающую информацию из Telegram. Отфильтрованные данные включают 86 509 угрозных элементов, таких как домены, IP-адреса, URL-адреса, хеши и CVE-идентификаторы. Базовый классификатор BERT достиг точности 96.64% в классификации релевантности сообщений. Эти результаты указывают на успех решения проблемы сбора и фильтрации информации в Telegram, что дает возможность создавать богатые и качественные данные CTI.
## Значимость
Возможности этого подхода распространяются на различные области. Этот набор данных может использоваться для обучения и тестирования моделей анализа киберугроз, для создания б BENCHMARKS, для разработки навыков в сфере безопасности информационных технологий. Он также может быть применен в оперативных задачах, таких как мониторинг угроз и реагирование на них в реальном времени. Этот подхо