CTI Dataset Construction from Telegram

2509.20943v1 cs.CR, cs.AI, cs.ET 2025-09-27
Авторы:

Dincy R. Arikkat, Sneha B. T., Serena Nicolazzo, Antonino Nocera, Vinod P., Rafidha Rehiman K. A., Karthika R

Резюме на русском

## Контекст Киберугрозы становятся все более сложными, многоуровневыми и скрытыми, что затрудняет их предвидение и противостояние. Чтобы эффективно сражаться с этими угрозами, организации полагаются на Cyber Threat Intelligence (CTI) — информацию об угрозах, которая позволяет прогнозировать, обнаруживать и минимизировать воздействие кибератак. Однако эффективность CTI определяется качеством данных, которые используются для обучения моделей, их тестирования и сравнения. В связи с постоянным изменением киберугроз и атачерских технологий необходимо постоянно обновлять и расширять CTI-данные. Недавно Telegram получил популярность как источник CTI, поскольку он предоставляет актуальную и разнообразную информацию о киберугрозах. Этот рабочий процесс адресует проблему создания CTI-данных через автоматизацию сбора и фильтрации содержимого из Telegram. ## Метод Для построения CTI-данных был разработан автоматизированный пайплайн, который автоматически собирает и отбирает угрожающую информацию из Telegram. Этот процесс начинается с идентификации релевантных Telegram-каналов, связанных с кибербезопасностью. Затем, используя пайплайн, были собраны 145 349 сообщений из 12 каналов, выбранных из 150 источников. Для того, чтобы отфильтровать угрожающую информацию от нерелевантного контента, был использован BERT-базированный классификатор. Этот классификатор достиг точности 96.64% в отборе релевантных CTI-данных. Отфильтрованные данные включают 86 509 угроз, таких как домены, IP-адреса, URL-адреса, хеши и CVE-идентификаторы. Эта методология обеспечивает построение большого, высококачественного набора данных CTI. ## Результаты Проведенные эксперименты показали, что автоматизированный пайплайн эффективно собирает и отбирает угрожающую информацию из Telegram. Отфильтрованные данные включают 86 509 угрозных элементов, таких как домены, IP-адреса, URL-адреса, хеши и CVE-идентификаторы. Базовый классификатор BERT достиг точности 96.64% в классификации релевантности сообщений. Эти результаты указывают на успех решения проблемы сбора и фильтрации информации в Telegram, что дает возможность создавать богатые и качественные данные CTI. ## Значимость Возможности этого подхода распространяются на различные области. Этот набор данных может использоваться для обучения и тестирования моделей анализа киберугроз, для создания б BENCHMARKS, для разработки навыков в сфере безопасности информационных технологий. Он также может быть применен в оперативных задачах, таких как мониторинг угроз и реагирование на них в реальном времени. Этот подхо

Abstract

Cyber Threat Intelligence (CTI) enables organizations to anticipate, detect, and mitigate evolving cyber threats. Its effectiveness depends on high-quality datasets, which support model development, training, evaluation, and benchmarking. Building such datasets is crucial, as attack vectors and adversary tactics continually evolve. Recently, Telegram has gained prominence as a valuable CTI source, offering timely and diverse threat-related information that can help address these challenges. In this work, we address these challenges by presenting an end-to-end automated pipeline that systematically collects and filters threat-related content from Telegram. The pipeline identifies relevant Telegram channels and scrapes 145,349 messages from 12 curated channels out of 150 identified sources. To accurately filter threat intelligence messages from generic content, we employ a BERT-based classifier, achieving an accuracy of 96.64%. From the filtered messages, we compile a dataset of 86,509 malicious Indicators of Compromise, including domains, IPs, URLs, hashes, and CVEs. This approach not only produces a large-scale, high-fidelity CTI dataset but also establishes a foundation for future research and operational applications in cyber threat detection.

Ссылки и действия

Связанные статьи

Fortifying the Agentic Web: A Unified Zero-Trust Architecture Against Logic-laye...

## Контекст Область исследования связана с проблематикой обеспечения безопасности в современных веб-средах, где активно ...

2025-08-22

Fortifying the Agentic Web: A Unified Zero-Trust Architecture Against Logic-laye...

## Контекст Область исследования сосредоточена на создании безопасных и надежных систем для агентских веб-приложений, на...

2025-08-20

Fortifying the Agentic Web: A Unified Zero-Trust Architecture Against Logic-laye...

## Контекст Область исследования связана с усилением безопасности в сетевых системах, одной из ключевых задач которой яв...

2025-08-19