Dual-Path Phishing Detection: Integrating Transformer-Based NLP with Structural URL Analysis
2509.20972v1
cs.CR, cs.AI
2025-09-27
Авторы:
Ibrahim Altan, Abdulla Bachir, Yousuf Parbhulkar, Abdul Muksith Rizvi, Moshiur Farazi
Резюме на русском
## Контекст
Фишинговые атаки становятся все более опасными и развитыми, нацеленными на эксплуатацию пробелов в системах безопасности электронной почты. Традиционные методы обнаружения таких атак часто ограничиваются анализом только текста сообщений или URL-адресов, не учитывая их взаимосвязь. Это приводит к неэффективности в обнаружении современных фишинговых угроз. Целью нашей работы является разработка метода, который комбинирует анализ содержания электронных писем и их структурных компонентов, чтобы повысить точность обнаружения фишинговых почтовых сообщений.
## Метод
Мы предлагаем двухпутевую систему обнаружения фишинга, которая сливает методы естественного языка (NLP) и анализа структуры URL. Для обработки текста используется модель DistilBERT – трансформер, прикладывающий усилия для точного выделения понятий в тексте и отделения ненужных спама. Для анализа URL-адресов применяется TF-IDF векторизация на уровне символов, которая позволяет выявить структурные характеристики нарушений безопасности. Эти два модуля работают вместе, объединяя семантический контекст текста с техническими признаками ссылок. Существует возможность использовать как отдельные модели, так и объединенную версию для увеличения точности.
## Результаты
Мы провели эксперименты с реальными данными, включая набор электронных писем и URL-адресов. DistilBERT показал высокую точность в обнаружении фишинговых сообщений, сбалансированную с низким потреблением ресурсов. TF-IDF векторизация с Random Forest также достигла высоких результатов в выявлении фишинговых URL-адресов. Интеграция двух моделей демонстрирует существенное повышение точности и устойчивости в сравнении с отдельными подходами.
## Значимость
Наш подход может применяться в системах мониторинга электронной почты для обнаружения фишинга. Он обладает высокой точностью, гибкостью и практическим значением в реальных условиях. Это решение может повысить уровень безопасности электронной почты, снизив риск утечки данных и финансовых потерь.
## Выводы
Мы доказали, что двухпутевый подход к обнаружению фишинга, комбинирующий трансформерные модели и классические методы, эффективен. Наша работа открывает новые возможности для улучшения безопасности электронной почты и может поinspire other researchers to explore hybrid approaches in cybersecurity.
Abstract
Phishing emails pose a persistent and increasingly sophisticated threat,
undermining email security through deceptive tactics designed to exploit both
semantic and structural vulnerabilities. Traditional detection methods, often
based on isolated analysis of email content or embedded URLs, fail to
comprehensively address these evolving attacks. In this paper, we propose a
dual-path phishing detection framework that integrates transformer-based
natural language processing (NLP) with classical machine learning to jointly
analyze email text and embedded URLs. Our approach leverages the complementary
strengths of semantic analysis using fine-tuned transformer architectures
(e.g., DistilBERT) and structural link analysis via character-level TF-IDF
vectorization paired with classical classifiers (e.g., Random Forest).
Empirical evaluation on representative email and URL datasets demonstrates that
this combined approach significantly improves detection accuracy. Specifically,
the DistilBERT model achieves a near-optimal balance between accuracy and
computational efficiency for textual phishing detection, while Random Forest
notably outperforms other classical classifiers in identifying malicious URLs.
The modular design allows flexibility for standalone deployment or ensemble
integration, facilitating real-world adoption. Collectively, our results
highlight the efficacy and practical value of this dual-path approach,
establishing a scalable, accurate, and interpretable solution capable of
enhancing email security against contemporary phishing threats.
Ссылки и действия
Дополнительные ресурсы: