Dual-Path Phishing Detection: Integrating Transformer-Based NLP with Structural URL Analysis

2509.20972v1 cs.CR, cs.AI 2025-09-27
Авторы:

Ibrahim Altan, Abdulla Bachir, Yousuf Parbhulkar, Abdul Muksith Rizvi, Moshiur Farazi

Резюме на русском

## Контекст Фишинговые атаки становятся все более опасными и развитыми, нацеленными на эксплуатацию пробелов в системах безопасности электронной почты. Традиционные методы обнаружения таких атак часто ограничиваются анализом только текста сообщений или URL-адресов, не учитывая их взаимосвязь. Это приводит к неэффективности в обнаружении современных фишинговых угроз. Целью нашей работы является разработка метода, который комбинирует анализ содержания электронных писем и их структурных компонентов, чтобы повысить точность обнаружения фишинговых почтовых сообщений. ## Метод Мы предлагаем двухпутевую систему обнаружения фишинга, которая сливает методы естественного языка (NLP) и анализа структуры URL. Для обработки текста используется модель DistilBERT – трансформер, прикладывающий усилия для точного выделения понятий в тексте и отделения ненужных спама. Для анализа URL-адресов применяется TF-IDF векторизация на уровне символов, которая позволяет выявить структурные характеристики нарушений безопасности. Эти два модуля работают вместе, объединяя семантический контекст текста с техническими признаками ссылок. Существует возможность использовать как отдельные модели, так и объединенную версию для увеличения точности. ## Результаты Мы провели эксперименты с реальными данными, включая набор электронных писем и URL-адресов. DistilBERT показал высокую точность в обнаружении фишинговых сообщений, сбалансированную с низким потреблением ресурсов. TF-IDF векторизация с Random Forest также достигла высоких результатов в выявлении фишинговых URL-адресов. Интеграция двух моделей демонстрирует существенное повышение точности и устойчивости в сравнении с отдельными подходами. ## Значимость Наш подход может применяться в системах мониторинга электронной почты для обнаружения фишинга. Он обладает высокой точностью, гибкостью и практическим значением в реальных условиях. Это решение может повысить уровень безопасности электронной почты, снизив риск утечки данных и финансовых потерь. ## Выводы Мы доказали, что двухпутевый подход к обнаружению фишинга, комбинирующий трансформерные модели и классические методы, эффективен. Наша работа открывает новые возможности для улучшения безопасности электронной почты и может поinspire other researchers to explore hybrid approaches in cybersecurity.

Abstract

Phishing emails pose a persistent and increasingly sophisticated threat, undermining email security through deceptive tactics designed to exploit both semantic and structural vulnerabilities. Traditional detection methods, often based on isolated analysis of email content or embedded URLs, fail to comprehensively address these evolving attacks. In this paper, we propose a dual-path phishing detection framework that integrates transformer-based natural language processing (NLP) with classical machine learning to jointly analyze email text and embedded URLs. Our approach leverages the complementary strengths of semantic analysis using fine-tuned transformer architectures (e.g., DistilBERT) and structural link analysis via character-level TF-IDF vectorization paired with classical classifiers (e.g., Random Forest). Empirical evaluation on representative email and URL datasets demonstrates that this combined approach significantly improves detection accuracy. Specifically, the DistilBERT model achieves a near-optimal balance between accuracy and computational efficiency for textual phishing detection, while Random Forest notably outperforms other classical classifiers in identifying malicious URLs. The modular design allows flexibility for standalone deployment or ensemble integration, facilitating real-world adoption. Collectively, our results highlight the efficacy and practical value of this dual-path approach, establishing a scalable, accurate, and interpretable solution capable of enhancing email security against contemporary phishing threats.

Ссылки и действия