Every Character Counts: From Vulnerability to Defense in Phishing Detection
2509.20589v1
cs.CR, cs.AI, cs.CL, cs.LG
2025-09-26
Авторы:
Maria Chiper, Radu Tudor Ionescu
Резюме на русском
## Контекст
Phishing — это подмена авторитетного источника со склонностью к мошенничеству, направленная на извлечение чувствительных данных от пользователей. Несмотря на развитие технологий, phishing-атаки остаются одной из самых активных угроз в интернет-безопасности. Они направлены как на физические, так и на юридические лица. Данное исследование фокусируется на разработке эффективных методов по детектированию phishing-атак. Основная проблема заключается в том, что существующие методы часто недостаточно точны и не обладают транспарентностью, что снижает их надежность. Это компрометирует их применение в реальных ситуациях. Мотивация заключается в разработке моделей, которые обеспечат высокую точность, гибкость и понятность решений.
## Метод
Для детектирования phishing-атак используются модели, оперирующие на уровне символов (character-level). Три модели, использованные в исследовании, включают: CharCNN (Convolutional Neural Network), CharGRU (Gated Recurrent Unit) и CharBiLSTM (Bidirectional Long Short-Term Memory). Модели адаптированы для анализа текста на уровне символов. Использованная для обучения и тестирования датасет состоит из электронных писем, собранных из различных источников. Эталонные модели сравниваются в трех сценариях: (i) стандартном обучении и тестировании, (ii) обучении стандартными данными и тестировании с адверсарными атаками и (iii) обучении с адверсарными примерами и тестировании. Для оценки вычислительной эффективности используется строгая ограниченная модель, которая может быть реализована в виде браузерного расширения.
## Результаты
Для стандартного сценария все модели показали высокую точность, но CharGRU (Char-GRU) проявил себя как самая удачная модель в последних двух сценариях. Все модели оказались восприимчивы к адверсарным атакам, но повышение результатов при добавлении адверсарного обучения позволило значительно улучшить их устойчивость. Для улучшения понимания решений моделей, внедрена техника Gradient-weighted Class Activation Mapping (Grad-CAM), позволяющая визуализировать вклад каждого символа в вывод модели. Эта возможность дает пользователям большее уверенность в работе моделей.
## Значимость
Результаты имеют большое значение для различных областей, включая безопасность интернета, технологии мониторинга и автоматического анализа электронной почты. Детальный подробный анализ позволяет понять, какие аспекты каждого письма влияют на вывод моделей. Этот подход может быть применен в браузерных расширениях, предотвращающих phishing-атаки, и дает возможность лучшего понимания стратегий атак. Этот подход повышает потенциал для создания более надежной системы безопасности для пользователей
Abstract
Phishing attacks targeting both organizations and individuals are becoming an
increasingly significant threat as technology advances. Current automatic
detection methods often lack explainability and robustness in detecting new
phishing attacks. In this work, we investigate the effectiveness of
character-level deep learning models for phishing detection, which can provide
both robustness and interpretability. We evaluate three neural architectures
adapted to operate at the character level, namely CharCNN, CharGRU, and
CharBiLSTM, on a custom-built email dataset, which combines data from multiple
sources. Their performance is analyzed under three scenarios: (i) standard
training and testing, (ii) standard training and testing under adversarial
attacks, and (iii) training and testing with adversarial examples. Aiming to
develop a tool that operates as a browser extension, we test all models under
limited computational resources. In this constrained setup, CharGRU proves to
be the best-performing model across all scenarios. All models show
vulnerability to adversarial attacks, but adversarial training substantially
improves their robustness. In addition, by adapting the Gradient-weighted Class
Activation Mapping (Grad-CAM) technique to character-level inputs, we are able
to visualize which parts of each email influence the decision of each model.
Our open-source code and data is released at
https://github.com/chipermaria/every-character-counts.