Paladin: Defending LLM-enabled Phishing Emails with a New Trigger-Tag Paradigm
2509.07287v1
cs.CR, cs.AI
2025-09-11
Авторы:
Yan Pang, Wenlong Meng, Xiaojing Liao, Tianhao Wang
Резюме на русском
## Контекст
В последнее время значительное внимание уделяется использованию крупных языковых моделей (LLM) в различных приложениях, включая создание контента. Однако эти модели также могут быть использованы в киберпреступлениях, таких как ловля фишинговых писем. Недостаточность существующих подходов к детекции таких сообщений влечет за собой значительные ограничения в способности систем защиты от фишинга. Особенно затруднена детекция сообщений, генерируемых LLM, которые не содержат очевидных языковых ошибок или прочих явных признаков. Наша мотивация в том, чтобы разработать более эффективный подход к детекции таких писем, учитывая уникальные особенности их текстов.
## Метод
Мы предлагаем метод Paladin, основывающийся на инструментировании LLM с помощью триггеров-тегов. Триггеры — это настраиваемые конструкции, встраиваемые в модель, которые гарантированно появятся в генерируемых текстах, если они относятся к фишингу. Теги — это уникальные, удобочитаемые разметки, которые помогают идентифицировать такие тексты. Мы предлагаем различные стратегии интеграции триггеров-тегов, включая одновременную инъекцию на разных уровнях модели. Это позволяет создавать детектируемые, но незаметные для пользователя тэги в тексте.
## Результаты
Мы проводили эксперименты с использованием различных сценариев, включая обычные и специфичные для домена темы. Наши эксперименты показали, что Paladin достигает высокой точности детекции более чем 90%, даже при очень скрытых, незаметных для пользователя тегах. Мы сравнивали наш метод с тремя базовыми методами детекции, и выяснилось, что Paladin показывает значительно лучший результат во всех сценариях. Также мы провели тесты на целостность и скрытость, показав, что теги не влияют на качество создаваемого текста, но очень легко выявляются антифишинговой системой.
## Значимость
Наш подход имеет широкую потенциальную заинтересованность в области безопасности Интернета, особенно в защите от фишинга. Он может быть применен в системах автоматического мониторинга и фильтрации электронной почты, включая облачные сервисы и корпоративные системы. Paladin не только повышает эффективность детекции, но и снижает нагрузку на ресурсы, благодаря тому, что тэги интегрированы непосредственно в процесс генерации текста. Это делает его более практичным и расширяет его потенциал в большом масштабе.
## Выводы
Мы представили метод Paladin, который использует триггеры-теги для защиты от фишинговых сообщений, генерируемых LLM. Наши результаты показали высокую
Abstract
With the rapid development of large language models, the potential threat of
their malicious use, particularly in generating phishing content, is becoming
increasingly prevalent. Leveraging the capabilities of LLMs, malicious users
can synthesize phishing emails that are free from spelling mistakes and other
easily detectable features. Furthermore, such models can generate
topic-specific phishing messages, tailoring content to the target domain and
increasing the likelihood of success.
Detecting such content remains a significant challenge, as LLM-generated
phishing emails often lack clear or distinguishable linguistic features. As a
result, most existing semantic-level detection approaches struggle to identify
them reliably. While certain LLM-based detection methods have shown promise,
they suffer from high computational costs and are constrained by the
performance of the underlying language model, making them impractical for
large-scale deployment.
In this work, we aim to address this issue. We propose Paladin, which embeds
trigger-tag associations into vanilla LLM using various insertion strategies,
creating them into instrumented LLMs. When an instrumented LLM generates
content related to phishing, it will automatically include detectable tags,
enabling easier identification. Based on the design on implicit and explicit
triggers and tags, we consider four distinct scenarios in our work. We evaluate
our method from three key perspectives: stealthiness, effectiveness, and
robustness, and compare it with existing baseline methods. Experimental results
show that our method outperforms the baselines, achieving over 90% detection
accuracy across all scenarios.
Ссылки и действия
Дополнительные ресурсы: