E-PhishGen: Unlocking Novel Research in Phishing Email Detection

2509.01791v1 cs.CR, cs.AI 2025-09-05
Авторы:

Luca Pajola, Eugenio Caripoti, Simeone Pizzi, Mauro Conti, Stefan Banzer, Giovanni Apruzzese

Резюме на русском

## Контекст Область исследования спама и фишинга в электронной почте широко изучена, но проблема ее эффективного контроля остается открытой. Несмотря на многочисленные попытки разработать методы, наблюдаются как высокая точность, так и существенные ограничения. Одной из главных проблем является недостаточная репрезентативность используемых данных в научных работах. Большая часть исследований ограничивается англоязычными данными, хотя в реальности фишинговые почтовые письма могут иметь разнообразные формы и языки. Это приводит к развитию детекторов, которые могут не подходить для других языков и стилей. Кроме того, многие методы показывают высокую точность при тестировании на одних и тех же данных, в результате чего становится сложно предложить что-то новое. Здесь вступает в работу E-PhishGen, предлагающий новый подход к генерации более реалистичных наборов данных для тестирования. ## Метод E-PhishGen — это фреймворк на основе генеративных технологий, основанных на технологиях трансформар-вербализации, который способен генерировать реалистичные электронные письма с фишинговыми характеристиками. Он использует модели трансформера для генерирования писем на разных языках, включая итальянский, немецкий и английский, чтобы добиться более широкого представления реальных тенденций. Данный подход позволяет создавать более сложные и реалистичные данные для тестирования, которые могут лучше отражать современные фишинговые угрозы. Более того, E-PhishGen уделяет особое внимание приватности, используя конфиденциальные данные, чтобы создать более реалистичные сценарии, не подвергая пользователей риску. ## Результаты Используя E-PhishGen, авторы создали набор данных E-PhishLLM, содержащий 16 616 электронных писем на трех языках. Данный набор был протестирован на различных детекторах, включая стандартные технологии и новые модели трансформар-вербализации. Результаты показали, что предыдущие методы, которые достигали высокой точности на стандартных наборах данных, оказались неэффективными на E-PhishLLM. Это указывает на то, что существует большой потенциал для развития эффективных детекторов. Также проводился пользовательский испытаний с участием 30 человек, чтобы проверить качество генерируемых данных. На основании результатов испытаний было показано, что E-PhishLLM лучше отражает реальные фишинговые угрозы, чем существующие наборы данных. ## Значимость E-PhishGen может быть применен в различных областях, включая безопасность интернета, мониторинг электронной почты и развитие

Abstract

Every day, our inboxes are flooded with unsolicited emails, ranging between annoying spam to more subtle phishing scams. Unfortunately, despite abundant prior efforts proposing solutions achieving near-perfect accuracy, the reality is that countering malicious emails still remains an unsolved dilemma. This "open problem" paper carries out a critical assessment of scientific works in the context of phishing email detection. First, we focus on the benchmark datasets that have been used to assess the methods proposed in research. We find that most prior work relied on datasets containing emails that -- we argue -- are not representative of current trends, and mostly encompass the English language. Based on this finding, we then re-implement and re-assess a variety of detection methods reliant on machine learning (ML), including large-language models (LLM), and release all of our codebase -- an (unfortunately) uncommon practice in related research. We show that most such methods achieve near-perfect performance when trained and tested on the same dataset -- a result which intrinsically hinders development (how can future research outperform methods that are already near perfect?). To foster the creation of "more challenging benchmarks" that reflect current phishing trends, we propose E-PhishGEN, an LLM-based (and privacy-savvy) framework to generate novel phishing-email datasets. We use our E-PhishGEN to create E-PhishLLM, a novel phishing-email detection dataset containing 16616 emails in three languages. We use E-PhishLLM to test the detectors we considered, showing a much lower performance than that achieved on existing benchmarks -- indicating a larger room for improvement. We also validate the quality of E-PhishLLM with a user study (n=30). To sum up, we show that phishing email detection is still an open problem -- and provide the means to tackle such a problem by future research.

Ссылки и действия