Enhance the machine learning algorithm performance in phishing detection with keyword features
2508.09765v1
cs.CR, cs.AI, cs.LG, cs.NE
2025-08-15
Авторы:
Zijiang Yang
Резюме на русском
#### Контекст
В последние годы становится очевидным возрастание числа фишинговых атак в сети Интернет. Фишинг — это тип атаки, в ходе которой злоумышленник создает поддельный сайт, аналогичный настоящему, с целью подловить конфиденциальную информацию пользователей. Такая атака может привести к краже личных данных и финансовым потерям. Для предотвращения таких угроз ключевой задачей является раннее обнаружение фишинговых веб-сайтов. Несмотря на то, что ранее были предложены различные машинные обучаемые модели, которые способны различать легитимные сайты от фишинговых, недостаточное внимание было уделено выбору эффективных признаков. Мы предлагаем новый подход, включающий в эти модели дополнительные ключевые слова, что позволяет улучшить их работу.
#### Метод
Мы предлагаем интегрировать ключевые слова из URL-адресов в существующие машинные обучаемые модели. Для этого мы разрабатываем алгоритм, который извлекает ключевые слова из URL-адресов и объединяет их с традиционными признаками, такими как длина URL-адреса, частота символов, и т.д. Наша методика может быть использована для всех основных машинных обучаемых моделей, таких как линейный логистический регрессор, SVM и др. Мы приводим эксперименты с разными наборами данных и показываем, что наш подход снижает ошибку классификации на 30% для больших данных и даже более существенно — для малых наборов. Для получения результатов мы используем множество машинных обучаемых моделей, включая линейный регрессор, SVM и другие.
#### Результаты
Мы проводим эксперименты с разными машинными обучаемыми моделями, включая линейный логистический регрессор, SVM, рукописный регрессор и др. Эксперименты проводятся на разных наборах данных, включая большие и малые. Наши результаты показывают, что применение нашего метода может снизить ошибку классификации на 30% для больших наборов данных. Эффект значительнее для малых наборов данных. Мы получаем достижение точности 99,68% при использовании лучшей модели. Кроме того, наш алгоритм не требует дополнительных данных из сторонних источников, что делает его более универсальным.
#### Значимость
Метод, предложенный в нашей работе, может применяться в различных областях безопасности, в том числе для защиты пользователей от фишинга. Он показывает высокую точность, даже при работе с небольшими наборами данных. Важно отметить, что наша методика не зависит от сторонних сервисов и полагается только на данные, извлекаемые из URL-адреса. Это делает её эффективной и простую в реализации. Мы считаем, что наш подход может быть использован в дальнейшем для улучшения других алго
Abstract
Recently, we can observe a significant increase of the phishing attacks in
the Internet. In a typical phishing attack, the attacker sets up a malicious
website that looks similar to the legitimate website in order to obtain the
end-users' information. This may cause the leakage of the sensitive information
and the financial loss for the end-users. To avoid such attacks, the early
detection of these websites' URLs is vital and necessary. Previous researchers
have proposed many machine learning algorithms to distinguish the phishing URLs
from the legitimate ones. In this paper, we would like to enhance these machine
learning algorithms from the perspective of feature selection. We propose a
novel method to incorporate the keyword features with the traditional features.
This method is applied on multiple traditional machine learning algorithms and
the experimental results have shown this method is useful and effective. On
average, this method can reduce the classification error by 30% for the large
dataset. Moreover, its enhancement is more significant for the small dataset.
In addition, this method extracts the information from the URL and does not
rely on the additional information provided by the third-part service. The best
result for the machine learning algorithm using our proposed method has
achieved the accuracy of 99.68%.