📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Enhance the machine learning algorithm performance in phishing detection with keyword features

2025-08-15

Авторы:

Zijiang Yang

#### Контекст В последние годы становится очевидным возрастание числа фишинговых атак в сети Интернет. Фишинг — это тип атаки, в ходе которой злоумышленник создает поддельный сайт, аналогичный настоящему, с целью подловить конфиденциальную информацию пользователей. Такая атака может привести к краже личных данных и финансовым потерям. Для предотвращения таких угроз ключевой задачей является раннее обнаружение фишинговых веб-сайтов. Несмотря на то, что ранее были предложены различные машинные обучаемые модели, которые способны различать легитимные сайты от фишинговых, недостаточное внимание было уделено выбору эффективных признаков. Мы предлагаем новый подход, включающий в эти модели дополнительные ключевые слова, что позволяет улучшить их работу. #### Метод Мы предлагаем интегрировать ключевые слова из URL-адресов в существующие машинные обучаемые модели. Для этого мы разрабатываем алгоритм, который извлекает ключевые слова из URL-адресов и объединяет их с традиционными признаками, такими как длина URL-адреса, частота символов, и т.д. Наша методика может быть использована для всех основных машинных обучаемых моделей, таких как линейный логистический регрессор, SVM и др. Мы приводим эксперименты с разными наборами данных и показываем, что наш подход снижает ошибку классификации на 30% для больших данных и даже более существенно — для малых наборов. Для получения результатов мы используем множество машинных обучаемых моделей, включая линейный регрессор, SVM и другие. #### Результаты Мы проводим эксперименты с разными машинными обучаемыми моделями, включая линейный логистический регрессор, SVM, рукописный регрессор и др. Эксперименты проводятся на разных наборах данных, включая большие и малые. Наши результаты показывают, что применение нашего метода может снизить ошибку классификации на 30% для больших наборов данных. Эффект значительнее для малых наборов данных. Мы получаем достижение точности 99,68% при использовании лучшей модели. Кроме того, наш алгоритм не требует дополнительных данных из сторонних источников, что делает его более универсальным. #### Значимость Метод, предложенный в нашей работе, может применяться в различных областях безопасности, в том числе для защиты пользователей от фишинга. Он показывает высокую точность, даже при работе с небольшими наборами данных. Важно отметить, что наша методика не зависит от сторонних сервисов и полагается только на данные, извлекаемые из URL-адреса. Это делает её эффективной и простую в реализации. Мы считаем, что наш подход может быть использован в дальнейшем для улучшения других алго

Annotation:

Recently, we can observe a significant increase of the phishing attacks in the Internet. In a typical phishing attack, the attacker sets up a malicious website that looks similar to the legitimate website in order to obtain the end-users' information. This may cause the leakage of the sensitive information and the financial loss for the end-users. To avoid such attacks, the early detection of these websites' URLs is vital and necessary. Previous researchers have proposed many machine learning al...

ID: 2508.09765v1 cs.CR, cs.AI, cs.LG, cs.NE

arXiv PDF