📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Enhance the machine learning algorithm performance in phishing detection with keyword features
2025-08-15Авторы:
Zijiang Yang
#### Контекст
В последние годы становится очевидным возрастание числа фишинговых атак в сети Интернет. Фишинг — это тип атаки, в ходе которой злоумышленник создает поддельный сайт, аналогичный настоящему, с целью подловить конфиденциальную информацию пользователей. Такая атака может привести к краже личных данных и финансовым потерям. Для предотвращения таких угроз ключевой задачей является раннее обнаружение фишинговых веб-сайтов. Несмотря на то, что ранее были предложены различные машинные обучаемые модели, которые способны различать легитимные сайты от фишинговых, недостаточное внимание было уделено выбору эффективных признаков. Мы предлагаем новый подход, включающий в эти модели дополнительные ключевые слова, что позволяет улучшить их работу.
#### Метод
Мы предлагаем интегрировать ключевые слова из URL-адресов в существующие машинные обучаемые модели. Для этого мы разрабатываем алгоритм, который извлекает ключевые слова из URL-адресов и объединяет их с традиционными признаками, такими как длина URL-адреса, частота символов, и т.д. Наша методика может быть использована для всех основных машинных обучаемых моделей, таких как линейный логистический регрессор, SVM и др. Мы приводим эксперименты с разными наборами данных и показываем, что наш подход снижает ошибку классификации на 30% для больших данных и даже более существенно — для малых наборов. Для получения результатов мы используем множество машинных обучаемых моделей, включая линейный регрессор, SVM и другие.
#### Результаты
Мы проводим эксперименты с разными машинными обучаемыми моделями, включая линейный логистический регрессор, SVM, рукописный регрессор и др. Эксперименты проводятся на разных наборах данных, включая большие и малые. Наши результаты показывают, что применение нашего метода может снизить ошибку классификации на 30% для больших наборов данных. Эффект значительнее для малых наборов данных. Мы получаем достижение точности 99,68% при использовании лучшей модели. Кроме того, наш алгоритм не требует дополнительных данных из сторонних источников, что делает его более универсальным.
#### Значимость
Метод, предложенный в нашей работе, может применяться в различных областях безопасности, в том числе для защиты пользователей от фишинга. Он показывает высокую точность, даже при работе с небольшими наборами данных. Важно отметить, что наша методика не зависит от сторонних сервисов и полагается только на данные, извлекаемые из URL-адреса. Это делает её эффективной и простую в реализации. Мы считаем, что наш подход может быть использован в дальнейшем для улучшения других алго
Annotation:
Recently, we can observe a significant increase of the phishing attacks in
the Internet. In a typical phishing attack, the attacker sets up a malicious
website that looks similar to the legitimate website in order to obtain the
end-users' information. This may cause the leakage of the sensitive information
and the financial loss for the end-users. To avoid such attacks, the early
detection of these websites' URLs is vital and necessary. Previous researchers
have proposed many machine learning al...