MALICIOUS URL DETECTION USING CONVOLUTIONAL NEURAL NETWORK - 2017
這篇主要思想是先利用blacklist對URL進行過濾术吝,blacklist里面有的URL直接輸出為惡意,其他URL數(shù)據使用三種算法進行進一步判斷耗式,三種算法依次是:SVM唆垃、邏輯回顧五芝、CNN,其中SVM使用TF-IDF特征辕万,CNN使用word2vec特征枢步。
數(shù)據集:https://github.com/faizann24/Using-machine-learning-to-detect-malicious-URLs/tree/master/data 惡意URL樣本從網站上爬取,正常URL樣本使用現(xiàn)有的渐尿,共420464個URL醉途,其中惡意的有75643個。
結論:SVM和CNN的效果都略好于邏輯回歸