2018 - URLNet: Learning a URL Representation with Deep Learning for Malicious URL Detection
Abstract
惡意URL檢測,傳統(tǒng)方法是通過黑名單狈癞,但是這種方法不全面,檢測不到新的惡意URL。近年來機(jī)器學(xué)習(xí)應(yīng)用于惡意URL檢測的研究較多勺卢,最常用的方法是利用URL字符串的詞性特征衷畦,提取詞袋模型员凝,進(jìn)而使用各種機(jī)器學(xué)習(xí)的分類器例如svm等去進(jìn)行訓(xùn)練和檢測,或者也可以使用專家設(shè)計提取的特征去進(jìn)一步提高模型的性能驾霜。但是這些方法都具有局限性:1.無法有效捕獲URL字符串中的語義和序列模式;2.需要大量的人工特征工程买置;3.無法處理在訓(xùn)練數(shù)據(jù)中沒有見過的特征粪糙。本文主要提出了一個端到端的深度學(xué)習(xí)框架URLNet,可以直接從URL去學(xué)習(xí)非線性的URL embedding去檢測惡意URL忿项,具體來說主要將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于URL字符串的字符和單詞蓉冈。這種方法允許模型捕獲幾種類型的語義信息,這是現(xiàn)有模型無法實現(xiàn)的轩触,同時還提出了使用word-embeddings來解決在這個任務(wù)中觀察到的太多罕見詞的問題洒擦。