來源:Joint Detection of Malicious Domains and Infected Clients
感染惡意軟件的計算機(jī)的連接和基于加密的HTTPS流量的惡意web域的檢測是具有挑戰(zhàn)性的問題,因?yàn)橹挥械刂犯糇骸r間戳和數(shù)據(jù)量是可見的难菌。檢測問題是耦合的,因?yàn)槭芨腥镜目蛻舳送c惡意域交互甚脉。流量數(shù)據(jù)可以大規(guī)模收集麻蹋,反病毒工具可以用來識別受感染的客戶端堤框。相反康谆,域必須在取證分析后單獨(dú)標(biāo)記抗果。探討了基于閘網(wǎng)絡(luò)的轉(zhuǎn)移學(xué)習(xí)方法;這使得檢測模型來引導(dǎo)對方定页。在一項(xiàng)大規(guī)模的實(shí)驗(yàn)研究中,我們發(fā)現(xiàn)該模型比已知的參考模型性能更好酗电,可以檢測到以前未知的惡意軟件淌山、以前未知的惡意軟件家族和以前未知的惡意域。
1介紹
惡意軟件侵犯了用戶的隱私顾瞻,獲取密碼和個人信息,可以加密用戶的文件索取贖金德绿,用于實(shí)施點(diǎn)擊欺詐荷荤,并通過在社交媒體上推廣特定內(nèi)容來促進(jìn)政治議程(Kogan, 2015)∫莆龋基于客戶機(jī)的防病毒工具使用特定于供應(yīng)商的混合方法蕴纳,包括基于簽名的分析、可移植可執(zhí)行文件的靜態(tài)分析个粱、仿真(在實(shí)際操作系統(tǒng)中執(zhí)行之前不訪問實(shí)際系統(tǒng)資源的部分執(zhí)行)和基于動態(tài)行為的分析來檢測惡意軟件(Swinnen和Mesbahi, 2014)古毛。網(wǎng)絡(luò)流量分析是殺毒軟件的補(bǔ)充,廣泛應(yīng)用于企業(yè)網(wǎng)絡(luò)都许。流量分析允許組織在整個網(wǎng)絡(luò)中一致地實(shí)施可接受使用和安全策略稻薇,并最小化管理開銷。流量分析使得將惡意軟件檢測封裝到網(wǎng)絡(luò)設(shè)備或云服務(wù)中成為可能胶征,這些設(shè)備或云服務(wù)可以檢測多態(tài)惡意軟件(Karim et al.塞椎, 2005)以及基于URL模式(Bartos和Sofka, 2015)的未知惡意軟件。
然而睛低,惡意軟件可以很容易地阻止分析其HTTP有效載荷使用加密的HTTPS協(xié)議案狠。HTTPS本身的使用并不引人注目,因?yàn)楣雀枨住acebook骂铁、LinkedIn和許多其他流行的網(wǎng)站默認(rèn)加密它們的網(wǎng)絡(luò)流量,而且HTTPS的全球數(shù)據(jù)量已經(jīng)超過了HTTP (Finley, 2017)罩抗。為了對HTTPS流量進(jìn)行網(wǎng)絡(luò)流量分析拉庵,現(xiàn)在的組織必須對其網(wǎng)絡(luò)進(jìn)行配置,以便所有web流量都通過web安全服務(wù)器進(jìn)行路由澄暮。該服務(wù)器的根證書必須作為可信證書安裝在所有客戶端計算機(jī)上名段,這允許服務(wù)充當(dāng)客戶端和主機(jī)之間的中間人。它可以解密泣懊、檢查和重新加密HTTPS請求伸辟。這種方法在大型網(wǎng)絡(luò)上的伸縮性很差,因?yàn)榧用懿僮鞯挠嬎汩_銷很大馍刮,而且會給網(wǎng)絡(luò)帶來潛在的漏洞信夫。
在不破壞加密的情況下,HTTPS流量的觀察者只能看到客戶端和主機(jī)的IP地址和端口,以及數(shù)據(jù)包的時間戳和數(shù)據(jù)量静稻。網(wǎng)絡(luò)設(shè)備將一對IP地址和端口之間交換的TCP/IP數(shù)據(jù)包聚合到網(wǎng)絡(luò)流中警没,地址、時間和數(shù)據(jù)量信息保存到日志文件中振湾。大多數(shù)情況下杀迹,觀察者還可以看到未加密的主機(jī)域名。HTTP有效負(fù)載(包括HTTP頭字段和URL)被加密押搪。
網(wǎng)絡(luò)主機(jī)參與了廣泛的非法活動树酪,將已知的惡意域和IP地址的流量列入黑名單是對抗惡意軟件的有效機(jī)制。惡意域可以承載銀行木馬和金融詐騙大州、點(diǎn)擊欺詐服務(wù)器或惡意內(nèi)容分發(fā)中心的后端续语。將一個域識別為惡意需要一個復(fù)雜的取證分析。分析人員必須收集關(guān)于承載域厦画、軟件和使用的技術(shù)的服務(wù)器的信息疮茄,并且可以研究域和共同承載域的所有權(quán),以及觀察主機(jī)的行為根暑。
由于許多類型的惡意活動涉及與基于客戶機(jī)的惡意軟件的交互力试,因此檢測惡意主機(jī)和受感染的客戶機(jī)是耦合問題。在神經(jīng)網(wǎng)絡(luò)環(huán)境中排嫌,相關(guān)任務(wù)的標(biāo)記數(shù)據(jù)常常被設(shè)計成共享部分參數(shù)的耦合網(wǎng)絡(luò)懂版。在水閘網(wǎng)絡(luò)中(Ruder et al., 2017)躏率,參數(shù)共享的程度本身由參數(shù)控制躯畴,這使得輔助數(shù)據(jù)可以作為手頭任務(wù)的靈活先驗(yàn)。
本文其余部分的結(jié)構(gòu)如下薇芝。第二節(jié)回顧相關(guān)工作蓬抄。我們在第3節(jié)中描述我們的操作環(huán)境和數(shù)據(jù),在第4節(jié)中描述問題設(shè)置夯到。在第5節(jié)中嚷缭,我們推導(dǎo)了惡意軟件和惡意域的聯(lián)合檢測模型,并描述了參考方法耍贾。第六部分是實(shí)驗(yàn)阅爽,第七部分是結(jié)論。
2相關(guān)工作
之前的HTTP日志分析工作(Nguyen和Armitage, 2008)已經(jīng)解決了識別命令和控制服務(wù)器(Nelms et al.荐开, 2013)付翁、無監(jiān)督檢測惡意軟件(Kohout和Pevny, 2015b;Bartos等人,2016)晃听,并監(jiān)督檢測惡意軟件使用領(lǐng)域黑名單作為標(biāo)簽(Franc等人百侧,2015;Bartos and Sofka, 2015)砰识。HTTP日志文件包含完整的URL字符串,從中可以提取大量的信息特性(Bartos和Sofka, 2015)佣渴。
最近的大量工作都是通過網(wǎng)絡(luò)流量分析來檢測Android惡意軟件辫狼。Arora等人(2014)使用平均包大小、平均流持續(xù)時間和一小組其他特征來識別一小組48個惡意Android應(yīng)用程序辛润,具有一定的準(zhǔn)確性膨处。Lashkari等(2015)收集了1500個良性和400個惡意的Android應(yīng)用程序,提取了流量持續(xù)時間和流量特征砂竖,并從Weka庫中應(yīng)用了幾種機(jī)器學(xué)習(xí)算法灵迫。他們觀察到個別流量水平的高精度值。Demontis等人(2018)針對這種檢測機(jī)制建立了不同類型的攻擊模型晦溪,并設(shè)計了一個特征學(xué)習(xí)范式來緩解這些攻擊。Malik和Kaushal(2016)通過眾包領(lǐng)域聲譽(yù)服務(wù)(信任網(wǎng)絡(luò))和應(yīng)用程序的資源許可來匯總應(yīng)用程序的排名挣跋。
之前關(guān)于HTTPS日志的工作旨在識別應(yīng)用層協(xié)議(Wright et al.三圆, 2006;Crotti et al., 2007;Dusi等人避咆,2009)舟肉。為了對承載類似應(yīng)用程序的web服務(wù)器進(jìn)行集群化,Kohout和Pevny (2015a)開發(fā)了從可見時間間隔和連接數(shù)據(jù)量的直方圖派生出來的特性查库。Lokoc等人(2016)利用這種特征表示路媚,開發(fā)了一個近似的k-NN分類器來識別被惡意軟件連接的服務(wù)器。被惡意軟件聯(lián)系的主機(jī)不一定是惡意的樊销。惡意軟件使用URL轉(zhuǎn)發(fā)和其他技術(shù)整慎,通過合法的主機(jī)路由其流量,并可能聯(lián)系合法的服務(wù)围苫,只是為了稀釋其網(wǎng)絡(luò)流量裤园。不過,我們將使用直方圖特征作為參考特征表示剂府。
基于圖的分類方法(如Anderson et al.拧揽, 2011)已經(jīng)被探索過,但不能應(yīng)用到我們的操作環(huán)境中腺占。在我們的操作環(huán)境中淤袜,云Web安全服務(wù)器只觀察組織內(nèi)的網(wǎng)絡(luò)流量。為了感知網(wǎng)絡(luò)圖的一個重要部分衰伯,公司將不得不交換他們的網(wǎng)絡(luò)流量數(shù)據(jù)铡羡,這在邏輯和隱私方面是不切實(shí)際的。
之前關(guān)于網(wǎng)絡(luò)流分析的神經(jīng)網(wǎng)絡(luò)的工作(Pevny和Somol, 2016)使用客戶端計算機(jī)的標(biāo)簽(已感染和未感染)——這導(dǎo)致了一個多實(shí)例學(xué)習(xí)問題意鲸。相比之下蓖墅,我們的操作環(huán)境允許我們觀察流和可執(zhí)行文件之間的關(guān)聯(lián)库倘。利用域名的word2vec嵌入和長短期內(nèi)存網(wǎng)絡(luò)(LSTMs)相結(jié)合的方法,研究了來自HTTPS流量的惡意軟件檢測(Prasse et al.论矾, 2017)教翩。我們將把這種方法作為實(shí)驗(yàn)的參考。最近的研究結(jié)果表明贪壳,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)更強(qiáng)的魯棒性超過了LSTMs考慮長期依賴關(guān)系的能力(Gehring et al.饱亿, 2017)。這激發(fā)了我們對卷積架構(gòu)的探索闰靴。神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于靜態(tài)惡意軟件分析(Pascanu et al.彪笼, 2015)。
在深度學(xué)習(xí)環(huán)境中蚂且,多任務(wù)學(xué)習(xí)通常通過隱藏層的軟配猫、硬參數(shù)共享來實(shí)現(xiàn)。在硬參數(shù)共享中杏死,所有任務(wù)的模型可以共享卷積層(Long and Wang, 2015)泵肄,甚至所有隱層(Caruana, 1993),這可以顯著增加用于優(yōu)化大部分參數(shù)的樣本量(Baxter, 1997)淑翼。相比之下腐巢,軟參數(shù)共享可以作為分層貝葉斯建模在神經(jīng)網(wǎng)絡(luò)中的直接應(yīng)用來實(shí)現(xiàn):在所有任務(wù)中,每個參數(shù)都被正則化為其平均值(Duong et al.玄括, 2015;楊和Hospedales, 2016)冯丙。 Cross-stitch (Misra et al., 2016)和水閘網(wǎng)sluice networks絡(luò)(Ruder et al.遭京, 2017)允許網(wǎng)絡(luò)中不同部分的任務(wù)耦合程度由參數(shù)控制胃惜。水閘網(wǎng)絡(luò)具有比十字繡網(wǎng)絡(luò)更一般的形式,因?yàn)樗鼈冇蓄~外的參數(shù)哪雕,允許特定任務(wù)的網(wǎng)絡(luò)層加權(quán)蛹疯。
神經(jīng)網(wǎng)絡(luò)的替代轉(zhuǎn)移學(xué)習(xí)方法加強(qiáng)了在不同任務(wù)之間不變的中間表示(Ganin et al., 2016)热监。除了深度學(xué)習(xí)之外捺弦,lasso正則化器組還加強(qiáng)了子空間共享,并研究了多種用于多任務(wù)學(xué)習(xí)的方法孝扛,這些方法基于層次貝葉斯模型(如Finkel和Manning, 2009)列吼、學(xué)習(xí)任務(wù)不變特征(如Argyriou等,2007)苦始、任務(wù)相似核(Evgeniou等寞钥,2005)和學(xué)習(xí)實(shí)例特定權(quán)重(如Bickel等,2008)陌选。
3操作環(huán)境
本節(jié)描述我們的應(yīng)用程序環(huán)境理郑。為了保護(hù)組織的所有計算機(jī)蹄溉,云Web安全(CWS)服務(wù)提供了組織的私有網(wǎng)絡(luò)和internet之間的接口∧客戶端計算機(jī)建立到CWS服務(wù)的VPN連接柒爵,來自組織內(nèi)任何客戶端的所有外部HTTP和HTTPS連接都將通過該服務(wù)進(jìn)行路由。該服務(wù)可以基于主機(jī)域和組織的可接受使用策略阻止HTTP和HTTPS請求赚爵。CWS服務(wù)將阻止所有惡意域之間的所有流量棉胀。當(dāng)在客戶端檢測到惡意軟件時,它會發(fā)出警告冀膝。由于安全分析師必須處理惡意軟件警告唁奢,所有發(fā)布的警告中,假警報的比例必須很小窝剖。
在應(yīng)用層麻掸,HTTPS使用HTTP協(xié)議,但是所有消息都通過傳輸層安全性(TLS)協(xié)議或其前身安全套接字層(SSL)協(xié)議進(jìn)行加密赐纱。CWS服務(wù)將單個客戶端計算機(jī)脊奋、客戶端端口、主機(jī)IP地址和主機(jī)端口之間的所有TCP/IP包聚合起來千所,這些包來自單個HTTP請求或HTTPS請求的TLS/SSL隧道到網(wǎng)絡(luò)流。對于每個網(wǎng)絡(luò)流蒜埋,將一行寫入日志文件淫痰,其中包括數(shù)據(jù)量、時間戳整份、客戶機(jī)和主機(jī)地址以及持續(xù)時間信息待错。對于未加密的HTTP流量,這一行也包含完整的URL字符串烈评。對于HTTPS流量火俄,它包含域名——如果該名稱可以通過以下機(jī)制之一觀察到的話。
使用服務(wù)器名稱指示協(xié)議擴(kuò)展(SNI)的客戶機(jī)在建立連接時發(fā)布未加密的主機(jī)域名讲冠。SNI被廣泛使用瓜客,因?yàn)樗枰?yàn)證承載多個域的服務(wù)器的證書,就像大多數(shù)web服務(wù)器一樣竿开。當(dāng)網(wǎng)絡(luò)使用透明的DNS代理(Blum和Lueker, 2001)時谱仪,該服務(wù)器緩存DNS請求-響應(yīng)對,并可以將IP地址映射到以前解析的域名否彩。日志文件行的結(jié)果序列作為惡意軟件和惡意域檢測模型的輸入疯攒。
3.1數(shù)據(jù)收集
在我們的實(shí)驗(yàn)中,我們結(jié)合了大量的HTTPS網(wǎng)絡(luò)流(Prasse et al.列荔, 2017)敬尺,它們被標(biāo)記為是否來自一個惡意的合法應(yīng)用程序枚尼,以及一個由Cisco的取證專家維護(hù)的域黑名單。
Prasse等人(2017)收集了340個公司網(wǎng)絡(luò)中通過CWS服務(wù)器的HTTPS網(wǎng)絡(luò)流砂吞。這些網(wǎng)絡(luò)中的客戶機(jī)運(yùn)行一個VPN客戶機(jī)署恍,該客戶機(jī)監(jiān)視進(jìn)程表和網(wǎng)絡(luò)接口,并記錄哪個可執(zhí)行文件創(chuàng)建每個網(wǎng)絡(luò)流呜舒《а矗回顧過去,可執(zhí)行文件已經(jīng)用多種防病毒工具進(jìn)行了分析袭蝗。結(jié)果數(shù)據(jù)集由已知客戶端(由組織和VPN帳戶標(biāo)識)唤殴、域(完全合格的域名)、數(shù)據(jù)量和時間戳以及一個標(biāo)簽組成到腥,該標(biāo)簽指示生成流量的應(yīng)用程序是否被防病毒工具識別為惡意軟件朵逝。我們按時間順序?qū)τ?xùn)練和測試數(shù)據(jù)進(jìn)行分層。訓(xùn)練數(shù)據(jù)包含了2016年7月為期5天的171個小型到大型計算機(jī)網(wǎng)絡(luò)的完整HTTPS流量乡范。測試數(shù)據(jù)包含了2016年9月為期8天的169個不同計算機(jī)網(wǎng)絡(luò)的完整HTTPS流量配名。思科的取證專家一直在調(diào)查可疑的主機(jī)名、二級域名和服務(wù)器IP地址晋辆,這些都被各種各樣的機(jī)制標(biāo)記過渠脉。這包括對托管軟件和使用的技術(shù)、注冊表記錄瓶佳、URL和流量模式的分析芋膘,以及對特定域可用的任何附加信息的分析。我們相信域幾乎從不被錯誤地評定為惡意的霸饲,但是由于昂貴的分析過程为朋,惡意域的黑名單必然是不完整的。所有來自或轉(zhuǎn)至惡意服務(wù)的通訊都很容易被ws服務(wù)攔截厚脉。網(wǎng)絡(luò)流量不包含任何流向在收集流量數(shù)據(jù)時已在我們的黑名單上的域的流量习寸。流量數(shù)據(jù)集包含與4,340個惡意主機(jī)名、二級域名和服務(wù)器IP地址之間的網(wǎng)絡(luò)流傻工,這些惡意主機(jī)名霞溪、二級域名和服務(wù)器IP地址在收集數(shù)據(jù)后被添加到黑名單中。
3.2數(shù)據(jù)的定量分析
表1和表2總結(jié)了良性和惡意網(wǎng)絡(luò)流中捆、客戶機(jī)計算機(jī)威鹿、受感染計算機(jī)、具有唯一散列的應(yīng)用程序和組織的數(shù)量轨香。
表3給出了最常見的惡意軟件家族的統(tǒng)計數(shù)據(jù)忽你。它列舉了發(fā)生的變化的數(shù)量、受感染的客戶機(jī)的數(shù)量臂容,括號內(nèi)是訓(xùn)練數(shù)據(jù)中受感染的客戶機(jī)的數(shù)量科雳。
總的來說根蟹,只有不到18000臺電腦被惡意軟件感染,并與當(dāng)時未被列入黑名單的域名進(jìn)行通信糟秘,這幾乎相當(dāng)于0.6%简逮。
在流量數(shù)據(jù)中,記錄流量數(shù)據(jù)后加入黑名單的域名有4340個尿赚。表4詳細(xì)列出了所有數(shù)據(jù)和訓(xùn)練數(shù)據(jù)中出現(xiàn)的惡意主機(jī)名散庶、二級域和服務(wù)器IP地址的類型。