聯(lián)合檢測惡意域和受感染的客戶端

來源：Joint Detection of Malicious Domains and Infected Clients

感染惡意軟件的計算機(jī)的連接和基于加密的HTTPS流量的惡意web域的檢測是具有挑戰(zhàn)性的問題，因?yàn)橹挥械刂犯糇骸r間戳和數(shù)據(jù)量是可見的难菌。檢測問題是耦合的，因?yàn)槭芨腥镜目蛻舳送c惡意域交互甚脉。流量數(shù)據(jù)可以大規(guī)模收集麻蹋，反病毒工具可以用來識別受感染的客戶端堤框。相反康谆，域必須在取證分析后單獨(dú)標(biāo)記抗果。探討了基于閘網(wǎng)絡(luò)的轉(zhuǎn)移學(xué)習(xí)方法;這使得檢測模型來引導(dǎo)對方定页。在一項(xiàng)大規(guī)模的實(shí)驗(yàn)研究中，我們發(fā)現(xiàn)該模型比已知的參考模型性能更好酗电，可以檢測到以前未知的惡意軟件淌山、以前未知的惡意軟件家族和以前未知的惡意域。

1介紹

惡意軟件侵犯了用戶的隱私顾瞻，獲取密碼和個人信息，可以加密用戶的文件索取贖金德绿，用于實(shí)施點(diǎn)擊欺詐荷荤，并通過在社交媒體上推廣特定內(nèi)容來促進(jìn)政治議程(Kogan, 2015)∫莆龋基于客戶機(jī)的防病毒工具使用特定于供應(yīng)商的混合方法蕴纳，包括基于簽名的分析、可移植可執(zhí)行文件的靜態(tài)分析个粱、仿真(在實(shí)際操作系統(tǒng)中執(zhí)行之前不訪問實(shí)際系統(tǒng)資源的部分執(zhí)行)和基于動態(tài)行為的分析來檢測惡意軟件(Swinnen和Mesbahi, 2014)古毛。網(wǎng)絡(luò)流量分析是殺毒軟件的補(bǔ)充，廣泛應(yīng)用于企業(yè)網(wǎng)絡(luò)都许。流量分析允許組織在整個網(wǎng)絡(luò)中一致地實(shí)施可接受使用和安全策略稻薇，并最小化管理開銷。流量分析使得將惡意軟件檢測封裝到網(wǎng)絡(luò)設(shè)備或云服務(wù)中成為可能胶征，這些設(shè)備或云服務(wù)可以檢測多態(tài)惡意軟件(Karim et al.塞椎， 2005)以及基于URL模式(Bartos和Sofka, 2015)的未知惡意軟件。

然而睛低，惡意軟件可以很容易地阻止分析其HTTP有效載荷使用加密的HTTPS協(xié)議案狠。HTTPS本身的使用并不引人注目，因?yàn)楣雀枨住acebook骂铁、LinkedIn和許多其他流行的網(wǎng)站默認(rèn)加密它們的網(wǎng)絡(luò)流量，而且HTTPS的全球數(shù)據(jù)量已經(jīng)超過了HTTP (Finley, 2017)罩抗。為了對HTTPS流量進(jìn)行網(wǎng)絡(luò)流量分析拉庵，現(xiàn)在的組織必須對其網(wǎng)絡(luò)進(jìn)行配置，以便所有web流量都通過web安全服務(wù)器進(jìn)行路由澄暮。該服務(wù)器的根證書必須作為可信證書安裝在所有客戶端計算機(jī)上名段，這允許服務(wù)充當(dāng)客戶端和主機(jī)之間的中間人。它可以解密泣懊、檢查和重新加密HTTPS請求伸辟。這種方法在大型網(wǎng)絡(luò)上的伸縮性很差，因?yàn)榧用懿僮鞯挠嬎汩_銷很大馍刮，而且會給網(wǎng)絡(luò)帶來潛在的漏洞信夫。

在不破壞加密的情況下，HTTPS流量的觀察者只能看到客戶端和主機(jī)的IP地址和端口，以及數(shù)據(jù)包的時間戳和數(shù)據(jù)量静稻。網(wǎng)絡(luò)設(shè)備將一對IP地址和端口之間交換的TCP/IP數(shù)據(jù)包聚合到網(wǎng)絡(luò)流中警没，地址、時間和數(shù)據(jù)量信息保存到日志文件中振湾。大多數(shù)情況下杀迹，觀察者還可以看到未加密的主機(jī)域名。HTTP有效負(fù)載(包括HTTP頭字段和URL)被加密押搪。

網(wǎng)絡(luò)主機(jī)參與了廣泛的非法活動树酪，將已知的惡意域和IP地址的流量列入黑名單是對抗惡意軟件的有效機(jī)制。惡意域可以承載銀行木馬和金融詐騙大州、點(diǎn)擊欺詐服務(wù)器或惡意內(nèi)容分發(fā)中心的后端续语。將一個域識別為惡意需要一個復(fù)雜的取證分析。分析人員必須收集關(guān)于承載域厦画、軟件和使用的技術(shù)的服務(wù)器的信息疮茄，并且可以研究域和共同承載域的所有權(quán)，以及觀察主機(jī)的行為根暑。

由于許多類型的惡意活動涉及與基于客戶機(jī)的惡意軟件的交互力试，因此檢測惡意主機(jī)和受感染的客戶機(jī)是耦合問題。在神經(jīng)網(wǎng)絡(luò)環(huán)境中排嫌，相關(guān)任務(wù)的標(biāo)記數(shù)據(jù)常常被設(shè)計成共享部分參數(shù)的耦合網(wǎng)絡(luò)懂版。在水閘網(wǎng)絡(luò)中(Ruder et al.， 2017)躏率，參數(shù)共享的程度本身由參數(shù)控制躯畴，這使得輔助數(shù)據(jù)可以作為手頭任務(wù)的靈活先驗(yàn)。

本文其余部分的結(jié)構(gòu)如下薇芝。第二節(jié)回顧相關(guān)工作蓬抄。我們在第3節(jié)中描述我們的操作環(huán)境和數(shù)據(jù)，在第4節(jié)中描述問題設(shè)置夯到。在第5節(jié)中嚷缭，我們推導(dǎo)了惡意軟件和惡意域的聯(lián)合檢測模型，并描述了參考方法耍贾。第六部分是實(shí)驗(yàn)阅爽，第七部分是結(jié)論。

2相關(guān)工作

之前的HTTP日志分析工作(Nguyen和Armitage, 2008)已經(jīng)解決了識別命令和控制服務(wù)器(Nelms et al.荐开， 2013)付翁、無監(jiān)督檢測惡意軟件(Kohout和Pevny, 2015b;Bartos等人，2016)晃听，并監(jiān)督檢測惡意軟件使用領(lǐng)域黑名單作為標(biāo)簽(Franc等人百侧，2015;Bartos and Sofka, 2015)砰识。HTTP日志文件包含完整的URL字符串，從中可以提取大量的信息特性(Bartos和Sofka, 2015)佣渴。

最近的大量工作都是通過網(wǎng)絡(luò)流量分析來檢測Android惡意軟件辫狼。Arora等人(2014)使用平均包大小、平均流持續(xù)時間和一小組其他特征來識別一小組48個惡意Android應(yīng)用程序辛润，具有一定的準(zhǔn)確性膨处。Lashkari等(2015)收集了1500個良性和400個惡意的Android應(yīng)用程序，提取了流量持續(xù)時間和流量特征砂竖，并從Weka庫中應(yīng)用了幾種機(jī)器學(xué)習(xí)算法灵迫。他們觀察到個別流量水平的高精度值。Demontis等人(2018)針對這種檢測機(jī)制建立了不同類型的攻擊模型晦溪，并設(shè)計了一個特征學(xué)習(xí)范式來緩解這些攻擊。Malik和Kaushal(2016)通過眾包領(lǐng)域聲譽(yù)服務(wù)(信任網(wǎng)絡(luò))和應(yīng)用程序的資源許可來匯總應(yīng)用程序的排名挣跋。

之前關(guān)于HTTPS日志的工作旨在識別應(yīng)用層協(xié)議(Wright et al.三圆， 2006;Crotti et al.， 2007;Dusi等人避咆，2009)舟肉。為了對承載類似應(yīng)用程序的web服務(wù)器進(jìn)行集群化，Kohout和Pevny (2015a)開發(fā)了從可見時間間隔和連接數(shù)據(jù)量的直方圖派生出來的特性查库。Lokoc等人(2016)利用這種特征表示路媚，開發(fā)了一個近似的k-NN分類器來識別被惡意軟件連接的服務(wù)器。被惡意軟件聯(lián)系的主機(jī)不一定是惡意的樊销。惡意軟件使用URL轉(zhuǎn)發(fā)和其他技術(shù)整慎，通過合法的主機(jī)路由其流量，并可能聯(lián)系合法的服務(wù)围苫，只是為了稀釋其網(wǎng)絡(luò)流量裤园。不過，我們將使用直方圖特征作為參考特征表示剂府。

基于圖的分類方法(如Anderson et al.拧揽， 2011)已經(jīng)被探索過，但不能應(yīng)用到我們的操作環(huán)境中腺占。在我們的操作環(huán)境中淤袜，云Web安全服務(wù)器只觀察組織內(nèi)的網(wǎng)絡(luò)流量。為了感知網(wǎng)絡(luò)圖的一個重要部分衰伯，公司將不得不交換他們的網(wǎng)絡(luò)流量數(shù)據(jù)铡羡，這在邏輯和隱私方面是不切實(shí)際的。

之前關(guān)于網(wǎng)絡(luò)流分析的神經(jīng)網(wǎng)絡(luò)的工作(Pevny和Somol, 2016)使用客戶端計算機(jī)的標(biāo)簽(已感染和未感染)——這導(dǎo)致了一個多實(shí)例學(xué)習(xí)問題意鲸。相比之下蓖墅，我們的操作環(huán)境允許我們觀察流和可執(zhí)行文件之間的關(guān)聯(lián)库倘。利用域名的word2vec嵌入和長短期內(nèi)存網(wǎng)絡(luò)(LSTMs)相結(jié)合的方法，研究了來自HTTPS流量的惡意軟件檢測(Prasse et al.论矾， 2017)教翩。我們將把這種方法作為實(shí)驗(yàn)的參考。最近的研究結(jié)果表明贪壳，卷積神經(jīng)網(wǎng)絡(luò)(CNNs)更強(qiáng)的魯棒性超過了LSTMs考慮長期依賴關(guān)系的能力(Gehring et al.饱亿， 2017)。這激發(fā)了我們對卷積架構(gòu)的探索闰靴。神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于靜態(tài)惡意軟件分析(Pascanu et al.彪笼， 2015)。

在深度學(xué)習(xí)環(huán)境中蚂且，多任務(wù)學(xué)習(xí)通常通過隱藏層的軟配猫、硬參數(shù)共享來實(shí)現(xiàn)。在硬參數(shù)共享中杏死，所有任務(wù)的模型可以共享卷積層(Long and Wang, 2015)泵肄，甚至所有隱層(Caruana, 1993)，這可以顯著增加用于優(yōu)化大部分參數(shù)的樣本量(Baxter, 1997)淑翼。相比之下腐巢，軟參數(shù)共享可以作為分層貝葉斯建模在神經(jīng)網(wǎng)絡(luò)中的直接應(yīng)用來實(shí)現(xiàn):在所有任務(wù)中，每個參數(shù)都被正則化為其平均值(Duong et al.玄括， 2015;楊和Hospedales, 2016)冯丙。 Cross-stitch (Misra et al.， 2016)和水閘網(wǎng)sluice networks絡(luò)(Ruder et al.遭京， 2017)允許網(wǎng)絡(luò)中不同部分的任務(wù)耦合程度由參數(shù)控制胃惜。水閘網(wǎng)絡(luò)具有比十字繡網(wǎng)絡(luò)更一般的形式，因?yàn)樗鼈冇蓄~外的參數(shù)哪雕，允許特定任務(wù)的網(wǎng)絡(luò)層加權(quán)蛹疯。

神經(jīng)網(wǎng)絡(luò)的替代轉(zhuǎn)移學(xué)習(xí)方法加強(qiáng)了在不同任務(wù)之間不變的中間表示(Ganin et al.， 2016)热监。除了深度學(xué)習(xí)之外捺弦，lasso正則化器組還加強(qiáng)了子空間共享，并研究了多種用于多任務(wù)學(xué)習(xí)的方法孝扛，這些方法基于層次貝葉斯模型(如Finkel和Manning, 2009)列吼、學(xué)習(xí)任務(wù)不變特征(如Argyriou等，2007)苦始、任務(wù)相似核(Evgeniou等寞钥，2005)和學(xué)習(xí)實(shí)例特定權(quán)重(如Bickel等，2008)陌选。

3操作環(huán)境

本節(jié)描述我們的應(yīng)用程序環(huán)境理郑。為了保護(hù)組織的所有計算機(jī)蹄溉，云Web安全(CWS)服務(wù)提供了組織的私有網(wǎng)絡(luò)和internet之間的接口∧客戶端計算機(jī)建立到CWS服務(wù)的VPN連接柒爵，來自組織內(nèi)任何客戶端的所有外部HTTP和HTTPS連接都將通過該服務(wù)進(jìn)行路由。該服務(wù)可以基于主機(jī)域和組織的可接受使用策略阻止HTTP和HTTPS請求赚爵。CWS服務(wù)將阻止所有惡意域之間的所有流量棉胀。當(dāng)在客戶端檢測到惡意軟件時，它會發(fā)出警告冀膝。由于安全分析師必須處理惡意軟件警告唁奢，所有發(fā)布的警告中，假警報的比例必須很小窝剖。

在應(yīng)用層麻掸，HTTPS使用HTTP協(xié)議，但是所有消息都通過傳輸層安全性(TLS)協(xié)議或其前身安全套接字層(SSL)協(xié)議進(jìn)行加密赐纱。CWS服務(wù)將單個客戶端計算機(jī)脊奋、客戶端端口、主機(jī)IP地址和主機(jī)端口之間的所有TCP/IP包聚合起來千所，這些包來自單個HTTP請求或HTTPS請求的TLS/SSL隧道到網(wǎng)絡(luò)流。對于每個網(wǎng)絡(luò)流蒜埋，將一行寫入日志文件淫痰，其中包括數(shù)據(jù)量、時間戳整份、客戶機(jī)和主機(jī)地址以及持續(xù)時間信息待错。對于未加密的HTTP流量，這一行也包含完整的URL字符串烈评。對于HTTPS流量火俄，它包含域名——如果該名稱可以通過以下機(jī)制之一觀察到的話。

使用服務(wù)器名稱指示協(xié)議擴(kuò)展(SNI)的客戶機(jī)在建立連接時發(fā)布未加密的主機(jī)域名讲冠。SNI被廣泛使用瓜客，因?yàn)樗枰?yàn)證承載多個域的服務(wù)器的證書，就像大多數(shù)web服務(wù)器一樣竿开。當(dāng)網(wǎng)絡(luò)使用透明的DNS代理(Blum和Lueker, 2001)時谱仪，該服務(wù)器緩存DNS請求-響應(yīng)對，并可以將IP地址映射到以前解析的域名否彩。日志文件行的結(jié)果序列作為惡意軟件和惡意域檢測模型的輸入疯攒。

3.1數(shù)據(jù)收集

在我們的實(shí)驗(yàn)中，我們結(jié)合了大量的HTTPS網(wǎng)絡(luò)流(Prasse et al.列荔， 2017)敬尺，它們被標(biāo)記為是否來自一個惡意的合法應(yīng)用程序枚尼，以及一個由Cisco的取證專家維護(hù)的域黑名單。

Prasse等人(2017)收集了340個公司網(wǎng)絡(luò)中通過CWS服務(wù)器的HTTPS網(wǎng)絡(luò)流砂吞。這些網(wǎng)絡(luò)中的客戶機(jī)運(yùn)行一個VPN客戶機(jī)署恍，該客戶機(jī)監(jiān)視進(jìn)程表和網(wǎng)絡(luò)接口，并記錄哪個可執(zhí)行文件創(chuàng)建每個網(wǎng)絡(luò)流呜舒《а矗回顧過去，可執(zhí)行文件已經(jīng)用多種防病毒工具進(jìn)行了分析袭蝗。結(jié)果數(shù)據(jù)集由已知客戶端(由組織和VPN帳戶標(biāo)識)唤殴、域(完全合格的域名)、數(shù)據(jù)量和時間戳以及一個標(biāo)簽組成到腥，該標(biāo)簽指示生成流量的應(yīng)用程序是否被防病毒工具識別為惡意軟件朵逝。我們按時間順序?qū)τ?xùn)練和測試數(shù)據(jù)進(jìn)行分層。訓(xùn)練數(shù)據(jù)包含了2016年7月為期5天的171個小型到大型計算機(jī)網(wǎng)絡(luò)的完整HTTPS流量乡范。測試數(shù)據(jù)包含了2016年9月為期8天的169個不同計算機(jī)網(wǎng)絡(luò)的完整HTTPS流量配名。思科的取證專家一直在調(diào)查可疑的主機(jī)名、二級域名和服務(wù)器IP地址晋辆，這些都被各種各樣的機(jī)制標(biāo)記過渠脉。這包括對托管軟件和使用的技術(shù)、注冊表記錄瓶佳、URL和流量模式的分析芋膘，以及對特定域可用的任何附加信息的分析。我們相信域幾乎從不被錯誤地評定為惡意的霸饲，但是由于昂貴的分析過程为朋，惡意域的黑名單必然是不完整的。所有來自或轉(zhuǎn)至惡意服務(wù)的通訊都很容易被ws服務(wù)攔截厚脉。網(wǎng)絡(luò)流量不包含任何流向在收集流量數(shù)據(jù)時已在我們的黑名單上的域的流量习寸。流量數(shù)據(jù)集包含與4,340個惡意主機(jī)名、二級域名和服務(wù)器IP地址之間的網(wǎng)絡(luò)流傻工，這些惡意主機(jī)名霞溪、二級域名和服務(wù)器IP地址在收集數(shù)據(jù)后被添加到黑名單中。

3.2數(shù)據(jù)的定量分析

表1和表2總結(jié)了良性和惡意網(wǎng)絡(luò)流中捆、客戶機(jī)計算機(jī)威鹿、受感染計算機(jī)、具有唯一散列的應(yīng)用程序和組織的數(shù)量轨香。

表3給出了最常見的惡意軟件家族的統(tǒng)計數(shù)據(jù)忽你。它列舉了發(fā)生的變化的數(shù)量、受感染的客戶機(jī)的數(shù)量臂容，括號內(nèi)是訓(xùn)練數(shù)據(jù)中受感染的客戶機(jī)的數(shù)量科雳。

總的來說根蟹，只有不到18000臺電腦被惡意軟件感染，并與當(dāng)時未被列入黑名單的域名進(jìn)行通信糟秘，這幾乎相當(dāng)于0.6%简逮。

在流量數(shù)據(jù)中，記錄流量數(shù)據(jù)后加入黑名單的域名有4340個尿赚。表4詳細(xì)列出了所有數(shù)據(jù)和訓(xùn)練數(shù)據(jù)中出現(xiàn)的惡意主機(jī)名散庶、二級域和服務(wù)器IP地址的類型。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末凌净，一起剝皮案震驚了整個濱河市悲龟，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌冰寻，老刑警劉巖须教，帶你破解...
沈念sama閱讀 223,002評論 6贊 519
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異斩芭，居然都是意外死亡轻腺，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,357評論 3贊 400
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門划乖，熙熙樓的掌柜王于貴愁眉苦臉地迎上來贬养，“玉大人，你說我怎么就攤上這事琴庵∥笏悖” “怎么了？”我有些...
開封第一講書人閱讀 169,787評論 0贊 365
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵细卧，是天一觀的道長尉桩。經(jīng)常有香客問我筒占，道長贪庙，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 60,237評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任翰苫，我火速辦了婚禮止邮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘奏窑。我一直安慰自己导披，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 69,237評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布埃唯。她就那樣靜靜地躺著撩匕，像睡著了一般。火紅的嫁衣襯著肌膚如雪墨叛。梳的紋絲不亂的頭發(fā)上止毕，一...
開封第一講書人閱讀 52,821評論 1贊 314
城市分裂傳說
那天模蜡，我揣著相機(jī)與錄音，去河邊找鬼扁凛。笑死忍疾，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的谨朝。我是一名探鬼主播卤妒，決...
沈念sama閱讀 41,236評論 3贊 424
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼字币！你這毒婦竟也來了则披？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 40,196評論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤纬朝，失蹤者是張志新（化名）和其女友劉穎收叶，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體共苛，經(jīng)...
沈念sama閱讀 46,716評論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡判没，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,794評論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了隅茎。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片澄峰。...
茶點(diǎn)故事閱讀 40,928評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖辟犀，靈堂內(nèi)的尸體忽然破棺而出俏竞，到底是詐尸還是另有隱情，我是刑警寧澤堂竟，帶...
沈念sama閱讀 36,583評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布魂毁，位于F島的核電站，受9級特大地震影響出嘹，放射性物質(zhì)發(fā)生泄漏席楚。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,264評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一税稼、第九天我趴在偏房一處隱蔽的房頂上張望烦秩。院中可真熱鬧，春花似錦郎仆、人聲如沸只祠。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,755評論 0贊 25
一樁弒父案扰肌，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽抛寝。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間盗舰，已是汗流浹背猴凹。一陣腳步聲響...
開封第一講書人閱讀 33,869評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留岭皂，地道東北人郊霎。一個月前我還...
沈念sama閱讀 49,378評論 3贊 379
代替公主和親
正文我出身青樓，卻偏偏與公主長得像爷绘，于是被迫代替她去往敵國和親书劝。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,937評論 2贊 361

聯(lián)合檢測惡意域和受感染的客戶端

推薦閱讀更多精彩內(nèi)容