聯(lián)合檢測惡意域和受感染的客戶端

來源:Joint Detection of Malicious Domains and Infected Clients

感染惡意軟件的計算機(jī)的連接和基于加密的HTTPS流量的惡意web域的檢測是具有挑戰(zhàn)性的問題,因?yàn)橹挥械刂犯糇骸r間戳和數(shù)據(jù)量是可見的难菌。檢測問題是耦合的,因?yàn)槭芨腥镜目蛻舳送c惡意域交互甚脉。流量數(shù)據(jù)可以大規(guī)模收集麻蹋,反病毒工具可以用來識別受感染的客戶端堤框。相反康谆,域必須在取證分析后單獨(dú)標(biāo)記抗果。探討了基于閘網(wǎng)絡(luò)的轉(zhuǎn)移學(xué)習(xí)方法;這使得檢測模型來引導(dǎo)對方定页。在一項(xiàng)大規(guī)模的實(shí)驗(yàn)研究中,我們發(fā)現(xiàn)該模型比已知的參考模型性能更好酗电,可以檢測到以前未知的惡意軟件淌山、以前未知的惡意軟件家族和以前未知的惡意域。

1介紹

惡意軟件侵犯了用戶的隱私顾瞻,獲取密碼和個人信息,可以加密用戶的文件索取贖金德绿,用于實(shí)施點(diǎn)擊欺詐荷荤,并通過在社交媒體上推廣特定內(nèi)容來促進(jìn)政治議程(Kogan, 2015)∫莆龋基于客戶機(jī)的防病毒工具使用特定于供應(yīng)商的混合方法蕴纳,包括基于簽名的分析、可移植可執(zhí)行文件的靜態(tài)分析个粱、仿真(在實(shí)際操作系統(tǒng)中執(zhí)行之前不訪問實(shí)際系統(tǒng)資源的部分執(zhí)行)和基于動態(tài)行為的分析來檢測惡意軟件(Swinnen和Mesbahi, 2014)古毛。網(wǎng)絡(luò)流量分析是殺毒軟件的補(bǔ)充,廣泛應(yīng)用于企業(yè)網(wǎng)絡(luò)都许。流量分析允許組織在整個網(wǎng)絡(luò)中一致地實(shí)施可接受使用和安全策略稻薇,并最小化管理開銷。流量分析使得將惡意軟件檢測封裝到網(wǎng)絡(luò)設(shè)備或云服務(wù)中成為可能胶征,這些設(shè)備或云服務(wù)可以檢測多態(tài)惡意軟件(Karim et al.塞椎, 2005)以及基于URL模式(Bartos和Sofka, 2015)的未知惡意軟件。

然而睛低,惡意軟件可以很容易地阻止分析其HTTP有效載荷使用加密的HTTPS協(xié)議案狠。HTTPS本身的使用并不引人注目,因?yàn)楣雀枨住acebook骂铁、LinkedIn和許多其他流行的網(wǎng)站默認(rèn)加密它們的網(wǎng)絡(luò)流量,而且HTTPS的全球數(shù)據(jù)量已經(jīng)超過了HTTP (Finley, 2017)罩抗。為了對HTTPS流量進(jìn)行網(wǎng)絡(luò)流量分析拉庵,現(xiàn)在的組織必須對其網(wǎng)絡(luò)進(jìn)行配置,以便所有web流量都通過web安全服務(wù)器進(jìn)行路由澄暮。該服務(wù)器的根證書必須作為可信證書安裝在所有客戶端計算機(jī)上名段,這允許服務(wù)充當(dāng)客戶端和主機(jī)之間的中間人。它可以解密泣懊、檢查和重新加密HTTPS請求伸辟。這種方法在大型網(wǎng)絡(luò)上的伸縮性很差,因?yàn)榧用懿僮鞯挠嬎汩_銷很大馍刮,而且會給網(wǎng)絡(luò)帶來潛在的漏洞信夫。

在不破壞加密的情況下,HTTPS流量的觀察者只能看到客戶端和主機(jī)的IP地址和端口,以及數(shù)據(jù)包的時間戳和數(shù)據(jù)量静稻。網(wǎng)絡(luò)設(shè)備將一對IP地址和端口之間交換的TCP/IP數(shù)據(jù)包聚合到網(wǎng)絡(luò)流中警没,地址、時間和數(shù)據(jù)量信息保存到日志文件中振湾。大多數(shù)情況下杀迹,觀察者還可以看到未加密的主機(jī)域名。HTTP有效負(fù)載(包括HTTP頭字段和URL)被加密押搪。

網(wǎng)絡(luò)主機(jī)參與了廣泛的非法活動树酪,將已知的惡意域和IP地址的流量列入黑名單是對抗惡意軟件的有效機(jī)制。惡意域可以承載銀行木馬和金融詐騙大州、點(diǎn)擊欺詐服務(wù)器或惡意內(nèi)容分發(fā)中心的后端续语。將一個域識別為惡意需要一個復(fù)雜的取證分析。分析人員必須收集關(guān)于承載域厦画、軟件和使用的技術(shù)的服務(wù)器的信息疮茄,并且可以研究域和共同承載域的所有權(quán),以及觀察主機(jī)的行為根暑。

由于許多類型的惡意活動涉及與基于客戶機(jī)的惡意軟件的交互力试,因此檢測惡意主機(jī)和受感染的客戶機(jī)是耦合問題。在神經(jīng)網(wǎng)絡(luò)環(huán)境中排嫌,相關(guān)任務(wù)的標(biāo)記數(shù)據(jù)常常被設(shè)計成共享部分參數(shù)的耦合網(wǎng)絡(luò)懂版。在水閘網(wǎng)絡(luò)中(Ruder et al., 2017)躏率,參數(shù)共享的程度本身由參數(shù)控制躯畴,這使得輔助數(shù)據(jù)可以作為手頭任務(wù)的靈活先驗(yàn)。

本文其余部分的結(jié)構(gòu)如下薇芝。第二節(jié)回顧相關(guān)工作蓬抄。我們在第3節(jié)中描述我們的操作環(huán)境和數(shù)據(jù),在第4節(jié)中描述問題設(shè)置夯到。在第5節(jié)中嚷缭,我們推導(dǎo)了惡意軟件和惡意域的聯(lián)合檢測模型,并描述了參考方法耍贾。第六部分是實(shí)驗(yàn)阅爽,第七部分是結(jié)論。

2相關(guān)工作

之前的HTTP日志分析工作(Nguyen和Armitage, 2008)已經(jīng)解決了識別命令和控制服務(wù)器(Nelms et al.荐开, 2013)付翁、無監(jiān)督檢測惡意軟件(Kohout和Pevny, 2015b;Bartos等人,2016)晃听,并監(jiān)督檢測惡意軟件使用領(lǐng)域黑名單作為標(biāo)簽(Franc等人百侧,2015;Bartos and Sofka, 2015)砰识。HTTP日志文件包含完整的URL字符串,從中可以提取大量的信息特性(Bartos和Sofka, 2015)佣渴。

最近的大量工作都是通過網(wǎng)絡(luò)流量分析來檢測Android惡意軟件辫狼。Arora等人(2014)使用平均包大小、平均流持續(xù)時間和一小組其他特征來識別一小組48個惡意Android應(yīng)用程序辛润,具有一定的準(zhǔn)確性膨处。Lashkari等(2015)收集了1500個良性和400個惡意的Android應(yīng)用程序,提取了流量持續(xù)時間和流量特征砂竖,并從Weka庫中應(yīng)用了幾種機(jī)器學(xué)習(xí)算法灵迫。他們觀察到個別流量水平的高精度值。Demontis等人(2018)針對這種檢測機(jī)制建立了不同類型的攻擊模型晦溪,并設(shè)計了一個特征學(xué)習(xí)范式來緩解這些攻擊。Malik和Kaushal(2016)通過眾包領(lǐng)域聲譽(yù)服務(wù)(信任網(wǎng)絡(luò))和應(yīng)用程序的資源許可來匯總應(yīng)用程序的排名挣跋。

之前關(guān)于HTTPS日志的工作旨在識別應(yīng)用層協(xié)議(Wright et al.三圆, 2006;Crotti et al., 2007;Dusi等人避咆,2009)舟肉。為了對承載類似應(yīng)用程序的web服務(wù)器進(jìn)行集群化,Kohout和Pevny (2015a)開發(fā)了從可見時間間隔和連接數(shù)據(jù)量的直方圖派生出來的特性查库。Lokoc等人(2016)利用這種特征表示路媚,開發(fā)了一個近似的k-NN分類器來識別被惡意軟件連接的服務(wù)器。被惡意軟件聯(lián)系的主機(jī)不一定是惡意的樊销。惡意軟件使用URL轉(zhuǎn)發(fā)和其他技術(shù)整慎,通過合法的主機(jī)路由其流量,并可能聯(lián)系合法的服務(wù)围苫,只是為了稀釋其網(wǎng)絡(luò)流量裤园。不過,我們將使用直方圖特征作為參考特征表示剂府。

基于圖的分類方法(如Anderson et al.拧揽, 2011)已經(jīng)被探索過,但不能應(yīng)用到我們的操作環(huán)境中腺占。在我們的操作環(huán)境中淤袜,云Web安全服務(wù)器只觀察組織內(nèi)的網(wǎng)絡(luò)流量。為了感知網(wǎng)絡(luò)圖的一個重要部分衰伯,公司將不得不交換他們的網(wǎng)絡(luò)流量數(shù)據(jù)铡羡,這在邏輯和隱私方面是不切實(shí)際的。

之前關(guān)于網(wǎng)絡(luò)流分析的神經(jīng)網(wǎng)絡(luò)的工作(Pevny和Somol, 2016)使用客戶端計算機(jī)的標(biāo)簽(已感染和未感染)——這導(dǎo)致了一個多實(shí)例學(xué)習(xí)問題意鲸。相比之下蓖墅,我們的操作環(huán)境允許我們觀察流和可執(zhí)行文件之間的關(guān)聯(lián)库倘。利用域名的word2vec嵌入和長短期內(nèi)存網(wǎng)絡(luò)(LSTMs)相結(jié)合的方法,研究了來自HTTPS流量的惡意軟件檢測(Prasse et al.论矾, 2017)教翩。我們將把這種方法作為實(shí)驗(yàn)的參考。最近的研究結(jié)果表明贪壳,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)更強(qiáng)的魯棒性超過了LSTMs考慮長期依賴關(guān)系的能力(Gehring et al.饱亿, 2017)。這激發(fā)了我們對卷積架構(gòu)的探索闰靴。神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于靜態(tài)惡意軟件分析(Pascanu et al.彪笼, 2015)。

在深度學(xué)習(xí)環(huán)境中蚂且,多任務(wù)學(xué)習(xí)通常通過隱藏層的軟配猫、硬參數(shù)共享來實(shí)現(xiàn)。在硬參數(shù)共享中杏死,所有任務(wù)的模型可以共享卷積層(Long and Wang, 2015)泵肄,甚至所有隱層(Caruana, 1993),這可以顯著增加用于優(yōu)化大部分參數(shù)的樣本量(Baxter, 1997)淑翼。相比之下腐巢,軟參數(shù)共享可以作為分層貝葉斯建模在神經(jīng)網(wǎng)絡(luò)中的直接應(yīng)用來實(shí)現(xiàn):在所有任務(wù)中,每個參數(shù)都被正則化為其平均值(Duong et al.玄括, 2015;楊和Hospedales, 2016)冯丙。 Cross-stitch (Misra et al., 2016)和水閘網(wǎng)sluice networks絡(luò)(Ruder et al.遭京, 2017)允許網(wǎng)絡(luò)中不同部分的任務(wù)耦合程度由參數(shù)控制胃惜。水閘網(wǎng)絡(luò)具有比十字繡網(wǎng)絡(luò)更一般的形式,因?yàn)樗鼈冇蓄~外的參數(shù)哪雕,允許特定任務(wù)的網(wǎng)絡(luò)層加權(quán)蛹疯。

神經(jīng)網(wǎng)絡(luò)的替代轉(zhuǎn)移學(xué)習(xí)方法加強(qiáng)了在不同任務(wù)之間不變的中間表示(Ganin et al., 2016)热监。除了深度學(xué)習(xí)之外捺弦,lasso正則化器組還加強(qiáng)了子空間共享,并研究了多種用于多任務(wù)學(xué)習(xí)的方法孝扛,這些方法基于層次貝葉斯模型(如Finkel和Manning, 2009)列吼、學(xué)習(xí)任務(wù)不變特征(如Argyriou等,2007)苦始、任務(wù)相似核(Evgeniou等寞钥,2005)和學(xué)習(xí)實(shí)例特定權(quán)重(如Bickel等,2008)陌选。

3操作環(huán)境

本節(jié)描述我們的應(yīng)用程序環(huán)境理郑。為了保護(hù)組織的所有計算機(jī)蹄溉,云Web安全(CWS)服務(wù)提供了組織的私有網(wǎng)絡(luò)和internet之間的接口∧客戶端計算機(jī)建立到CWS服務(wù)的VPN連接柒爵,來自組織內(nèi)任何客戶端的所有外部HTTP和HTTPS連接都將通過該服務(wù)進(jìn)行路由。該服務(wù)可以基于主機(jī)域和組織的可接受使用策略阻止HTTP和HTTPS請求赚爵。CWS服務(wù)將阻止所有惡意域之間的所有流量棉胀。當(dāng)在客戶端檢測到惡意軟件時,它會發(fā)出警告冀膝。由于安全分析師必須處理惡意軟件警告唁奢,所有發(fā)布的警告中,假警報的比例必須很小窝剖。

在應(yīng)用層麻掸,HTTPS使用HTTP協(xié)議,但是所有消息都通過傳輸層安全性(TLS)協(xié)議或其前身安全套接字層(SSL)協(xié)議進(jìn)行加密赐纱。CWS服務(wù)將單個客戶端計算機(jī)脊奋、客戶端端口、主機(jī)IP地址和主機(jī)端口之間的所有TCP/IP包聚合起來千所,這些包來自單個HTTP請求或HTTPS請求的TLS/SSL隧道到網(wǎng)絡(luò)流。對于每個網(wǎng)絡(luò)流蒜埋,將一行寫入日志文件淫痰,其中包括數(shù)據(jù)量、時間戳整份、客戶機(jī)和主機(jī)地址以及持續(xù)時間信息待错。對于未加密的HTTP流量,這一行也包含完整的URL字符串烈评。對于HTTPS流量火俄,它包含域名——如果該名稱可以通過以下機(jī)制之一觀察到的話。

使用服務(wù)器名稱指示協(xié)議擴(kuò)展(SNI)的客戶機(jī)在建立連接時發(fā)布未加密的主機(jī)域名讲冠。SNI被廣泛使用瓜客,因?yàn)樗枰?yàn)證承載多個域的服務(wù)器的證書,就像大多數(shù)web服務(wù)器一樣竿开。當(dāng)網(wǎng)絡(luò)使用透明的DNS代理(Blum和Lueker, 2001)時谱仪,該服務(wù)器緩存DNS請求-響應(yīng)對,并可以將IP地址映射到以前解析的域名否彩。日志文件行的結(jié)果序列作為惡意軟件和惡意域檢測模型的輸入疯攒。

3.1數(shù)據(jù)收集

在我們的實(shí)驗(yàn)中,我們結(jié)合了大量的HTTPS網(wǎng)絡(luò)流(Prasse et al.列荔, 2017)敬尺,它們被標(biāo)記為是否來自一個惡意的合法應(yīng)用程序枚尼,以及一個由Cisco的取證專家維護(hù)的域黑名單。

Prasse等人(2017)收集了340個公司網(wǎng)絡(luò)中通過CWS服務(wù)器的HTTPS網(wǎng)絡(luò)流砂吞。這些網(wǎng)絡(luò)中的客戶機(jī)運(yùn)行一個VPN客戶機(jī)署恍,該客戶機(jī)監(jiān)視進(jìn)程表和網(wǎng)絡(luò)接口,并記錄哪個可執(zhí)行文件創(chuàng)建每個網(wǎng)絡(luò)流呜舒《а矗回顧過去,可執(zhí)行文件已經(jīng)用多種防病毒工具進(jìn)行了分析袭蝗。結(jié)果數(shù)據(jù)集由已知客戶端(由組織和VPN帳戶標(biāo)識)唤殴、域(完全合格的域名)、數(shù)據(jù)量和時間戳以及一個標(biāo)簽組成到腥,該標(biāo)簽指示生成流量的應(yīng)用程序是否被防病毒工具識別為惡意軟件朵逝。我們按時間順序?qū)τ?xùn)練和測試數(shù)據(jù)進(jìn)行分層。訓(xùn)練數(shù)據(jù)包含了2016年7月為期5天的171個小型到大型計算機(jī)網(wǎng)絡(luò)的完整HTTPS流量乡范。測試數(shù)據(jù)包含了2016年9月為期8天的169個不同計算機(jī)網(wǎng)絡(luò)的完整HTTPS流量配名。思科的取證專家一直在調(diào)查可疑的主機(jī)名、二級域名和服務(wù)器IP地址晋辆,這些都被各種各樣的機(jī)制標(biāo)記過渠脉。這包括對托管軟件和使用的技術(shù)、注冊表記錄瓶佳、URL和流量模式的分析芋膘,以及對特定域可用的任何附加信息的分析。我們相信域幾乎從不被錯誤地評定為惡意的霸饲,但是由于昂貴的分析過程为朋,惡意域的黑名單必然是不完整的。所有來自或轉(zhuǎn)至惡意服務(wù)的通訊都很容易被ws服務(wù)攔截厚脉。網(wǎng)絡(luò)流量不包含任何流向在收集流量數(shù)據(jù)時已在我們的黑名單上的域的流量习寸。流量數(shù)據(jù)集包含與4,340個惡意主機(jī)名、二級域名和服務(wù)器IP地址之間的網(wǎng)絡(luò)流傻工,這些惡意主機(jī)名霞溪、二級域名和服務(wù)器IP地址在收集數(shù)據(jù)后被添加到黑名單中。

3.2數(shù)據(jù)的定量分析

表1和表2總結(jié)了良性和惡意網(wǎng)絡(luò)流中捆、客戶機(jī)計算機(jī)威鹿、受感染計算機(jī)、具有唯一散列的應(yīng)用程序和組織的數(shù)量轨香。

表3給出了最常見的惡意軟件家族的統(tǒng)計數(shù)據(jù)忽你。它列舉了發(fā)生的變化的數(shù)量、受感染的客戶機(jī)的數(shù)量臂容,括號內(nèi)是訓(xùn)練數(shù)據(jù)中受感染的客戶機(jī)的數(shù)量科雳。

總的來說根蟹,只有不到18000臺電腦被惡意軟件感染,并與當(dāng)時未被列入黑名單的域名進(jìn)行通信糟秘,這幾乎相當(dāng)于0.6%简逮。

在流量數(shù)據(jù)中,記錄流量數(shù)據(jù)后加入黑名單的域名有4340個尿赚。表4詳細(xì)列出了所有數(shù)據(jù)和訓(xùn)練數(shù)據(jù)中出現(xiàn)的惡意主機(jī)名散庶、二級域和服務(wù)器IP地址的類型。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末凌净,一起剝皮案震驚了整個濱河市悲龟,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌冰寻,老刑警劉巖须教,帶你破解...
    沈念sama閱讀 223,002評論 6 519
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異斩芭,居然都是意外死亡轻腺,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,357評論 3 400
  • 文/潘曉璐 我一進(jìn)店門划乖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來贬养,“玉大人,你說我怎么就攤上這事琴庵∥笏悖” “怎么了?”我有些...
    開封第一講書人閱讀 169,787評論 0 365
  • 文/不壞的土叔 我叫張陵细卧,是天一觀的道長尉桩。 經(jīng)常有香客問我筒占,道長贪庙,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,237評論 1 300
  • 正文 為了忘掉前任翰苫,我火速辦了婚禮止邮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘奏窑。我一直安慰自己导披,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,237評論 6 398
  • 文/花漫 我一把揭開白布埃唯。 她就那樣靜靜地躺著撩匕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪墨叛。 梳的紋絲不亂的頭發(fā)上止毕,一...
    開封第一講書人閱讀 52,821評論 1 314
  • 那天模蜡,我揣著相機(jī)與錄音,去河邊找鬼扁凛。 笑死忍疾,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的谨朝。 我是一名探鬼主播卤妒,決...
    沈念sama閱讀 41,236評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼字币!你這毒婦竟也來了则披?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,196評論 0 277
  • 序言:老撾萬榮一對情侶失蹤纬朝,失蹤者是張志新(化名)和其女友劉穎收叶,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體共苛,經(jīng)...
    沈念sama閱讀 46,716評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡判没,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,794評論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了隅茎。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片澄峰。...
    茶點(diǎn)故事閱讀 40,928評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖辟犀,靈堂內(nèi)的尸體忽然破棺而出俏竞,到底是詐尸還是另有隱情,我是刑警寧澤堂竟,帶...
    沈念sama閱讀 36,583評論 5 351
  • 正文 年R本政府宣布魂毁,位于F島的核電站,受9級特大地震影響出嘹,放射性物質(zhì)發(fā)生泄漏席楚。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,264評論 3 336
  • 文/蒙蒙 一税稼、第九天 我趴在偏房一處隱蔽的房頂上張望烦秩。 院中可真熱鬧,春花似錦郎仆、人聲如沸只祠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,755評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽抛寝。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間盗舰,已是汗流浹背猴凹。 一陣腳步聲響...
    開封第一講書人閱讀 33,869評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留岭皂,地道東北人郊霎。 一個月前我還...
    沈念sama閱讀 49,378評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像爷绘,于是被迫代替她去往敵國和親书劝。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,937評論 2 361

推薦閱讀更多精彩內(nèi)容