來源:《Survey of Approaches and Features for the Identification of HTTP-Based Botnet Traffic》棉胀,Acarali, D., Rajarajan, M., Komninos, N. & Herwono, I. (2016). Survey of Approaches and Features for the Identification of HTTP-Based Botnet Traffic. Journal of Network and Computer Applications, doi: 10.1016/j.jnca.2016.10.007
2、基于http的僵尸網(wǎng)絡(luò)的行為
2.2行為和觀察到的流量
當(dāng)bot通過生命周期進(jìn)行時(shí)娇唯,它將執(zhí)行不同的任務(wù)。每個(gè)步驟都應(yīng)該生成流量,這些特性反映了機(jī)器人想要實(shí)現(xiàn)的目標(biāo)。本節(jié)提供了可能在生命周期的每個(gè)階段都可以觀察到的流量特性终惑。
2.2.1傳播行為
僵尸網(wǎng)絡(luò)通過對(duì)脆弱系統(tǒng)的感染積累資源∶派龋基于http的機(jī)器人二進(jìn)制文件通過傳播載體(例如驅(qū)動(dòng)器)傳播給受害者雹有。Asprox,由Borgaonkar(2010)觀察)悯嗓,垃圾郵件和社會(huì)工程(例如KoobFace件舵,由thomas&nicol(2010)報(bào)道),以及按次付費(fèi)的活動(dòng)(例如:DirtJumper脯厨,由Andrade & Vlajic(2012)報(bào)道)铅祸。一個(gè)被執(zhí)行的僵尸二進(jìn)制文件將開始在主機(jī)系統(tǒng)上進(jìn)行修改,以使自己變得模糊合武。一些可能觸發(fā)二次注入临梗,聯(lián)系一個(gè)嵌入的目標(biāo),從中下載額外的配置文件(Silva et al.稼跳, 2013)盟庞。感染過程的具體動(dòng)態(tài)在不同的產(chǎn)品、傳遞載體和運(yùn)動(dòng)之間有所不同汤善。這些復(fù)雜性使得很難將僵尸感染與其他類型的惡意軟件區(qū)分開來什猖。因此票彪,傳播行為被認(rèn)為超出了我們的工作范圍。我們認(rèn)為這是一個(gè)更大的話題不狮,值得單獨(dú)研究降铸。
2.2.2集結(jié)的行為
已經(jīng)成功感染了受害者的機(jī)器人將試圖集合到相關(guān)的C&C服務(wù)器上。這一過程可能會(huì)在機(jī)器人的一生中多次重復(fù)摇零,原因是重新啟動(dòng)主機(jī)(Silva et al.推掸, 2013)或具有變化域或ip的服務(wù)器。為了建立初始連接驻仅,一些僵尸使用一個(gè)域列表進(jìn)行二進(jìn)制文件編碼谅畅,它們將試圖解析這些域(例如,Rahimian et al.(2014)所研究的Citadel)噪服≌毙海或者,可以實(shí)現(xiàn)域生成算法(DGA)芯咧。(據(jù)Sood et al.(2014)報(bào)道牙捉,在宙斯、Citadel和ICE1X中可見)敬飒。DGAs得到一個(gè)種子值邪铲,并自動(dòng)生成“偽隨機(jī)”域名的集合。機(jī)器人和botmaster都必須使用相同的種子來匹配它們的結(jié)果(Sood et al.无拗, 2014)带到。這增加了一層混淆,為注冊(cè)域名提供了一種偽裝(其中只有少數(shù))英染。DGAs還允許使用另一種模糊技術(shù)揽惹,稱為域fluxing, C&Cs經(jīng)常切換它們的域名(Sood et al., 2014)四康。另外,僵尸網(wǎng)絡(luò)可以使用fast-fluxing搪搏,從而使服務(wù)器的IP地址進(jìn)行轉(zhuǎn)換。
2.2.3交互行為
一旦建立了與C&C的成功連接闪金,僵尸就可以共享和接收來自botmasters的數(shù)據(jù)疯溺。在一些僵尸網(wǎng)絡(luò)中,新成員需要注冊(cè)C&Cs(例如哎垦,在他們的第一個(gè)HTTP請(qǐng)求中包含一個(gè)15位數(shù)字的識(shí)別號(hào)碼囱嫩,由Andrade & Vlajic(2012)報(bào)道)。對(duì)于命令傳播漏设,基于http的僵尸網(wǎng)絡(luò)使用基于拉的方法墨闲,成員必須發(fā)起自己的連接,并持續(xù)輪詢C&Cs進(jìn)行更新郑口。Asprox (Borgaonkar, 2010)鸳碧, dirt(Andrade & Vlajic, 2012)和Zeus (Binsalleeh et al.盾鳞, 2010)都顯示了這種輪詢行為。這樣做的好處就是周邊的控制措施杆兵,比如防火墻都被繞過了雁仲。大多數(shù)防火墻允許HTTP端口上的傳出連接,用于標(biāo)準(zhǔn)web流量的80或443琐脏。從C&Cs接收到的數(shù)據(jù)可以包括配置文件、更新(用于維護(hù)目的)或攻擊指令(例如缸兔,Asprox機(jī)器人可以接收J(rèn)avaScript文件進(jìn)行下載日裙,Borgaonkar(2010)報(bào)道)。機(jī)器人也可以將數(shù)據(jù)發(fā)送回服務(wù)器惰蜜,包括運(yùn)行攻擊的日志信息(Farina et al.昂拂, 2016)或者從受害者節(jié)點(diǎn)獲取的用戶個(gè)人信息。
2.2.4攻擊行為
僵尸將根據(jù)所收到指令的性質(zhì)進(jìn)行攻擊抛猖「窈睿基于http的僵尸網(wǎng)絡(luò)已經(jīng)被觀察到進(jìn)行各種攻擊活動(dòng),包括DDoS(例如BlackEnergy, Shiaeles等人(2012))财著,web注入和瀏覽器攻擊(例如联四,Zeus和Citadel (Sood et al., 2014))撑教, SQL注入(例如Asprox, Borgaonkar(2010))朝墩,以及其他許多。產(chǎn)生的流量將自然地取決于攻擊的性質(zhì)伟姐。
表1提供了一些報(bào)告的bot行為和由它們生成的相應(yīng)通信量的摘要收苏。
3、基于http的僵尸網(wǎng)絡(luò)流量的特征和識(shí)別愤兵。
基于http的僵尸網(wǎng)絡(luò)產(chǎn)生的流量是其潛在行為的特征鹿霸。因此,基于這種理解建立現(xiàn)有的基于網(wǎng)絡(luò)的檢測(cè)方法秆乳,以區(qū)分良性和惡意的流量懦鼠。在本節(jié)中,根據(jù)他們旨在識(shí)別的流量類型來調(diào)查針對(duì)(或適用于)基于http的僵尸網(wǎng)絡(luò)的當(dāng)前檢測(cè)方法矫夷。
3.1識(shí)別集結(jié)流量
Sharifnya & Abadi(2013)研究了像Kraken這樣的domain-fluxing僵尸網(wǎng)絡(luò)的集合行為葛闷,并提出了一個(gè)識(shí)別使用DGAs的聲譽(yù)系統(tǒng)。僵尸預(yù)計(jì)會(huì)生成一些域名双藕,每個(gè)域名都將被查詢淑趾,直到一個(gè)可以被解決。系統(tǒng)根據(jù)相似度對(duì)DNS查詢進(jìn)行分組忧陪,然后檢查它們的域扣泊,這些域似乎是由算法生成的近范。對(duì)于一系列的觀測(cè)時(shí)間窗口,他們提取這樣的主機(jī),a)查詢其中一個(gè)域和b)生成大量的查詢失敗延蟹。然后將這兩個(gè)屬性組合起來計(jì)算主機(jī)的負(fù)信譽(yù)評(píng)分评矩。在多個(gè)時(shí)間窗口中出現(xiàn)的主機(jī),或者作為一個(gè)組的一部分阱飘,被認(rèn)為更可疑斥杜,并且得分更高。
domain-fluxing也是Schiavoni等人(2014)的焦點(diǎn)沥匈,他提出了一個(gè)名為Phoenix的系統(tǒng)蔗喂。他們通過遵守語(yǔ)言規(guī)則(描述為可發(fā)音的)來建立良性域。DNS流量中的惡意域名使用黑名單進(jìn)行標(biāo)識(shí)高帖,并提取與這些域相關(guān)的查詢缰儿。域和它們的流量使用半監(jiān)督學(xué)習(xí)方法,用于識(shí)別與良性模型是否匹配散址。期望DGAs生成的域是隨機(jī)的乖阵,因此并不是由真實(shí)的單詞組成的。然后预麸,Phoenix通過它們的ip映射集群化了惡意域瞪浸。每個(gè)集群都被假定為一個(gè)單一的算法,因此被用來生成底層DGA的指紋师崎。作者使用指紋進(jìn)行檢測(cè)默终,并在對(duì)諸如Torpig和SpyEye等僵尸網(wǎng)絡(luò)的DNS流量進(jìn)行測(cè)試時(shí)報(bào)告良好的結(jié)果(Schiavoniet al., 2014)犁罩。但是齐蔽,他們注意到這種方法對(duì)未注冊(cè)的域無效,而且是特定于語(yǔ)言的床估。因此含滴,來自另一種語(yǔ)言的域名可能會(huì)導(dǎo)致誤報(bào)(Schiavoni et al., 2014)丐巫。
3.2識(shí)別控制流量
bot和C&Cs之間的通信周期特性被大量用于檢測(cè)交互行為谈况。Wang等人(2010)聲稱機(jī)器人應(yīng)該是自動(dòng)的和系統(tǒng)的、重復(fù)的递胧、具有規(guī)則間隔的行為集合碑韵。基于此缎脾,他們將C&C流量描述為在機(jī)器人和他們的服務(wù)器之間交換的一系列類似的周期性HTTP消息祝闻。集群用于在TCP會(huì)話中發(fā)現(xiàn)統(tǒng)計(jì)相似的流,不包括不完全握手或空有效負(fù)載遗菠。將包含周期性行為模式的集群壓縮為簽名联喘,以便在將來的探測(cè)中使用华蜒。在對(duì)Kraken、Zeus和BlackEnergy進(jìn)行測(cè)試時(shí)豁遭,作者發(fā)現(xiàn)每個(gè)惡意軟件家族都有類似的周期模式叭喜,這表明它甚至可以區(qū)分來自不同僵尸網(wǎng)絡(luò)的流量。這種方法的主要缺點(diǎn)是蓖谢,顯示隨機(jī)通信模式的僵尸網(wǎng)絡(luò)可能會(huì)被忽略捂蕴。
Soniya & Wilscy(2013)將正常的HTTP流量描述為“bursty”,意思是在短時(shí)間內(nèi)將大量的連接發(fā)送到相同的目的地闪幽。根據(jù)他們的研究启绰,僵尸網(wǎng)絡(luò)流量(按照計(jì)劃和自動(dòng)方式生成)應(yīng)該隨著時(shí)間的推移更加均勻地分布。他們提出了一種檢測(cè)方案沟使,該方案通過流動(dòng)時(shí)間和大小的規(guī)律性來確定C&C通信。從正常的和僵尸網(wǎng)絡(luò)的流量中提取流量(從BlackEnergy和Zeus的樣本中收集)渊跋,并按目標(biāo)目的地進(jìn)行聚合腊嗡。然后計(jì)算了流量大小和流量時(shí)間的熵值,用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)分類器拾酝。盡管只使用流級(jí)分析燕少,作者報(bào)告了良好的檢測(cè)結(jié)果(97.4%檢出率,假陽(yáng)性率為2.5%)蒿囤。他們認(rèn)為客们,使用白名單可以減少誤報(bào)(主要由軟件升級(jí)引起)。
Etemad & Vahdani(2012)采用了類似的方法材诽,將僵尸網(wǎng)絡(luò)進(jìn)行集中檢測(cè)底挫。像Wang et al.(2010)一樣,他們通過定期的HTTP消息來識(shí)別C&C流量脸侥。他們強(qiáng)調(diào)建邓,從一個(gè)事務(wù)到另一個(gè)事務(wù)沒有任何連接,所以僵尸不斷地建立新的連接來檢索命令睁枕。該系統(tǒng)使用協(xié)議分析程序從網(wǎng)絡(luò)數(shù)據(jù)中提取HTTP流量官边,然后識(shí)別主機(jī)已經(jīng)GET、POST或HEAD請(qǐng)求的交換外遇,服務(wù)器已經(jīng)做出響應(yīng)注簿。然后使用一個(gè)HTTP分析器來確定類似消息中周期性重復(fù)的級(jí)別。消息相似性不是通過檢查整體的數(shù)據(jù)包跳仿,而是通過觀察每個(gè)包的開頭(即第一個(gè)字節(jié)序列)來確定模式或關(guān)鍵字诡渴。然而,正如作者所指出的塔嬉,這一工作也受到了一個(gè)事實(shí)玩徊,即隨機(jī)的HTTP機(jī)器人流量很可能不會(huì)被檢測(cè)到租悄。
另一個(gè)問題是由流量引起的假陽(yáng)性的數(shù)量,這是良性的和周期性的恩袱。Eslahi等人(2013)提出了一種解決這一問題的方法泣棋,以及檢測(cè)行為的隨機(jī)模式。根據(jù)僵尸網(wǎng)絡(luò)活動(dòng)的典型特征畔塔,他們定義了一個(gè)HAR(高訪問率)和LAR(低訪問率)過濾器潭辈。實(shí)際上,這些過濾器的設(shè)計(jì)目的是為可疑的周期性提供上界和下界澈吨。當(dāng)應(yīng)用到web流量時(shí)把敢,HAR過濾器刪除了被認(rèn)為太頻繁的HTTP連接,因此很可能是由自動(dòng)化的軟件更新生成的谅辣。與此同時(shí)修赞,LAR過濾器消除了由僵尸產(chǎn)生的周期性HTTP連接(Eslahiet al., 2013)桑阶。其結(jié)果是區(qū)分了良性和惡性的周期性柏副。作者報(bào)告說,該方法成功地減少了數(shù)據(jù)量(刪除了原始測(cè)試包的99.6%)蚣录,但是錯(cuò)誤的結(jié)果仍然是由重復(fù)的用戶行為引起的割择。他們建議通過將用戶代理字段作為一個(gè)特性(Eslahi et al., 2013)來解決這個(gè)問題萎河,不過如果僵尸網(wǎng)絡(luò)使用HTTPS荔泳,這將是無效的。
Eslahi等人(2015)再次探索了周期性的水平虐杯。在這項(xiàng)工作中玛歌,作者旨在更好地描述最有可能與僵尸網(wǎng)絡(luò)相關(guān)聯(lián)的周期性流量類型。它們通過消息相似性提取具有GET或POST請(qǐng)求和組的HTTP流量厦幅。僵尸網(wǎng)絡(luò)流量然后確定使用三個(gè)指標(biāo):周期性因素(PF)捕獲重復(fù),絕對(duì)的頻率范圍(RF)捕獲事件的頻率,和時(shí)間序列因子(TF)捕獲事件分布沾鳄。根據(jù)作者的觀點(diǎn),僵尸網(wǎng)絡(luò)流量的事件應(yīng)該在多個(gè)時(shí)間窗口中重復(fù)确憨,生成一個(gè)統(tǒng)一的次數(shù)译荞,并且在相同的時(shí)間間隔內(nèi)被觀察。這證明了僵尸的自動(dòng)化系統(tǒng)特性休弃。然后吞歼,使用決策樹將每個(gè)度量的值組合起來,給流量一個(gè)最終的周期性分類塔猾。這項(xiàng)工作通過對(duì)周期性的僵尸網(wǎng)絡(luò)流量給出一個(gè)更清晰的定義來改進(jìn)其他的工作篙骡。然而,假陽(yáng)性會(huì)再次報(bào)告,作者得出結(jié)論認(rèn)為糯俗,為了獲得更好的結(jié)果尿褪,應(yīng)通過其他措施來補(bǔ)充周期。