來源:A Survey on Malicious Domains Detection through DNS Data Analysis
三示罗、數(shù)據(jù)源定義
在本節(jié)中,我們將對(duì)文獻(xiàn)中提出的方案中使用的不同類型的DNS數(shù)據(jù)砖茸、輔助信息和參考標(biāo)準(zhǔn)進(jìn)行分類。這些數(shù)據(jù)的收集方式對(duì)惡意域檢測方案的基本假設(shè)和直覺有重大影響蹄葱。表1給出了本節(jié)的簡要總結(jié)峦筒,并列舉了相關(guān)的文章究西。請(qǐng)注意,該表不是詳盡的物喷,它只包含了最相關(guān)的源代碼和文章示例卤材。
3.1 DNS數(shù)據(jù)來源
DNS數(shù)據(jù)的收集可以按照以下兩個(gè)正交維度進(jìn)行分類:(1)數(shù)據(jù)的收集位置;(2)數(shù)據(jù)的收集方式。
收集數(shù)據(jù)的地方峦失。由于DNS基礎(chǔ)結(jié)構(gòu)的分布式特性扇丛,可以考慮多個(gè)位置來收集關(guān)于DNS查詢和回復(fù)的信息。在所有涉及的服務(wù)器中宠进,解析器(如第2部分中定義的)是惟一的晕拆,因?yàn)樗俏ㄒ豢梢灾苯釉L問來自客戶機(jī)的查詢的位置。因此材蹬,在下面的文章中实幕,我們將區(qū)分?jǐn)?shù)據(jù)來源的兩種具體情況。我們把第一個(gè)稱為“主機(jī)解析器”堤器。它是指通過觀察終端主機(jī)與其解析器之間的通信而獲得的DNS數(shù)據(jù)昆庇。第二個(gè)被稱為“DNS-DNS”,指的是通過觀察兩個(gè)DNS服務(wù)器之間的通信可以獲得的數(shù)據(jù)(其中一個(gè)可能是解析器)闸溃。
如何收集數(shù)據(jù)整吆。在給定的時(shí)間點(diǎn)上獲取ip和域名之間現(xiàn)有關(guān)聯(lián)的信息有兩種方式拱撵。一種方法是定期積極主動(dòng)地解析大量收集域名以獲得信息。另一種方法是被動(dòng)地觀察發(fā)送到DNS服務(wù)器的所有請(qǐng)求表蝙,提取必要的數(shù)據(jù)拴测。接下來,我們將把這兩種方法區(qū)分為主動(dòng)和被動(dòng)DNS數(shù)據(jù)收集府蛇。
3.1.1收集數(shù)據(jù)的地方?
Host-Resolver如圖1流1和8集索。使用解析器的內(nèi)部接口捕獲數(shù)據(jù)的一個(gè)主要優(yōu)勢,它提供了有關(guān)客戶的詳細(xì)信息的DNS查詢和響應(yīng),這可能直接鏈接到特定類型的惡意行為[45,109,109,126,133,134]。例如汇跨,僵尸網(wǎng)絡(luò)控制的主機(jī)通常在查詢域和時(shí)間模式方面都有類似的DNS查詢模型务荆。Choi等人[45,46]利用“什么主機(jī)查詢什么域”的信息,為每個(gè)域構(gòu)建一個(gè)矩陣穷遂,該矩陣顯示了在什么時(shí)間什么機(jī)器查詢了這個(gè)特定域函匕。這種表示非常方便,因?yàn)樗试S分析人員修剪矩陣的列級(jí)和行級(jí)蚪黑,以糾正由于僵尸網(wǎng)絡(luò)部件失活或時(shí)間窗口參數(shù)配置錯(cuò)誤而可能出現(xiàn)的錯(cuò)誤盅惜。在Segugio系統(tǒng)[133,134]中,這個(gè)信息被用來構(gòu)建一個(gè)主機(jī)域圖祠锣,表示主機(jī)和域之間的“誰查詢什么”關(guān)系酷窥。由于中間服務(wù)器的緩存,很難從DNS-DNS數(shù)據(jù)中觀察到這種行為模式伴网。這種數(shù)據(jù)來源的另一個(gè)優(yōu)點(diǎn)是易于訪問。任何公司或研究所都可以在自己的解決方案中直接部署傳感器妆棒,而無需與其他各方合作澡腾。由于這些原因,許多現(xiàn)有的惡意域檢測方案都是建立在解析器數(shù)據(jù)的基礎(chǔ)上的糕珊,特別是那些特性與單個(gè)主機(jī)行為相關(guān)的解析器數(shù)據(jù)动分。還應(yīng)該提到的是,使用主機(jī)解析器DNS數(shù)據(jù)的方法也可以用于檢測惡意主機(jī)红选,粗略地說就是那些查詢惡意域的主機(jī)澜公。
部署在解析器內(nèi)部接口上的傳感器的一個(gè)限制是,它們只能看到單個(gè)組織中主機(jī)的行為喇肋,這可能不足以全面地建立與惡意活動(dòng)相關(guān)的模式坟乾。一個(gè)值得注意的例外是,客戶端選擇使用一個(gè)公開可用的DNS服務(wù)器作為解析器蝶防,以提供遞歸查詢甚侣,例如谷歌公共DNS[7]、OpenDNS[12]或Norton ConnectSafe[11]间学。由于與它們交互的主機(jī)數(shù)量龐大且種類繁多殷费,在這些解析器中收集的數(shù)據(jù)可以全面揭示與不同攻擊類型相關(guān)的可疑行為印荔。大型互聯(lián)網(wǎng)服務(wù)提供商的DNS解析器也服務(wù)于大量的個(gè)人用戶。它們可以用于相同的目的详羡。不幸的是仍律,來自公共DNS服務(wù)器或ISP DNS服務(wù)器的DNS數(shù)據(jù)日志不容易被研究社區(qū)訪問,通常是出于隱私考慮[71,88,172]实柠。
另一方面水泉,部署在其他DNS服務(wù)器附近的傳感器觀察到的查詢通常會(huì)看到幾個(gè)組織發(fā)出的查詢。在文獻(xiàn)中主到,被認(rèn)為觀察DNS-DNS流量最頻繁的位置是(i)在權(quán)威的名稱服務(wù)器[29]上茶行,包括負(fù)責(zé)TLDs的服務(wù)器[29,154],(ii)在解析器的外部接口上[28,35,36,82]登钥。傳感器離DNS樹的根越近畔师,可見性越大。從TLD服務(wù)器收集的數(shù)據(jù)可以提供獨(dú)特的見解和對(duì)新出現(xiàn)的惡意域名的早期檢測牧牢。注意看锉,這樣的日志只會(huì)顯示請(qǐng)求的存在,而不會(huì)顯示它們的答案(即因?yàn)門LD服務(wù)器通常只提供迭代查詢塔鳍。僅從解析器的日志中很難捕捉到這樣的信號(hào)伯铣。從權(quán)威服務(wù)器獲取日志可以解決這個(gè)問題,但是由于緩存的原因轮纫,并不是所有查詢對(duì)該服務(wù)器都是可見的腔寡。因此,DNS樹中較高的DNS服務(wù)器的日志所提供的視圖可以很快變得相當(dāng)粗粒度掌唾。最極端的情況是在根服務(wù)器上觀察到的請(qǐng)求放前,這些請(qǐng)求幾乎可以完全顯示在Internet上查詢的所有名稱,但沒有響應(yīng)糯彬。這些請(qǐng)求的容量分析也受到在終端客戶端和根服務(wù)器之間的中間服務(wù)器中發(fā)生緩存的嚴(yán)重影響[62,63]凭语。因此,在解析器的服務(wù)器上捕獲的數(shù)據(jù)所提供的特性通常是有限的撩扒。此外似扔,這些域名服務(wù)器的日志很難被研究人員獲取。
3.1.2數(shù)據(jù)收集方式?
活動(dòng)DNS數(shù)據(jù)收集搓谆。為了積極獲取DNS數(shù)據(jù)炒辉,數(shù)據(jù)收集器會(huì)故意發(fā)送DNS查詢并記錄相應(yīng)的DNS響應(yīng)[44,73,89,91,105,121,127]。查詢域的列表是通過多個(gè)來源構(gòu)建的挽拔,典型的列表包括流行的域列表辆脸,比如Alexa Top Sites[25],出現(xiàn)在各種黑名單中的域螃诅,或者來自權(quán)威服務(wù)器的區(qū)域文件啡氢。顯然状囱,由于查詢是由數(shù)據(jù)收集器發(fā)出的,因此它們不能反映實(shí)際用戶的行為倘是。而主動(dòng)DNS數(shù)據(jù)主要捕捉域的DNS記錄亭枷,如解析后的ip、規(guī)范名搀崭、記錄的TTL等叨粘。主動(dòng)抓取DNS數(shù)據(jù)的主要優(yōu)點(diǎn)是數(shù)據(jù)采集方法的靈活性和易用性。數(shù)據(jù)收集器可以輕松地控制要查詢的域瘤睹。此外升敲,主動(dòng)DNS可以在域的實(shí)際惡意使用前顯示域的濫用信號(hào)。例如轰传,主動(dòng)DNS收集器可以在區(qū)域文件中發(fā)現(xiàn)新注冊(cè)但尚未使用的潛在惡意域[57,69]驴党,而被動(dòng)傳感器無法看到它。此外获茬,活動(dòng)DNS數(shù)據(jù)沒有鏈接到
個(gè)人用戶的行為港庄,因此,可以與研究社區(qū)共享恕曲,而不涉及任何隱私問題鹏氧。同時(shí),由于同樣的原因佩谣,活動(dòng)DNS數(shù)據(jù)不能使用依賴于用戶級(jí)特性(例如用戶查詢的時(shí)間統(tǒng)計(jì)信息)的技術(shù)來檢測惡意域把还。如果DNS查詢僅從有限的一組主機(jī)發(fā)出,收集的數(shù)據(jù)可能會(huì)有偏差茸俭,這是另一個(gè)限制笨篷。具體來說,一個(gè)域可能與多個(gè)ip相關(guān)聯(lián)瓣履,這取決于查詢發(fā)出者的地理位置。因此练俐,活動(dòng)DNS數(shù)據(jù)可能包含有限的ip集袖迎,這些ip集是查詢發(fā)出地點(diǎn)的函數(shù)。
四 檢測算法設(shè)計(jì)
為了系統(tǒng)地介紹過去各條工作路線所采用的方法腺晾,我們選擇從三個(gè)不同的觀點(diǎn)來看待它們:
特征:使用了哪些特征?
方法:檢測方法基于什么技術(shù)?
結(jié)果:產(chǎn)生了什么結(jié)果?
下面的小節(jié)分別介紹了這些觀點(diǎn)燕锥,而表2只列出了最相關(guān)的示例和相關(guān)文章,提供了該部分的概述悯蝉。
4.1特性
特征提取(或稱归形,特征工程)是一項(xiàng)具有挑戰(zhàn)性的任務(wù),對(duì)檢測方法的質(zhì)量(精度和魯棒性)有很大的影響鼻由。精心設(shè)計(jì)的特征在很大程度上有助于方法的成功暇榴,相反厚棵,糟糕的特征甚至可能毀掉好的檢測算法。另一方面蔼紧,即使一個(gè)特征可能具有很好的預(yù)測能力婆硬,導(dǎo)致較高的檢測準(zhǔn)確率,如果它可以很容易地被攻擊者偽造奸例,依賴它的檢測方法的魯棒性也會(huì)很低彬犯。因此,成功的檢測方法在選擇特征時(shí)必須考慮到準(zhǔn)確性和魯棒性的微妙平衡查吊。
很少有什么方法可以簡單地從DNS的流量中分析資源記錄并在它們出現(xiàn)的時(shí)候使用特定的字段值谐区。相反,在使用這些原始值進(jìn)行檢測之前逻卖,可以對(duì)其進(jìn)行多種處理(平均值宋列、標(biāo)準(zhǔn)差、最大值箭阶、最小值虚茶、速率、離群值等)仇参。此外嘹叫,可以使用DNS環(huán)境之外的外部數(shù)據(jù)來充實(shí)初始數(shù)據(jù)集。有些方法在檢測方法中使用DNS數(shù)據(jù)之前诈乒,需要將DNS數(shù)據(jù)轉(zhuǎn)換為不同的數(shù)據(jù)結(jié)構(gòu)罩扇,比如圖。例如怕磨,Lee等人提出的方法[100,101]就是這樣的情況喂饥,其中構(gòu)建了一個(gè)表示具有域的客戶端通信序列的圖。作者將其稱為域名旅行圖(DNTG)肠鲫,并使用它來識(shí)別需要通過檢測方法考慮的相關(guān)域集群员帮。在Oprea等人[126]提出的方法中,構(gòu)建了另一種表示主機(jī)IP地址和查詢域之間關(guān)聯(lián)的圖导饲,而Khalil等人[82]的方法中捞高,圖捕獲了不同ASNs中大量域的移動(dòng)。
個(gè)別處理渣锦、富集和預(yù)處理技術(shù)的數(shù)量非常龐大硝岗,每一種都超出了本文的范圍。為了系統(tǒng)地展示藝術(shù)的現(xiàn)狀袋毙,我們?cè)诟叩某橄髮哟紊蠀^(qū)分消費(fèi)特征型檀。具體來說,我們考慮以下三個(gè)維度來區(qū)分特征:
(1)內(nèi)部特征(Internal features)與上下文特征(Contextual features)
(2) DNS數(shù)據(jù)集依賴與獨(dú)立特征
(3) 單一 vs 多域特征
4.1.1內(nèi)部特征與上下文特征?
內(nèi)部特征和上下文特征之間的區(qū)別與Perdisci等人[128]提出的將特征分為被動(dòng)特征和主動(dòng)特征的區(qū)別非常相似听盖。根據(jù)作者的觀點(diǎn)胀溺,被動(dòng)特征是指那些“可以通過被動(dòng)地監(jiān)視DNS查詢從解析器中收集到的信息中直接提取出來的”裂七,而“主動(dòng)特征需要一些額外的外部信息來計(jì)算”。由于我們確實(shí)考慮到在其他地方被動(dòng)或主動(dòng)地收集數(shù)據(jù)的可能性月幌,我們認(rèn)為這個(gè)術(shù)語可能具有誤導(dǎo)性碍讯,因此我們選擇了不同的術(shù)語,即內(nèi)部術(shù)語和上下文術(shù)語扯躺,如下所述:
內(nèi)部特征(Internal features)捉兴。這些特征可以單獨(dú)從DNS資源記錄中提取出來。不需要外部的免費(fèi)數(shù)據(jù)源录语。然而倍啥,它們可能是,并且大多數(shù)情況下在被輸入到檢測方法之前會(huì)被轉(zhuǎn)換澎埠。例如虽缕,[35、36蒲稳、128氮趋、129、148]中使用的“域平均TTL值”就是這種特征的一個(gè)例子江耀。此外剩胁,從域名中提取的特征,在DGA檢測和歸屬中很流行([28,30,45,73,140,155])祥国,屬于這一類昵观。此外,基于關(guān)聯(lián)的特性在基于圖形的方法中很流行[100,101,126,133,134,149,174]舌稀,通常使用內(nèi)部DNS特征構(gòu)建啊犬。
上下文特征。另一方面壁查,上下文特性是通過結(jié)合DNS和外部信息源構(gòu)建的觉至。例如,要計(jì)算“域的IP地址所屬的ASNs的數(shù)量”([44睡腿、45康谆、75、148])嫉到,需要IP- as映射的信息。在另一個(gè)示例[82]中月洛,作者使用計(jì)算在不同AS數(shù)量上的相似度得分作為數(shù)字何恶,為域域關(guān)聯(lián)分配權(quán)重。Zhang等人[171]還利用WHOIS數(shù)據(jù)中推斷的關(guān)聯(lián)進(jìn)行域聚類嚼黔。
我們注意到一些上下文特征需要查詢攻擊者控制的資源细层。例如惜辑,Prieto等人[130]將域web呈現(xiàn)作為特性之一,即疫赎,每當(dāng)一個(gè)新域名出現(xiàn)在他們的列表中時(shí)盛撑,他們就會(huì)檢查這個(gè)域名是否有網(wǎng)頁可用。另一種特殊類型的上下文特性使用DNS數(shù)據(jù)本身進(jìn)行充實(shí)捧搞。例如抵卫,Prieto等人[130]檢查域是否有關(guān)聯(lián)的MX記錄。因此胎撇,使用這種類型的特性可能會(huì)警告攻擊者該域正在受到監(jiān)視介粘。然而,并不總是需要積極地與域交互晚树。這樣的數(shù)據(jù)有時(shí)可以從泰利斯[91]姻采、Censys[53]或Shodan[14]等系統(tǒng)獲得。
雖然內(nèi)部特征的使用有很多好處爵憎,主要是在簡單性方面慨亲,但它們捕捉信息的能力是有限的,這些信息已被證明無法區(qū)分好域名和壞域名宝鼓。例如刑棵,給定域的注冊(cè)時(shí)間通常是一個(gè)非常重要的特性,但它不能僅從DNS數(shù)據(jù)獲得席函。研究表明铐望,有時(shí)攻擊者會(huì)在惡意活動(dòng)開始前幾個(gè)月批量注冊(cè)域名[69]。這種注冊(cè)模式的檢測使研究人員能夠像[57,69]中所做的那樣茂附,主動(dòng)檢測惡意域正蛙。然而,國家代碼TLDs (ccTLD)通常無法獲得這些信息营曼,因?yàn)閏cTLD注冊(cè)中心很少提供對(duì)其區(qū)域內(nèi)的訪問乒验。因此,域的存在可以一直保持未知狀態(tài)蒂阱,直到第一次查詢時(shí)為止锻全,此時(shí)通過查詢WHOIS服務(wù)器可能(有時(shí)但不總是)檢索該信息。這使得依賴這些特征的方法不適用于大量領(lǐng)域录煤。同樣鳄厌,由于可訪問性有限、涉及隱私妈踊、成本過高等原因了嚎,其他一些有用的豐富信息也很難獲取。然而,盡管存在這些問題歪泳,上下文信息的使用可以讓研究人員提取出更有意義的特征萝勤,從而為惡意行為信號(hào)提供更廣泛的覆蓋。
4.1.2 DNS數(shù)據(jù)集依賴與獨(dú)立特性
根據(jù)我們對(duì)文獻(xiàn)的回顧呐伞,我們認(rèn)為區(qū)分受到特定DNS數(shù)據(jù)集影響的特征和獨(dú)立于現(xiàn)有DNS數(shù)據(jù)集的特征是很重要的敌卓。我們分別將它們稱為DNS數(shù)據(jù)集相關(guān)特征(DDD)和DNS數(shù)據(jù)集獨(dú)立特征(DDI)。這兩個(gè)類背后的原理與驗(yàn)證階段相關(guān)聯(lián)伶氢。僅依賴于DDD特征的方法的性能很大程度上受所選數(shù)據(jù)集的影響趟径。因此,為了評(píng)估這些方法的質(zhì)量鞍历,執(zhí)行跨數(shù)據(jù)集驗(yàn)證是非常重要的舵抹,使用來自不同位置、不同時(shí)期劣砍、不同大小的數(shù)據(jù)集等等(更多信息請(qǐng)參閱5.3部分)惧蛹。相反,依賴DDI特性的方法更穩(wěn)定刑枝,可以在不同的環(huán)境中同樣運(yùn)行香嗓。
依賴于DNS數(shù)據(jù)集的特性。例如装畅,在觀察期間“被觀察到的被分配到一個(gè)域的IP地址的數(shù)量”是DDD特性靠娱,因?yàn)樗闹狄蕾囉趕pecific數(shù)據(jù)集[75,89,128,129]。類似地掠兄,Khalil et al.[82]等人使用“一對(duì)域共享的觀測公共ASNs的數(shù)量”特性來構(gòu)建域名之間的關(guān)聯(lián)像云,這也是與數(shù)據(jù)集有關(guān)的,因?yàn)槭褂眠@種關(guān)聯(lián)構(gòu)建的圖取決于數(shù)據(jù)集的收集地點(diǎn)和方式蚂夕。
DNS數(shù)據(jù)集獨(dú)立的特性迅诬。另一方面,“流行搜索引擎中特定域的命中率”[35,36]是DNS數(shù)據(jù)集獨(dú)立的特性婿牍,因?yàn)樗灰蕾囉谠谶x定的DNS數(shù)據(jù)集中可以看到什么侈贷。同樣,域名的“n-gram”分布[28,30,110]是獨(dú)立于DNS數(shù)據(jù)集的等脂,因?yàn)樗灰蕾囉谒x擇的數(shù)據(jù)集俏蛮。
4.1.3單域與多域特性。
Mono域特征上遥。為每個(gè)域提取單域特征搏屑。例如,“擁有一個(gè)給定領(lǐng)域的國家數(shù)量”[28,29,44,61,150]就是一個(gè)單一領(lǐng)域特性的例子粉楚。使用這類特征的優(yōu)點(diǎn)之一是睬棚,依賴于它們的方法可以在完全不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練和操作。
多域特征。計(jì)算在一對(duì)域上的域關(guān)聯(lián)特征抑党,在許多基于圖的和集群方法中使用[82,133,134,154,171,174],是多域特征的例子撵摆,也被使用底靠,例如在[28,30,101]。我們注意到特铝,依賴于多域特征的方法通常需要更大的數(shù)據(jù)集才能正常工作暑中。實(shí)際上,兩個(gè)任意域之間的關(guān)聯(lián)可能是間接的鲫剿,因此鳄逾,為了構(gòu)建這樣一個(gè)關(guān)聯(lián)中間域,還應(yīng)該考慮將其包括在內(nèi)灵莲,以便該方法能夠正常工作雕凹。
4.2檢測方法
在我們正在考慮的檢測方法中,我們發(fā)現(xiàn)了兩種主要的范例政冻。首先枚抵,該方法可能會(huì)從一些外部專家那里獲得一些好處,以確定如何區(qū)分好域名和壞域名明场。這種專門知識(shí)是通過各種啟發(fā)式方法實(shí)現(xiàn)的汽摹,不使用機(jī)器學(xué)習(xí)技術(shù)。因此苦锨,我們其稱為基于知識(shí)范式的方法(Knowledge Based methods)逼泣。在第二種情況下,盡管作者可能有一些惡意和良性域可供使用的例子舟舒,但他們對(duì)如何區(qū)分這兩種域沒有先天的理解拉庶。它們依賴數(shù)據(jù)驅(qū)動(dòng)算法來幫助識(shí)別過程自動(dòng)化,因此魏蔗,我們將這種范式下的方法稱為基于機(jī)器學(xué)習(xí)的方法(Machine Learning Based methods)砍的。
一般來說,屬于前一類的方法出現(xiàn)得早于后一類莺治。在早期的研究工作中廓鞠,通過對(duì)數(shù)據(jù)的分析,研究人員發(fā)現(xiàn)了能夠區(qū)分惡意域和良性域的特征谣旁。然而床佳,隨著時(shí)間的推移,對(duì)手的行為導(dǎo)致了這些方法檢測能力的下降榄审,這迫使研究人員尋找更多描述性特征砌们。這樣的競爭導(dǎo)致了一種情況,即需要在一個(gè)模型中考慮的特征數(shù)量變得難以管理,促使研究人員轉(zhuǎn)向基于機(jī)器學(xué)習(xí)的方法浪感,這種方法能夠從高維數(shù)據(jù)中自動(dòng)獲得知識(shí)昔头。
隨著該領(lǐng)域的進(jìn)一步發(fā)展,研究者們開始使用堆疊方法影兽。為了生成惡意域列表揭斧,當(dāng)將一個(gè)方法的輸出作為輸入傳遞給下一個(gè)方法時(shí),這些方法涉及幾個(gè)步驟峻堰。因此讹开,由于這些技術(shù)采用了不同的檢測方法,包括機(jī)器學(xué)習(xí)和基于知識(shí)的方法捐名,我們稱之為混合方法(Hybrid approaches)旦万。
4.2.1基于知識(shí)的方法?
為了檢測涉及惡意活動(dòng)的域,基于知識(shí)的方法依賴于專家的洞察力镶蹋。這些見解可以通過測量研究獲得成艘,這些研究探索與惡意領(lǐng)域活動(dòng)相關(guān)的異常。文獻(xiàn)中有許多這樣的研究[37梅忌、40狰腌、47、64牧氮、65琼腔、93、118踱葛、130丹莲、139、158尸诽、170]甥材。例如,Sato等人[139]觀察到屬于一個(gè)惡意軟件家族的惡意域名往往同時(shí)被查詢性含。因此洲赵,通過測量已知惡意域和未知域之間的共存程度,并將結(jié)果與某個(gè)閾值進(jìn)行比較商蕴,就有可能檢測到新的惡意域〉迹現(xiàn)代Choi在他的作品中利用了同樣的觀察[45-47]。Krishnan等人[93]和Guerid等人[65]觀察到绪商,在DNS查詢方面苛谷,網(wǎng)絡(luò)中的機(jī)器人社區(qū)往往表現(xiàn)出類似的模式,這些模式是DNS基礎(chǔ)設(shè)施無法解析的格郁。
不幸的是腹殿,這一系列方法都有局限性独悴。專家可能有意無意地有偏見。例如锣尉,Grill等[64]構(gòu)建了它們的方法刻炒,即DGA惡意軟件為找到與之通信的正確域做出了許多DNS解析。因此自沧,對(duì)于感染這類惡意軟件的主機(jī)落蝙,DNS解析的數(shù)量大于后續(xù)通信的數(shù)量。通過將它們之間的比率與手動(dòng)設(shè)置的閾值進(jìn)行比較暂幼,作者可以檢測到感染了惡意軟件的主機(jī)。然而移迫,現(xiàn)代瀏覽器試圖預(yù)測用戶的互聯(lián)網(wǎng)行為并提前解決某些領(lǐng)域的問題旺嬉,即使這些領(lǐng)域從未被查詢過。因此厨埋,在這種情況下邪媳,如果閾值不自動(dòng)調(diào)整,這種方法將產(chǎn)生假陽性荡陷,因?yàn)檫@種行為在分析時(shí)專家并不知道噪伊。此外贴铜,專家通常不擅長分析高維數(shù)據(jù),因?yàn)閷?duì)于人類來說,從數(shù)據(jù)中提取的特征之間的所有關(guān)聯(lián)和依賴是不容易掌握的技扼。
4.2.2基于機(jī)器學(xué)習(xí)的方法?
大多數(shù)用于檢測惡意域的方法都是數(shù)據(jù)驅(qū)動(dòng)的,其核心是機(jī)器學(xué)習(xí)算法[150]嗽桩。一般來說幼驶,機(jī)器學(xué)習(xí)算法允許計(jì)算機(jī)在沒有明確編程的情況下學(xué)習(xí)數(shù)據(jù)[113,138]。根據(jù)用于學(xué)習(xí)的數(shù)據(jù)耘沼,現(xiàn)有的機(jī)器學(xué)習(xí)技術(shù)通臣牵可以分為三個(gè)子類:
?監(jiān)督學(xué)習(xí)
?Semi-supervised學(xué)習(xí)
?無監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)算法。這些算法需要標(biāo)記完整的訓(xùn)練集群嗤,即菠隆,對(duì)應(yīng)于數(shù)據(jù)樣本的每個(gè)特征向量都必須與表示該樣本所屬類的標(biāo)簽相關(guān)聯(lián)。關(guān)于本文的主題狂秘,這意味著訓(xùn)練集中的每個(gè)域名都必須明確地標(biāo)記為惡意或善意骇径。然而,考慮到在實(shí)驗(yàn)訓(xùn)練期間通常觀察到的域的數(shù)量赃绊,幾乎不可能將所有域都正確標(biāo)注既峡。因此,在有監(jiān)督學(xué)習(xí)的情況下碧查,訓(xùn)練數(shù)據(jù)集通常只包含那些標(biāo)記為高可信度的數(shù)據(jù)运敢。感興趣的讀者可以參考[90]查閱監(jiān)督學(xué)習(xí)算法校仑。有監(jiān)督的機(jī)器學(xué)習(xí)方法,如[29传惠、35迄沫、36、44卦方、61羊瘩、75、85盼砍、122尘吗、127、148]由于簡單浇坐、自動(dòng)選擇最相關(guān)的特性和有效性睬捶,在這個(gè)領(lǐng)域非常流行。實(shí)際上近刘,依賴這種方法的研究人員只需要從原始數(shù)據(jù)中提取特征擒贸,并在標(biāo)記的數(shù)據(jù)集中訓(xùn)練分類器。將訓(xùn)練過的分類器應(yīng)用到新的數(shù)據(jù)中是很簡單的觉渴。例如介劫,DomainProfiler[44]使用了針對(duì)相關(guān)IP地址和域名提取的55個(gè)特性。采用隨機(jī)森林算法發(fā)現(xiàn)濫用域案淋。Antonakakis等人的[29]也使用隨機(jī)森林座韵。然而,在此工作中哎迄,特征是從權(quán)威名稱服務(wù)器的被動(dòng)DNS數(shù)據(jù)中提取的回右。
不幸的是,監(jiān)督學(xué)習(xí)方法有幾個(gè)缺點(diǎn)漱挚。首先翔烁,他們需要一個(gè)標(biāo)記數(shù)據(jù)集來訓(xùn)練。由于DNS和黑名單數(shù)據(jù)的易變性旨涝,獲取完全正確的數(shù)據(jù)集并不容易蹬屹。如3.3節(jié)所述,手工標(biāo)記很耗時(shí)白华,不會(huì)導(dǎo)致大量的訓(xùn)練數(shù)據(jù)集慨默。使用來自不同白名單和黑名單的信息進(jìn)行自動(dòng)標(biāo)記同樣容易導(dǎo)致錯(cuò)誤的數(shù)據(jù)包含[51、94弧腥、95厦取、135、143管搪、145虾攻、150]铡买。其次,監(jiān)督學(xué)習(xí)方法更容易受到特定數(shù)據(jù)集的過擬合影響霎箍。如果標(biāo)記的數(shù)據(jù)集有偏差奇钞,這可能會(huì)無意中導(dǎo)致分類器學(xué)習(xí)不正確的特征變量分布。此外漂坏,在真正的DNS數(shù)據(jù)提要中景埃,只有一部分域可以用標(biāo)簽分配。在實(shí)踐中顶别,絕大多數(shù)樣本沒有進(jìn)行標(biāo)記谷徙,無法參與分類學(xué)習(xí)過程,導(dǎo)致訓(xùn)練數(shù)據(jù)集不一致驯绎。
Semi-supervised學(xué)習(xí)算法蒂胞。為了克服這種局限性,已經(jīng)提出了半監(jiān)督學(xué)習(xí)算法[41,173]条篷。他們從標(biāo)記和未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)。未標(biāo)記數(shù)據(jù)有助于機(jī)器學(xué)習(xí)算法修改或重新排序從標(biāo)記數(shù)據(jù)集獲得的假設(shè)[173]蛤织。然而赴叹,采用這種算法通常是相當(dāng)具有挑戰(zhàn)性的,需要研究人員付出更多努力指蚜。關(guān)于半監(jiān)督學(xué)習(xí)算法的更多信息乞巧,我們參考[173]和[41]√Γ基于圖形的推理方法是這一類別下最流行的方法[77绽媒、82、100免猾、101是辕、109、112猎提、126获三、174]。例如锨苏,Manadhata等人[109]利用從企業(yè)HTTP代理日志中提取的主機(jī)域圖的信任傳播算法檢測到惡意域疙教。假設(shè)惡意主機(jī)更有可能與惡意軟件域進(jìn)行通信,而良性主機(jī)可以僅偶爾詢問惡意域伞租,并且具有初始惡意和良性域的饋送贞谓,使用置信傳播方法的作者能夠評(píng)估圖中未知的域的邊際概率是惡意的。在[174]中葵诈,作者用他們的方法在兩種類型的圖上預(yù)測了惡意主機(jī)和域裸弦。首先祟同,域查詢響應(yīng)圖(Domain Query Response Graph, DQRG)是使用來自DNS查詢響應(yīng)對(duì)的信息構(gòu)建的:客戶機(jī)的IP地址與查詢的域名相連接,而查詢的域名又與返回的域的IP地址相關(guān)聯(lián)烁兰。第二個(gè)是被動(dòng)DNS圖(Passive DNS Graph, PDG)耐亏,它使用從被動(dòng)DNS數(shù)據(jù)中提取的域名、它們的規(guī)范連接和相應(yīng)的IP地址(CNAME和一個(gè)資源記錄)來構(gòu)建沪斟。然后,信念傳播應(yīng)用在這些圖表广辰。與[109]中所有良性域的初始值都相同的情況相反,Zou等[174]根據(jù)Alexa top K列表中的等級(jí)來賦值主之。Mishsky等人[112]在域ip圖上應(yīng)用了流算法择吊。然而,這個(gè)圖除了這個(gè)區(qū)域常用的加權(quán)域- ip邊槽奕,還包括表示“告訴我你的朋友是誰几睛,我將告訴你你是誰”關(guān)系的域-域和IP-IP邊。
群標(biāo)半監(jiān)督學(xué)習(xí)技術(shù)在該領(lǐng)域也被廣泛使用[57,62,63,100101]粤攒。Gao等[62,63]提出了一種基于共現(xiàn)模式的聚類檢測惡意域的方法所森。顯然,來自相同惡意代理的對(duì)DNS系統(tǒng)的查詢經(jīng)常會(huì)同時(shí)發(fā)生夯接,例如焕济,當(dāng)一個(gè)機(jī)器人試圖解析算法生成的域名以獲取主機(jī)的IP地址時(shí)。在這種情況下盔几,相同的域名會(huì)經(jīng)常在DNS解析日志中一起彈出晴弃。作者用以下方法利用了這種觀察。在第一次訪問時(shí)逊拍,他們對(duì)流量進(jìn)行粗粒度的集群上鞠。他們選擇了一個(gè)時(shí)間窗口,對(duì)于每個(gè)錨定域(來自標(biāo)記數(shù)據(jù)集的惡意域)芯丧,測量它與選定時(shí)間窗口內(nèi)的其他域共存的頻率芍阎。他們計(jì)算了兩個(gè)指標(biāo):術(shù)語頻率(表示其他域名與錨域名一起查詢的頻率)和反向文檔頻率(表示在所有窗口中遇到其他域的罕見程度)。使用這兩個(gè)指標(biāo)的預(yù)定義閾值缨恒,作者選擇了與每個(gè)錨定域相關(guān)聯(lián)的粗粒度集群能曾。此外,為了執(zhí)行細(xì)粒度聚類肿轨,每個(gè)域都分配了一個(gè)比特向量寿冕,其長度等于觀測期間錨定子域滿足的次數(shù)。如果對(duì)域的查詢發(fā)生在一個(gè)小的時(shí)間窗口內(nèi)椒袍,而對(duì)錨的查詢發(fā)生在一個(gè)小的時(shí)間窗口內(nèi)驼唱,則會(huì)設(shè)置這個(gè)向量中的一個(gè)位。然后驹暑,使用X-means對(duì)這些向量進(jìn)行集群玫恳,以選擇細(xì)粒度的集群辨赐。Jehyun Lee和Heejo Lee提出了一種新的方法來構(gòu)建一個(gè)表示客戶端域通信序列的圖,他們稱之為域名旅行圖(DNTG)[101]京办。這個(gè)有向圖中的節(jié)點(diǎn)表示一個(gè)域掀序,如果同一客戶端順序查詢了相應(yīng)的域,則在兩個(gè)節(jié)點(diǎn)之間添加一條邊惭婿。邊的權(quán)值隨著域間轉(zhuǎn)移數(shù)的增加而增加不恭,而邊的方向表示轉(zhuǎn)移的順序。edge還與客戶共享比率得分相關(guān)聯(lián)财饥,該分?jǐn)?shù)表示查詢域的客戶集的Jaccard相似性换吧。在構(gòu)建圖形之后,它將使用分配給邊緣的值和一些預(yù)先設(shè)防的閾值進(jìn)行集群化钥星。然后沾瓦,作者將包含黑名單域的集群中的所有域標(biāo)記為惡意的。
與此同時(shí)谦炒,這種算法在有限的事實(shí)真理的情況下并不是靈丹妙藥贯莺。使用未標(biāo)記的數(shù)據(jù)并不總是有幫助,因此宁改,研究人員必須在驗(yàn)證所提議的方法方面付出額外的努力乖篷。此外,與獲得正確標(biāo)記的數(shù)據(jù)集相關(guān)的問題也與此相關(guān)透且。
無監(jiān)督學(xué)習(xí)算法。非監(jiān)督學(xué)習(xí)方法[34,45,46,79,154,171]的引入不僅是為了消除對(duì)標(biāo)記數(shù)據(jù)集的依賴豁鲤。無監(jiān)督學(xué)習(xí)方法秽誊,又名聚類技術(shù)[78],僅使用數(shù)據(jù)的內(nèi)部屬性自動(dòng)將域劃分為集群琳骡。從理論上講锅论,通過對(duì)惡意和良性域存在完全不同行為的特征的仔細(xì)選擇,就有可能使群集算法將提供的樣本劃分為兩個(gè)群集楣号。然后最易,研究人員決定哪些集群包含惡意和良性域[45,46,150]。然而炫狱,有些方法藻懒,例如[154,171],并沒有遵循這條路徑视译,而是更進(jìn)一步嬉荆。它們?cè)谂c不同惡意行為相關(guān)的多個(gè)維度上對(duì)域進(jìn)行分組,然后通過將識(shí)別的組相互關(guān)聯(lián)來選擇惡意域的集群酷含。
盡管這些方法在獨(dú)立于標(biāo)記數(shù)據(jù)方面有明顯的好處鄙早,但在文獻(xiàn)中并不常見汪茧。我們認(rèn)為這主要是由于這些技術(shù)對(duì)于設(shè)計(jì)是最困難的。此外限番,由于標(biāo)記數(shù)據(jù)集通常存在于此區(qū)域(盡管既不完整也不完全正確)舱污,研究人員更傾向于探索更容易使用的監(jiān)督和半監(jiān)督方法。
4.2.3混合方法?
盡管根據(jù)所提供的分類方法可以對(duì)單個(gè)檢測算法進(jìn)行分類弥虐,但大多數(shù)現(xiàn)有的實(shí)際方法都是混合的扩灯,并且使用不同類型的算法來生成結(jié)果。這可以是機(jī)器學(xué)習(xí)技術(shù)的結(jié)合[28,30,126,128,129]躯舔。例如驴剔,Notos系統(tǒng)[28]中使用了這種方法。它在第一個(gè)階段訓(xùn)練5個(gè)元分類器粥庄,使用監(jiān)督學(xué)習(xí)技術(shù)評(píng)估一個(gè)域與預(yù)定義的域組(流行的丧失、普通的、Akamai惜互、CDN和動(dòng)態(tài)DNS)的緊密度布讹。然后將計(jì)算出的貼近度得分作為第二階段監(jiān)督學(xué)習(xí)算法的特征。Oprea等[126]將半監(jiān)督方法(信念傳播)與監(jiān)督學(xué)習(xí)算法(線性回歸)相結(jié)合训堆。該領(lǐng)域還使用了機(jī)器學(xué)習(xí)和基于知識(shí)的方法的組合[133,134,169]描验。例如,Segugio系統(tǒng)[133,134]結(jié)合了基于圖形的預(yù)濾波和有監(jiān)督的機(jī)器學(xué)習(xí)坑鱼。它是這樣工作的膘流。首先,系統(tǒng)使用遞歸DNS解析器之前收集的DNS數(shù)據(jù)構(gòu)建主機(jī)域圖鲁沥。給定一組良性和惡性域呼股,以及一些啟發(fā)式方法,它將執(zhí)行此圖的過濾画恰。它將已知的域節(jié)點(diǎn)分別標(biāo)記為良性和惡意彭谁,其余的則標(biāo)記為未知。類似地允扇,如果主機(jī)節(jié)點(diǎn)查詢某個(gè)惡意域缠局,系統(tǒng)將其標(biāo)記為惡意節(jié)點(diǎn),而良性節(jié)點(diǎn)僅解析良性域考润。所有其他機(jī)器都被標(biāo)記為未知狭园。在此之后,系統(tǒng)對(duì)圖進(jìn)行剪枝刪除:1)查詢5個(gè)域或更少的機(jī)器;2)代理主機(jī)(服務(wù)器的域名數(shù)量比其他機(jī)器多得多);3)僅由一臺(tái)機(jī)器查詢的域;非常流行的域(被大量機(jī)器查詢的域)糊治。然后妙啃,圖中剩下的每個(gè)域節(jié)點(diǎn)也分配如下屬性:1)觀察窗口中指向域的一組IP地址;2)在多長時(shí)間前,該域首次被問及觀測時(shí)間窗口。用這個(gè)信息Segugio計(jì)算了一些特征:1)機(jī)器行為特征(已知被感染機(jī)器的分?jǐn)?shù)揖赴,未知機(jī)器的分?jǐn)?shù)馆匿,機(jī)器的總數(shù));2)域活動(dòng)特性(在過去兩周內(nèi)主動(dòng)查詢域的天數(shù),連續(xù)查詢域的天數(shù));3) IP濫用特性(在選定的時(shí)間窗口內(nèi)與已知惡意軟件域相關(guān)的IP分?jǐn)?shù)燥滑、未知域在時(shí)間窗口內(nèi)使用的IP數(shù)和/24)渐北。使用這些特性和監(jiān)督機(jī)器學(xué)習(xí)算法,作者預(yù)測未知的標(biāo)簽铭拧。
4.3結(jié)果
最后赃蛛,我們想知道的是域名是否有惡意。然而搀菩,惡意這個(gè)詞可以用不同的方式來理解呕臂。例如,一些域可能涉及垃圾郵件發(fā)送或網(wǎng)絡(luò)釣魚肪跋、服務(wù)于C&C通信或簡單地充當(dāng)用于其它類型的活動(dòng)的代理歧蒋。在許多被提出的方法中,有些方法能夠識(shí)別特定類型的“惡意”州既,而另一些方法則不能解釋為什么他們判定某個(gè)領(lǐng)域是惡意的谜洽。因此,在本文中吴叶,我們將檢測特定惡意行為的方法與不了解惡意行為的方法進(jìn)行了劃分阐虚。
與惡意行為無關(guān)的方法。粗略地說蚌卤,與惡意行為無關(guān)的方法并不試圖捕獲特定的惡意行為实束。相反,他們的智力建立在不同域名之間不同類型的關(guān)聯(lián)上逊彭。這種類型的方法[82,101,109,112,126,174]將預(yù)測利用與構(gòu)成事實(shí)真理的域的連接的域的惡意咸灿。這種技術(shù)有時(shí)被稱為“聯(lián)想犯罪”[82]。如果一個(gè)域與一組已知的惡意域有很強(qiáng)的連接诫龙,那么很可能這個(gè)域也參與了惡意活動(dòng)。例如鲫咽,如果將成人相關(guān)域用作事實(shí)真理签赃,那么這些方法將生成相同類型的域列表,假設(shè)這些域使用相同的關(guān)聯(lián)分尸。類似地锦聊,如果這些方法提供了垃圾郵件域,它們將預(yù)測與垃圾郵件活動(dòng)相關(guān)的域箩绍。同時(shí)孔庭,只有少數(shù)黑名單報(bào)告特定類型的惡意域,例如PhishTank[125]或Spamhaus[15]。此外圆到,通常相同的基礎(chǔ)設(shè)施可能用于不同的惡意活動(dòng)怎抛。因此,即使一個(gè)方法提供了特定類型的事實(shí)真理芽淡,輸出也可能包括其他類型的惡意域马绝。例如,攻擊者可以使用具有相同IP地址的服務(wù)器來承載不同類型的惡意域挣菲。如果一種方法根據(jù)公共IP地址在域之間建立聯(lián)系富稻,它將在這些域之間建立聯(lián)系。
惡意行為的專門方法白胀。相反椭赋,構(gòu)建惡意行為專門化方法是為了捕獲與特定惡意行為相關(guān)的專門化特性。例如或杠,有許多方法專門嘗試捕獲適合于檢測自動(dòng)生成的域名的詞法[66哪怔、165、166]或分辨率[30廷痘、64]特性蔓涧。一些方法提取了檢測多種惡意活動(dòng)的特性。因此笋额,Bilge等人[35,36]提取出了相關(guān)的(盡管可能不是完美的[27,60])基于域名的特征元暴,用于捕獲DGAs和基于DNS應(yīng)答的特征(例如,不同IP地址的數(shù)量兄猩、TTL值等)茉盏,這些特征易于檢測暴露IP通量行為的域。
4.4挑戰(zhàn)
4.4.1與特征相關(guān)的挑戰(zhàn)
盡管在其他研究領(lǐng)域?qū)ふ矣幸饬x的特性并不容易枢冤,但在惡意領(lǐng)域檢測領(lǐng)域鸠姨,這一過程尤其具有挑戰(zhàn)性。特性不僅需要精心設(shè)計(jì)以將良性域與惡意域分離開來淹真,而且它們還必須能夠抵御歹徒的潛在操縱讶迁。例如,某些DGAs生成易于識(shí)別的名稱(例如“ccd2.cn”核蘸、“syx4.cn”巍糯、“oif1.cn”等),您可以將其視為識(shí)別這些惡意域名的強(qiáng)大功能客扎。雖然目前對(duì)于數(shù)量非常有限的DGAs來說是這樣祟峦,但是攻擊者通過簡單地更改域生成算法的一些參數(shù)來呈現(xiàn)這個(gè)特性是很簡單的。另一方面徙鱼,考慮到特定資源的有限容量(例如宅楞,公共IP地址的數(shù)量)的特性更加健壯针姿,因?yàn)樵诓挥绊懝粽呤找娴那闆r下,很難偽造它厌衙。
遺憾的是距淫,用一種系統(tǒng)的和可度量的方式來評(píng)估特性的健壯性并不容易。這個(gè)問題的重要性已經(jīng)被許多研究者認(rèn)識(shí)到迅箩,例如溉愁,在[29,44,96,101,107,122,126,129,171]。然而饲趋,據(jù)我們所知拐揭,現(xiàn)有的方法中沒有一種提供了一個(gè)可以定量評(píng)估特性健壯性的框架。Stinson等人[151]對(duì)一些僵尸網(wǎng)絡(luò)檢測方法的可規(guī)避性進(jìn)行了定性的高水平評(píng)估奕塑。其他人堂污,如Hao等人[69],定性地討論了他們方法中使用的一些重要特性的健壯性龄砰。然而盟猖,提供一個(gè)對(duì)特征魯棒性進(jìn)行定性和定量評(píng)估的框架仍然是一個(gè)需要引起研究團(tuán)體關(guān)注的開放問題。這樣的框架必須同時(shí)考慮特征和復(fù)雜程度及其對(duì)攻擊效用的影響换棚。我們認(rèn)為式镐,這樣的框架可以有效地對(duì)抗自適應(yīng)攻擊者,因?yàn)樗梢詭椭芯咳藛T和安全專家構(gòu)建檢測工具固蚤,利用這些特性娘汞,而這些特性的形成會(huì)對(duì)攻擊者的利益產(chǎn)生負(fù)面影響。
4.4.2檢測方法相關(guān)挑戰(zhàn)?
雖然檢測方法的有效性很重要夕玩,并且在大多數(shù)方法中得到了應(yīng)有的關(guān)注你弦,但是它的性能卻被忽略了。然而燎孟,在實(shí)際考慮和實(shí)際部署時(shí)禽作,深度性能分析與有效性分析一樣重要。在實(shí)際部署中揩页,DNS流量的數(shù)量和速率可能比出版物中使用的數(shù)據(jù)集大得多旷偿。因此,檢測方法必須是可擴(kuò)展的爆侣,以在這樣的生產(chǎn)系統(tǒng)中工作萍程。此外,一些方法需要大量的數(shù)據(jù)集來訓(xùn)練和調(diào)整它們的檢測算法累提。為了解決這個(gè)問題尘喝,一些作者建議使用分布式計(jì)算平臺(tái)磁浇,如Apache Hadoop[3]或Apache Giraph[2]斋陪。另一些則通過將被認(rèn)為不太重要的數(shù)據(jù)元素分散出來來減小數(shù)據(jù)集的大小。例如,Exposure[35,36]過濾掉了Alexa前1000個(gè)域[25]和那些在預(yù)先防御期間被查詢少于20次的域的所有域无虚。不幸的是缔赠,這種過濾可能導(dǎo)致忽略可能具有潛在惡意的重要域集。在這種情況下友题,我們需要一個(gè)系統(tǒng)的性能評(píng)估嗤堰,它不僅考慮到檢測方法的復(fù)雜性和可伸縮性,還考慮到減少所需數(shù)據(jù)大小所需的抖動(dòng)預(yù)處理步驟的特征度宦。
除了性能評(píng)估挑戰(zhàn)之外踢匣,惡意域檢測方法面臨的第二個(gè)挑戰(zhàn)與檢測前的等待時(shí)間有關(guān)。有些方法(如[35,36])依賴于聚合數(shù)據(jù)或以批處理模式運(yùn)行戈抄,因此离唬,在能夠決定域的惡意狀態(tài)之前,它們必須觀察大量DNS請(qǐng)求划鸽。然而输莺,這些方法所引起的延遲可能使它們對(duì)于在短時(shí)間內(nèi)提供惡意活動(dòng)的域無效,就像域通量一樣裸诽。例如嫂用,Sheng等人[143]發(fā)現(xiàn)“63%的網(wǎng)絡(luò)釣魚活動(dòng)持續(xù)時(shí)間不到兩個(gè)小時(shí)”。另一方面丈冬,一些方法利用了實(shí)時(shí)特性(而不是聚合)嘱函,可以動(dòng)態(tài)標(biāo)記域。然而殷蛇,與聚合特性相比实夹,非聚合特性通常更容易偽造。這兩種方法都有優(yōu)點(diǎn)和局限性粒梦,因此亮航,兩者之間的最優(yōu)選擇很大程度上受到部署環(huán)境的影響。
第三個(gè)挑戰(zhàn)與對(duì)手的適應(yīng)性有關(guān)匀们。他們不斷調(diào)整自己的行為以躲避檢測工具缴淋,而檢測技術(shù)必須定期重新訓(xùn)練和調(diào)整他們的模型以捕捉這些變化。此外泄朴,這也意味著隨著時(shí)間的推移重抖,技術(shù)本身已經(jīng)過時(shí),使相應(yīng)的方法不再可能使用祖灰。
第四個(gè)挑戰(zhàn)在于缺乏系統(tǒng)的方式定量比較和對(duì)比不同域的有效性和效率檢測方法钟沛。為了獲得可靠的定量結(jié)果,每種方法都應(yīng)該是可重復(fù)的和可測量的局扶。再現(xiàn)性意味著恨统,在初始訓(xùn)練中使用的數(shù)據(jù)集相同的情況下叁扫,結(jié)果可以重新生成,而可測性意味著在評(píng)價(jià)有效性和性能時(shí)使用定量指標(biāo)畜埋。遺憾的是莫绣,方法的作者很少共享數(shù)據(jù)集和實(shí)現(xiàn)代碼,這可能是由于隱私悠鞍、專有的問題对室,有時(shí)是與安全相關(guān)的問題,這使得復(fù)制結(jié)果變得非常困難咖祭,并使比較變得相當(dāng)復(fù)雜掩宜。克服這一挑戰(zhàn)的一種方法是么翰,利用論文和技術(shù)報(bào)告等公共來源提供的信息锭亏,實(shí)施這些作品中提出的工具。然而硬鞍,這些工具的復(fù)雜性通常是最重要的慧瘤,并且公共資源不包含足夠和詳細(xì)的信息來提供合理的方法實(shí)現(xiàn)。
4.4.3與結(jié)果相關(guān)的挑戰(zhàn)?
作為算法執(zhí)行的結(jié)果固该,系統(tǒng)預(yù)測域是否惡意锅减。然而,一個(gè)域在不同方面可能是惡意的伐坏。例如怔匣,在明顯的情況下,域可以定義為惡意的桦沉,因?yàn)樗糜诎l(fā)送垃圾郵件或分發(fā)惡意軟件每瞒。不幸的是,惡意行為的構(gòu)成并不總是那么明確纯露。一個(gè)例子是包含成人內(nèi)容的域剿骨。一些方法,例如Predator[69]埠褪,認(rèn)為這些域是惡意的浓利,因?yàn)樗鼈兘?jīng)常用于與垃圾信息相關(guān)的活動(dòng)。其他人[95,133,165]認(rèn)為這些域是良性的钞速。與此同時(shí)贷掖,研究表明,它們通常會(huì)導(dǎo)致較高的假陽性率渴语,特別是如果事實(shí)包含這種類型的域[43]的話苹威。通常情況下,Wondracek等人[162]證實(shí)成人域名(adult domain)通常用于惡意軟件傳播和激進(jìn)的市場營銷驾凶,不應(yīng)該盲目認(rèn)為是良性的牙甫。因此潮改,研究人員應(yīng)該在他們的工作中清楚地確定哪些域被認(rèn)為是惡意的。