原文鏈接:https://ieeexplore.ieee.org/document/8455965
2018 17th IEEE International Conference On Trust, Security And Privacy In Computing And Communications/ 12th IEEE International Conference On Big Data Science And Engineering
Samir G. Sayed
Mohamed Shawkey
摘要
可移植文檔格式(PDF)是一種被廣泛接受的文檔格式剂癌。然而,它已經(jīng)成為了對惡意軟件開發(fā)人員和漏洞研究人員最具吸引力的攻擊目標(biāo)之一。惡意PDF文件可用于針對個人挣郭、政府和金融部門的高級持久威脅(apt)【彀Γ現(xiàn)有的工具阔加,如入侵檢測系統(tǒng)(IDSs)和殺毒軟件包,在減輕這類攻擊方面效率低下侮攀。這是因?yàn)檫@些技術(shù)需要定期更新新的惡意PDF文件扮休,這些文件每天都在增加迎卤。本文提出了一種基于數(shù)據(jù)挖掘技術(shù)的惡意PDF文件檢測算法。該算法由特征選擇階段和分類階段組成玷坠。利用特征選擇階段蜗搔,從PDF文件中提取最優(yōu)特征個數(shù),以較小的計(jì)算開銷實(shí)現(xiàn)較高的檢出率和較低的錯檢率八堡。實(shí)驗(yàn)結(jié)果表明樟凄,該算法可以達(dá)到99.77%的檢出率,99.84%的準(zhǔn)確率兄渺,0.05%的錯檢率缝龄。
關(guān)鍵詞:
惡意PDF檢測,惡意軟件檢測挂谍,數(shù)據(jù)挖掘叔壤,引力搜索算法(GSA)。
第一部分 介紹
自1993年Adobe Systems公司發(fā)明可移植文檔格式(PDF)[1]以來口叙,它已成為廣泛接受的格式炼绘。這是因?yàn)镻DF文檔完全獨(dú)立于操作系統(tǒng)、硬件和軟件妄田。盡管所有這些特性都簡化了對此類文檔的處理俺亮,但它們也使PDF成為惡意軟件開發(fā)人員利用的最吸引人的引擎之一。因此疟呐,PDF攻擊的數(shù)量在過去的幾年里大大增加了[2][3][4][5]脚曾。一旦系統(tǒng)被利用,這些特性可以用于一類稱為高級持續(xù)威脅(Advanced Persistent Threats, APTs)的目標(biāo)是對政府機(jī)構(gòu)启具、金融部門和個人進(jìn)行[6]間諜活動的有針對性的攻擊本讥。它們也可能用于非目標(biāo)攻擊,如蠕蟲和僵尸網(wǎng)絡(luò)。攻擊者利用PDF文件中的漏洞囤踩,在PDF文檔中注入其他惡意代碼旨椒,如JavaScript、可移植可執(zhí)行程序(PEs)堵漱、HTML、圖像或其他惡意PDF文件涣仿。PDF漏洞和攻擊用[7]解釋勤庐。
在[8]中,給出了一個針對會議論文呼叫的惡意PDF文件攻擊實(shí)例好港。PDF文件中注入的惡意軟件安裝了一個后門愉镰,以訪問目標(biāo)用戶的網(wǎng)絡(luò)。假定受害者是軍事當(dāng)局或如[9]
[9]所述的國防承包商钧汹。[10]
[10]中給出了另一個示例丈探,用于通過附帶惡意PDF文件的垃圾郵件進(jìn)行非目標(biāo)攻擊。在社會工程技術(shù)的幫助下拔莱,郵件接收者被說服打開所附的惡意PDF文件碗降。
從上面的例子可以得出結(jié)論,使用PDF文檔對個人塘秦、公司和政府來說是一把雙刃劍讼渊。為了獲得使用PDF文檔的優(yōu)點(diǎn)和最小的缺點(diǎn),我們引入了一些研究工作來檢測和/或防止惡意PDF文檔∽鹛蓿現(xiàn)有的入侵檢測系統(tǒng)(IDSs)和殺毒包等工具都是基于啟發(fā)式和簽名的[11]技術(shù)爪幻。然而,這些技術(shù)是低效的须误,因?yàn)樗鼈冃枰ㄆ诟滦碌膼阂釶DF文件的簽名挨稿,而這些惡意PDF文件每天都在增加。因此京痢,迫切需要其他技術(shù)來檢測惡意PDF奶甘。近年來,PDF文件的動態(tài)分析历造、靜態(tài)分析和混合分析已經(jīng)成為基于簽名和啟發(fā)式算法的替代方法甩十。
在動態(tài)分析中,PDF文件是在隔離的環(huán)境(虛擬操作系統(tǒng))中打開的吭产÷录啵可以通過監(jiān)視PDF文件與其系統(tǒng)的交互來提取PDF行為:網(wǎng)絡(luò)、注冊表(適用于Windows OS)臣淤、文件系統(tǒng)和其他OS組件橄霉。根據(jù)從虛擬系統(tǒng)收集的信息,對文件進(jìn)行惡意或良性分類邑蒋⌒辗洌基于動態(tài)分析的系統(tǒng)有CWSanbox[12]按厘、MalOffice[13]、JSAND[14]钱慢、MDScan[15]和ShellOS[16]逮京。一般來說,動態(tài)分析技術(shù)可以實(shí)現(xiàn)較高的檢出率和較低的錯檢率束莫。這些優(yōu)點(diǎn)是以儀器儀表懒棉、時間消耗和計(jì)算開銷為代價(jià)的。隨后览绿,這種基于動態(tài)分析的方法只局限于惡意軟件研究系統(tǒng)策严。由于這些限制,出現(xiàn)了靜態(tài)分析和混合分析來分類PDF文件饿敲。靜態(tài)分析是通過從良性和惡意文件中提取一些特征來實(shí)現(xiàn)的妻导。這些特性可用于分類給定的PDF文件是惡意的還是良性的。通過靜態(tài)分析PDF文件的內(nèi)容或結(jié)構(gòu)怀各,開展了[17]倔韭、[18]、[19]渠啤、[20]狐肢、[21]、[22]沥曹、[23]這些檢測惡意PDF的最新工作份名。
在文獻(xiàn)中,針對PDF文件中只檢測嵌入的惡意Javascript代碼妓美,已經(jīng)開展了[24]僵腺、[25]、[26]壶栋、[27]辰如、[28]、[29]贵试、[30] 的研究琉兜。這些系統(tǒng)不如基于文件結(jié)構(gòu)和內(nèi)容的系統(tǒng)有效。由于這些系統(tǒng)無法檢測到其他基于Flash [20]. 的漏洞毙玻。然而豌蟋,基于PDF文件內(nèi)容和/或結(jié)構(gòu)的系統(tǒng)容易受到有意攻擊 [31], [32].
本文提出了一種基于數(shù)據(jù)挖掘技術(shù)niques的惡意PDF文件檢測算法。該算法結(jié)合了特征選擇算法和數(shù)據(jù)挖掘技術(shù)桑滩。該算法由特征選擇階段和分類階段組成梧疲。利用特征選擇階段,從PDF文件中提取最優(yōu)特征個數(shù),以較小的計(jì)算開銷實(shí)現(xiàn)較高的檢出率和較低的錯檢率幌氮。因此缭受,該算法能夠達(dá)到較高的檢測率和準(zhǔn)確率,且錯檢率較低该互。
本文的其余部分組織如下米者。第二節(jié)提供PDF文件的結(jié)構(gòu)。第三部分給出了該算法的系統(tǒng)模型宇智。第四節(jié)給出了該算法塘雳,第五節(jié)給出并討論了該算法的實(shí)驗(yàn)結(jié)果。第六節(jié)給出了結(jié)論和未來的工作普筹。
第二部分 PDF文件的結(jié)構(gòu)
如圖1
所示的PDF文件由四個組件組成,它們是文件頭隘马、對象太防、交叉引用(xref)和文件尾。文件頭提供有關(guān)PDF語言版本的信息酸员。文件頭包含在PDF文件的開頭蜒车。如果缺少文件頭,PDF呈現(xiàn)程序?qū)⒑雎栽撐募`隆n^后面跟著由一個或多個對象組成的文件主體酿愧。有幾種類型的對象,如字符串邀泉、數(shù)字嬉挡、字典、布爾值和流汇恤。對象具有包括字體庞钢、圖形、頁面和嵌入代碼(如JavaScript和Acrobat表單)在內(nèi)的信息因谎。字典對象包含更簡單的對象類型基括,如名稱、數(shù)組和數(shù)字财岔。流用于存儲大量嵌入式數(shù)據(jù)风皿,如圖像、多媒體匠璧、字體和JavaScript桐款。良性PDF文件中的流通常包含文本、字體和圖片患朱。然而鲁僚,惡意PDF文件中的流通常包含JavaScript。攻擊者使用壓縮流隱藏惡意JavaScript代碼,否則這些惡意代碼將是純文本冰沙,并且很容易看到侨艾。交叉引用(xref)表包含PDF文件中所有對象的列表和這些對象開頭的偏移量。PDF文件的末尾提供了關(guān)于交叉引用表的位置偏移量和對象數(shù)量的信息拓挥。
本文從一個給定的PDF文件中提取了一組特征唠梨。這組特性用于識別PDF文件是良性的還是惡意的。使用自定義工具從培訓(xùn)數(shù)據(jù)中使用的PDF文件中提取特性侥啤。所有這些特性都是靜態(tài)特性当叭,可以通過解析給定的PDF文件來提取,而不需要訪問PDF文件本身盖灸。通過選擇最優(yōu)特征個數(shù)蚁鳖,該算法可以在較小的計(jì)算開銷下實(shí)現(xiàn)較高的檢測率和較低的錯檢率。有15個特征表示文件中特定關(guān)鍵字的頻率赁炎。一些關(guān)鍵字在惡意文檔中比在良性文檔中使用得更多醉箕。例如,在本文使用的數(shù)據(jù)集中徙垫,大約79%的惡意文檔中發(fā)現(xiàn)了JavaScript關(guān)鍵字讥裤,而只有4%的良性文檔中發(fā)現(xiàn)了JavaScript關(guān)鍵字。數(shù)據(jù)描述特性提供關(guān)于文檔內(nèi)容的信息姻报。本研究使用了三個數(shù)據(jù)描述特征己英。第一個和第二個特征分別表示流對象內(nèi)部和外部的熵。第三個特性計(jì)算文件最后一個結(jié)束(EOF)關(guān)鍵字之后的字節(jié)數(shù)吴旋。在PDF文件中可以通過多種方式進(jìn)行混淆损肛。例如,文件的頭通常需要10個字節(jié)邮府。這個頭文件應(yīng)該在文件的前1024字節(jié)中找到荧关。在良性PDF文件中,頭通常是文件中的第一項(xiàng)褂傀。一些惡意文件傾向于隱藏這個頭忍啤,并將它從PDF文件的開頭移開,以欺騙反病毒掃描器仙辟。這里使用兩個特性來指示PDF文件中的混淆同波。第一個特性指示標(biāo)頭是否混淆。第二個特性計(jì)算模糊關(guān)鍵詞的數(shù)量叠国。
第三部分 系統(tǒng)模型
所提出的算法如圖2
所示未檩。該系統(tǒng)由培訓(xùn)階段和測試階段兩部分組成。在<font coler = red>圖2(a)</font>所示的培訓(xùn)階段粟焊,使用一組惡意和良性的PDF文件作為培訓(xùn)數(shù)據(jù)冤狡。自定義特征提取工具所獲得的特征被用于特征選擇算法和數(shù)據(jù)挖掘技術(shù)孙蒙。本文采用改進(jìn)的二值引力搜索算法(IBGSA)[33]來選擇分類精度最高、錯檢率最低的特征悲雳。通過分類器計(jì)算了IBGSA算法的適應(yīng)度函數(shù)挎峦。適應(yīng)度函數(shù)計(jì)算為真正值、真負(fù)值合瓢、假正值和假負(fù)值的函數(shù)坦胶。在本文中,我們使用了兩個分類器來獲得最佳結(jié)果晴楔。這些分類器是隨機(jī)森林[34]和決策樹[35]顿苇。從訓(xùn)練階段獲得的最佳特征集用于測試階段,如<font coler = red>圖2(b)</font>所示税弃。在特征提取算法的輸入處使用待測PDF文件纪岁,只提取訓(xùn)練階段選擇的特征。然后则果,分類器使用這些特性來判斷PDF是惡意的還是良性的蜂科。
第四部分 我們提出的惡意PDF文件檢測算法
如第三節(jié)所述,該算法由訓(xùn)練和測試兩個階段組成短条。訓(xùn)練階段由特征提取、特征選擇和分類器組成才菠。測試階段包括特征提取和分類器茸时。這些組件的詳細(xì)信息如下所示。
A赋访、特征提取
特征選擇的目標(biāo)是找到產(chǎn)生最佳分類結(jié)果的特征子集可都。它還刪除了不協(xié)調(diào)和不相關(guān)的特性。特征選擇對于n個離散二進(jìn)制空間來說是一個挑戰(zhàn)蚓耽,每個維度都可以是0或1來判斷是否使用該特征渠牲。需要注意的是,所有長度為n的可能向量的軌跡都是不實(shí)用的步悠,因此可以使用啟發(fā)式搜索算法來獲得為所考慮問題提供最佳解決方案的向量签杈。
本文采用改進(jìn)的二元引力研究算法(IBGSA)[33]作為特征選擇算法。IBGSA是一種二進(jìn)制空間的啟發(fā)式搜索算法鼎兽。將IBGSA算法與隨機(jī)森林[34]和決策樹[35]分類器一起使用答姥,以訓(xùn)練從PDF文件中提取的所有可能的特征子集。該算法的目標(biāo)是選擇分類精度最高谚咬、錯檢率最低的特征子集鹦付。然后,這些選擇的功能被用來分類PDF文件是惡意的還是良性的择卦。下一節(jié)解釋IBGSA算法及其作為特征選擇算法的應(yīng)用敲长。正如在[33]中所解釋的郎嫁,IBGSA的目標(biāo)是減輕導(dǎo)致BGSA算法性能下降的停滯效應(yīng)。停滯是解決方案落在局部最小值的情況祈噪。
B泽铛、改進(jìn)的二進(jìn)制引力搜索算法(IBGSA)
本算法采用IBGSA算法[33]作為特征選擇算法,如圖2(a)
所示钳降。IBGSA是BGSA的改進(jìn)版本厚宰,BGSA是原始算法引力研究算法(GSA)[36]的二進(jìn)制版本。GSA是一種針對實(shí)值搜索空間的優(yōu)化算法遂填。然而铲觉,BGSA是針對二進(jìn)制值的搜索空間開發(fā)的。首先簡要介紹了BGSA算法吓坚,以便更好地理解IBGSA算法撵幽。
原始算法GSA是一種基于牛頓引力和運(yùn)動定律的啟發(fā)式算法。萬有引力定律指出礁击,每一個粒子的質(zhì)量都以一種叫做“萬有引力”的力吸引著每一個粒子[37]盐杂。GSA試劑被認(rèn)為是粒子,其性能由其質(zhì)量來衡量哆窿。所有的粒子都用引力互相吸引链烈。這個力使質(zhì)量較輕的粒子向質(zhì)量較重的粒子移動。最大質(zhì)量代表問題的最優(yōu)解挚躯。提出了BGSA[38]算法來解決二值問題强衡。在BGSA算法中,每個agent (particle)都有四個參數(shù):位置码荔、被動引力質(zhì)量漩勤、主動引力質(zhì)量和慣性質(zhì)量。慣性質(zhì)量和引力質(zhì)量由適應(yīng)度函數(shù)計(jì)算缩搅,而質(zhì)量位置表示問題的解越败。在算法的連續(xù)迭代過程中,對引力和慣性質(zhì)量進(jìn)行了概率調(diào)整硼瓣。BGSA算法的數(shù)學(xué)解釋如下:假設(shè)存在一個含有N個agent(粒子)的系統(tǒng)究飞,其中第i個agent的位置為:
其中n為空間維數(shù), 為第i個agent在第d維數(shù)中的位置堂鲤。每個位置 只取二進(jìn)制值(1或0)噪猾,第i個agent在t時刻的質(zhì)量更新如下:
其中
其中 是 agent k 在 t 時刻的適應(yīng)度值,對于最大化問題筑累,分別給出了和袱蜡。
第 d 維第 i 個 agent 在第 t 時刻作用的總力 F 計(jì)算方法為:
為第i個agent到第j個agent在t時刻的漢明距離:
的值是重力常數(shù)G0的初值與時間t的函數(shù):
的值是加速度:
為了利用 BGSA 算法求解優(yōu)化問題,在每次迭代t中更新每個agent的位置和速度慢宗。agent的速度限制為坪蚁。
則下一刻的速度是:
第i個agent的新位置如式(11)
所示奔穿。是一個在0和1之間選取的隨機(jī)值:
其中,
BGSA 的停滯現(xiàn)象
停滯是一種agent降到局部最小值的情況敏晤。當(dāng)某一刻的速度為零時就會發(fā)生這種情況贱田。IBGSA的目標(biāo)便是為了減輕停滯效應(yīng)。
IBGSA 中的改進(jìn)
- 改變
公式(12)
中的函數(shù)嘴脾, - 把
公式(7)
中的漢明距離 除以空間維n來將其歸一化男摧, - 采用精英主義策略,當(dāng)新agent的適應(yīng)度值高于前一個agent時译打,更新agent的位置耗拓,否則agent將停留在原來的位置。式(12)中的函數(shù)修改如下:
這里面的 由公式(14)
得出:
agent 的新位置就成了:
C奏司、我們提出的PDF特征選擇算法
在[33]和[39]已有研究的基礎(chǔ)上乔询,本文利用IBGSA作為特征選擇算法。在圖(2(a))
所示的訓(xùn)練階段韵洋,將分類器的檢測精度作為IBGSA算法的適應(yīng)度函數(shù)竿刁。本文的適應(yīng)度函數(shù)計(jì)算方法為:
是真陽性代表惡意PDF文件被分類為惡意文件的數(shù)量,是真正的正數(shù)代表良性的文件被分類為良性的數(shù)量,錯檢,,良性的文件被分類為惡意的數(shù)量,代表假陰性的數(shù)量代表惡意文件被分類為良性的文件的數(shù)量搪缨。這些值是在目標(biāo)分類器完成分類過程后計(jì)算出來的食拜。IBGSA的目標(biāo)是最大化公式(16)
中給出的適應(yīng)度函數(shù)。該適應(yīng)度函數(shù)表示了該算法的總體精度(ACC)副编。該函數(shù)的最佳值為100%监婶,即為惡意文件總數(shù),為良性文件總數(shù)齿桃, =0, =0≈笈危基于分類器后計(jì)算的適應(yīng)度函數(shù)短纵,IBGSA再次更新agent的位置,使適應(yīng)度函數(shù)最大化僵控,以此類推香到,直到完成IBGSA算法的迭代次數(shù)。采用三個指標(biāo)檢測率(DR)报破、錯檢率(FPR)和總準(zhǔn)確率(ACC)來衡量算法的性能悠就,如公式(17)
所示。這些指標(biāo)的數(shù)學(xué)計(jì)算方法如下:
算法1
給出了采用IBGSA算法作為特征選擇算法的偽代碼充易。提出的特征選擇算法將數(shù)據(jù)集分為訓(xùn)練子集和評價(jià)子集兩部分梗脾。為了評估候選解的適應(yīng)度,通過只選擇該解所選擇的特征盹靴,將和分別創(chuàng)建另外兩個子集和炸茧。用于訓(xùn)練分類器瑞妇,用于評價(jià)分類器。分類器的結(jié)果用于計(jì)算IBGSA算法的適應(yīng)度函數(shù)梭冠。然后辕狰,IBGSA將適應(yīng)度最高的候選解決方案返回給特征選擇算法。解是選取了最優(yōu)的特征集控漠,得到如公式(16)
所示的最優(yōu)適應(yīng)度值蔓倍。測試階段使用所選擇的特征和經(jīng)過訓(xùn)練的分類器,如圖(2(b))
所示盐捷。從測試的PDF文件中提取所需的特性偶翅,然后應(yīng)用于分類器的輸入,以確定PDF文件的惡意或良性毙驯。
算法1提出了惡意PDF文件檢測算法 |
---|
輸入:訓(xùn)練數(shù)據(jù)集,評估數(shù)據(jù)集,迭代次數(shù),維度(特性),最初的引力常數(shù),其他參數(shù) , , , , 和 |
輸出:在上達(dá)到最大適應(yīng)度函數(shù)(精度)的特征子集 |
1: |
2: |
3: |
第五部分 實(shí)驗(yàn)結(jié)果
本節(jié)給出了該算法的實(shí)驗(yàn)結(jié)果。收集了大量惡意和良性PDF文件的數(shù)據(jù)集爆价。為了使訓(xùn)練集達(dá)到均衡垦巴,訓(xùn)練數(shù)據(jù)集中惡意和良性PDF文件的數(shù)量是相同的。培訓(xùn)共使用了22000個惡意和良性的PDF文件铭段,數(shù)據(jù)集中沒有重復(fù)骤宣。惡意PDF文件已從 EG-CERT[40]) 和 VirusTotal[41] 的蜜網(wǎng)項(xiàng)目中收集。而良性的PDF文件則來自三個不同的來源序愚。大多數(shù)良性的文件都是從EG-CERT和VirusTotal中隨機(jī)收集的憔披。其余的文件是從埃及和英國的一些大學(xué)獲得的。從大學(xué)中隨機(jī)抽取各種PDF文件爸吮,包括學(xué)術(shù)論文芬膝、報(bào)告、考試形娇、考試等锰霜。為了進(jìn)行可靠的評估,所有收集的PDF文件都使用EG-CERT工具和VirusTotal被驗(yàn)證為正確的惡意或良性桐早。數(shù)據(jù)集被劃分為訓(xùn)練集和測試集癣缅。訓(xùn)練階段使用訓(xùn)練集來獲得最有效的特征。測試集用于在不可見的PDF文件上測量所提議的系統(tǒng)的性能哄酝。訓(xùn)練集的選擇過程是基于十次交叉驗(yàn)證的友存。在眾多分類技術(shù)中,由于隨機(jī)森林[34]和決策樹[35]分類器的準(zhǔn)確性和效率[42]陶衅,本研究選取了這兩種分類器屡立。在Intel Pentium Core 2四核計(jì)算機(jī)、2.8GHz處理器和4G Byte RAM上進(jìn)行了分析搀军。
在10次交叉驗(yàn)證的基礎(chǔ)上侠驯,將訓(xùn)練集劃分為10個子集抡秆。為了選擇最好的特性,每個特性的頻率在10次迭代中計(jì)算吟策。研究發(fā)現(xiàn)儒士,隨機(jī)森林和決策樹的特征數(shù)最小值分別為10、8檩坚。而隨機(jī)森林的最大特征數(shù)為16着撩,決策樹的最大特征數(shù)為13。表I顯示了該算法對兩個分類器所選特征個數(shù)的性能匾委。結(jié)果表明拖叙,與決策樹分類器相比,隨機(jī)森林分類器具有更好的分類性能赂乐。如表1
所示薯鳍,使用隨機(jī)森林分類器獲得最佳結(jié)果的特征數(shù)為15個。
為了更好地了解所提算法的性能挨措,我們使用具有最佳特征集的隨機(jī)森林分類器將所提算法與一些著名的殺毒軟件包進(jìn)行比較挖滤。表2
顯示了該算法相對于某些殺毒軟件包的性能。該系統(tǒng)在檢測率(DR)和總體精度(ACC)方面優(yōu)于所有給定的殺毒軟件包浅役。與Avast和卡巴斯基等殺毒軟件相比斩松,該系統(tǒng)的錯檢率(0.05%)有較小的下降。但是觉既,與需要不斷更新簽名數(shù)據(jù)庫的殺毒包相比惧盹,該算法基于數(shù)據(jù)挖掘技術(shù),具有專門檢測惡意PDF文件的優(yōu)點(diǎn)瞪讼。因此钧椰,該算法在檢測高級持續(xù)威脅(APTs)方面具有較好的性能。此外符欠,所提出的算法是靈活的嫡霞,無論是與殺毒軟件包集成或一個獨(dú)立的工具。該算法也可用于任何類型的PDF文件背亥。
第六部分 總結(jié)
提出了一種基于數(shù)據(jù)挖掘技術(shù)的惡意PDF文件檢測策略。實(shí)驗(yàn)表明悬赏,該算法由魯棒特征選擇階段和一組分層技術(shù)組成狡汉。特征選擇階段選擇的最優(yōu)特征被分類階段用來檢查給定的PDF文件是惡意的還是良性的。實(shí)驗(yàn)結(jié)果表明闽颇,該算法能夠達(dá)到99.77%的檢出率盾戴,99.84%的準(zhǔn)確率,小于0.05%的錯檢率兵多。與CalamAV尖啡、TrendMicro橄仆、MacAfee和賽門鐵克等殺毒軟件相比,該算法具有更好的性能衅斩。該算法基于數(shù)據(jù)挖掘技術(shù)盆顾,與殺毒包相比,該算法還具有檢測從未見過的惡意PDF文件的優(yōu)點(diǎn)畏梆。因此您宪,該算法能夠較好地檢測高級持續(xù)威脅(APTs)。此外奠涌,提出的算法是靈活的宪巨,無論是與防毒包集成或作為一個獨(dú)立的工具。此外溜畅,該算法也可用于任何類型的PDF文件捏卓。
在今后的工作中,可以用動態(tài)分析技術(shù)對該算法進(jìn)行擴(kuò)充慈格。這將進(jìn)一步提高檢出率怠晴、準(zhǔn)確率和錯檢率。此外峦椰,該算法還將測試規(guī)避技術(shù)和模仿攻擊龄寞,其中惡意PDF文件模仿良性PDF文件的結(jié)構(gòu)。
致謝
作者要感謝埃及國家電信管理當(dāng)局(NTRA)支持這項(xiàng)研究作為國家項(xiàng)目的一部分汤功。作者還要感謝埃及計(jì)算機(jī)應(yīng)急準(zhǔn)備小組(EG-CERT)和VirusTotal提供了本研究中使用的惡意PDF文件的數(shù)據(jù)庫物邑。
-
Adobe Systems Incorporated, “PDF Reference, Fifth ed.: Adobe Portable Document Format version 1.6,” Adobe Systems Incorporated,2004. ?
-
K. Selvaraj and N. F. Gutierrez, “The rise of pdf malware,” in Symantec Technical Report, 2010. ?
-
J. Drake, “Exploiting memory corruption vulnerabilities in the java runtime,” Black Hat Abu Dhabi 2011, pp. 3–20, 2011. ?
-
H. W. Daiping Liu and A. Stavrou, “Detecting Malicious Javascript in PDF through Document Instrumentation,” 44th Annual IEEE/IFIP International Conference on Dependable Systems and Networks, pp. 100 – 111, 2014. ?
-
M. Li, Y. Liu, M. Yu, G. Li, Y. Wang, and C. Liu, “FEPDF: A Robust Feature Extractor for Malicious PDF Detection,” in 2017 IEEE Trustcom/BigDataSE/ICESS, Aug 2017, pp. 218–224. ?
-
N. A. S. Mirza, H. Abbas, F. A. Khan, and J. A. Muhtadi, “Anticipating Advanced Persistent Threat (APT) countermeasures using collaborative security mechanisms,” International Symposium on Biometrics and Security Technologies (ISBAST), pp. 129–132, 2014. ?
-
D. Stevens, “Malicious PDF Documents Explained,” IEEE Security & Privacy, vol. 9, no. 1, pp. 80–82, Jan.-Feb. 2011. ?
-
F. Schmitt, J. Gassen, and E. Gerhards-Padilla, “PDF SCRUTINIZER: Detecting JavaScript-based Attacks in PDF Documents,” in Tenth An-nual International Conference on Privacy, Security and Trust, 2012, pp. 104–111. ?
-
The H security, “Targeted attacks on arms manufacturers continue,” 2011. [Online]. Available: http://www.h-online.com/security/news/item/Targeted-attacks-on-arms-manufacturers-continue-1283425.html ?
-
P. O. Baccas, “Who ordered spam? New trick in PDF malware uncovered,” 2011. [Online]. Available: http://nakedsecurity.sophos.com/ 2011/04/18/orders-spam-new-trick-in-pdf-malware/ ?
-
N. Nissim, A. Cohen, R. Moskovitch, A. Shabtai, M. Edry, O. Bar-Ad, and Y. Elovici, “ALPD: Active Learning Framework for Enhancing the Detection of Malicious PDF Files,” in IEEE Joint Intelligence and Security Informatics Conference, 2014, pp. 91–98. ?
-
C. Willems, T. Holz, and F. Freiling, “CWSandbox: Towardsautomated dynamic binary analysis,” IEEE Security and Privacy, vol. 5, no. 2, pp. 32–39, 2007. ?
-
M. Engleberth, C. Willems, and T. Holz., “Detecting malicious docu-ments with combined static and dynamic analysis,” in Technical report, Virus Bulletin, 2009. ?
-
M. Cova, C. Kruegel, and G. Vigna, “Detection and analysis of drive-by-download attacks and malicious JavaScript code,” in In International Conference on World Wide Web (WWW), 2010, pp. 281–290. ?
-
Z. Tzermias, G. Sykiotakis, M. Polychronakis, and E. P. Markatos, “Combining static and dynamic analysis for the detection of malicious documents,” in Proceedings of European Workshop on System Security (EUROSEC), 2011. ?
-
K. Z. Snow, S. Krishnan, F. Monrose, and N. Provos, “ShellOS: Enabling fast detection and forensic analysis of code injection attacks,” in USENIX Security Symposium, 2011. ?
-
M. Z. Sha?q, S. A. Khayam, and M. Farooq, “Embedded malware detection using markov n-grams,” in Proceedings of International conference on Detection of Intrusions and Malware, and Vulnerability Assessment (DIMVA), 2008. ?
-
P. Laskov and N. Srndic, “Static detection of malicious javascript-bearing pdf documents,” in Proceedings of Annual Computer Security Applications Conference (ACSAC), 2011. ?
-
C. Smutz and A. Stavrou, “Malicious pdf detection using metadata and structural features,” in Proceedings of 28th Annual Computer Security Applications Conference (ACSAC), 2012. ?
-
D. Maiorca, G. Giacinto, and I. Corona, “A Pattern Recognition System for Malicious PDF Files Detection,” in Proceedings of 8th International Conference, MLDM 2012, Berlin, Germany, July 2012, pp. 510–524. ? ?
-
N. Srndic and P. Laskov, “Detection of Malicious PDF Files Based on Hierarchical Document Structure,” in 20th Annual Network & Distributed System Security Symposium, 2013. ?
-
D. Maiorca, D. Ariu, I. Corona, and G. Giacinto, “A Structural and Content-Based Approach for a Precise and Robust Detection of Mali-cious PDF Files,” in Proceedings of the 1st International Conference on Information Systems Security and Privacy (ICISSP), Angers, France, 2015. ?
-
A. Cohen, N. Nissim, L. Rokach, and Y. Elovici, “SFEM: Structural Feature Extraction Methodology for the Detection of Malicious Of?ce Documents Using Machine Learning Methods,” in Expert Systems with Applications, vol. 63, 2016, pp. 324–343. ?
-
P. Likarish, E. Jung, and I. Jo, “Obfuscated malicious javascript detec-tion using classi?cation techniques,” in 4th International Conference on Malicious and Unwanted Software (MALWARE), 2009, pp. 47–54. ?
-
K. Rieck, T. Krueger, and A. Dewald, “Cujo: ef?cient detection and prevention of drive-by-download attacks,” in Proceedings of the 26th Annual Computer Security Applications Conference, 2010. ?
-
C. Curtsinger, B. Livshits, B. Zorn, and C. Seifert, “Zozzle: Fast and precise in-browser javascript malware detection,” in Proceedings of the 20th USENIX Conference on Security, Berkeley, CA, USA: USENIX Association, 2011. ?
-
D. Canali, M. Cova, G. Vigna, and C. Kruegel, “Prophiler: a fast ?lter for the large-scale detection of malicious web pages,” in Proceedings of the 20th International Conference on World Wide Web, 2011. ?
-
T. Krueger and K. Rieck, “Intelligent defense against malicious javascript code,” Praxis der Informationsverarbeitung und Kommunika-tion, vol. 35, no. 1, pp. 54–60, 2012. ?
-
G. Schwenk, A. Bikadorov, T. Krueger, and K. Rieck, “Autonomous learning for detection of javascript attacks: Vision or reality?” in Proceedings of the 5th ACM Workshop on Security and Arti?cial Intelligence, New York, NY, USA: ACM, 2012, pp. 93–104. ?
-
D. Cosovan, R. Benchea, and D. Gavrilut, “A Practical Guide for Detecting JavaScript-based Malware using Hidden Markov Models and Linear Classi?ers,” in 16th International Symposium on Symbolic and Numeric Algorithms for Scienti?c Computing, 2014, pp. 236–243. ?
-
D. Maiorca, I. Corona, and G. Giacinto, “Looking at the Bag is Not Enough to Find the Bomb: An Evasion of Structural Methods for Malicious PDF Files Detection,” in Proceedings of the 8th ACM SIGSAC Symposium on Information, Computer and Communications Security, 2013, pp. 119–130. ?
-
N. Srndic and P. Laskov, “Practical evasion of a learning-based clas-si?er: A case study,” in Proceedings of the 2014 IEEE Symposium on Security and Privacy, SP’14, Washington, DC, USA, 2014, pp. 197–211. ?
-
E. Rashedi and H. Nezamabadi-pour, “Feature subset selection using improved binary gravitational search algorithm,” Journal of Intelligent & Fuzzy Systems, vol. 26, pp. 1211–1221, 2014. ? ? ? ? ?
-
L. Breiman, “Random Forests,” Machine Learning, vol. 45, no. 1, pp. 5–32, 2001. ? ? ?
-
J. R. Quinlan, “Simplifying decision trees,” International Journal of Man-Machine Studies, vol. 27, no. 3, pp. 221–234, 1987. ? ? ?
-
E. Rashedi, H. Nezamabadi-pour, and S. Saryazdi, “GSA: A Gravita-tional Search Algorithm,” Information Sciences, vol. 179, no. 13, pp. 2232–2248, 2009. ?
-
D. Halliday, R. Resnick, and J. Walker, Fundamentalsof Physics. John Wiley and Sons, 1993. ?
-
E. Rashedi, H. Nezamabadi-pour, and S. Saryazdi, “BGSA: binary gravitational search algorithm,” Natural Computing, vol. 9, no. 3, pp. 727–745, 2009. ?
-
A. Pagnin, S. A. Schellini, A. Spadotto, R. C. Guido, M. Ponti,
G. Chiachia, and A. X. Falcao, “Feature selection through gravitational search algorithm,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2011, pp. 2052–2055. ? -
egcert. [Online]. Available: http://www.egcert.eg/ ?
-
VirusTotal. [Online]. Available: https://www.virustotal.com/ ?
-
A. A. Awad, S. G. Sayed, and S. A. Salem, “A network-based frame-work for rat-bots detection,” in 2017 8th IEEE Annual Information Tech-nology, Electronics and Mobile Communication Conference (IEMCON), Oct 2017, pp. 128–133. ?