Data Mining Based Strategy for Detecting Malicious PDF Files

原文鏈接:https://ieeexplore.ieee.org/document/8455965
2018 17th IEEE International Conference On Trust, Security And Privacy In Computing And Communications/ 12th IEEE International Conference On Big Data Science And Engineering
Samir G. Sayed
Mohamed Shawkey

摘要

可移植文檔格式(PDF)是一種被廣泛接受的文檔格式剂癌。然而，它已經(jīng)成為了對惡意軟件開發(fā)人員和漏洞研究人員最具吸引力的攻擊目標(biāo)之一。惡意PDF文件可用于針對個人挣郭、政府和金融部門的高級持久威脅(apt)【彀Γ現(xiàn)有的工具阔加，如入侵檢測系統(tǒng)(IDSs)和殺毒軟件包，在減輕這類攻擊方面效率低下侮攀。這是因?yàn)檫@些技術(shù)需要定期更新新的惡意PDF文件扮休，這些文件每天都在增加迎卤。本文提出了一種基于數(shù)據(jù)挖掘技術(shù)的惡意PDF文件檢測算法。該算法由特征選擇階段和分類階段組成玷坠。利用特征選擇階段蜗搔，從PDF文件中提取最優(yōu)特征個數(shù)，以較小的計(jì)算開銷實(shí)現(xiàn)較高的檢出率和較低的錯檢率八堡。實(shí)驗(yàn)結(jié)果表明樟凄，該算法可以達(dá)到99.77%的檢出率，99.84%的準(zhǔn)確率兄渺，0.05%的錯檢率缝龄。

關(guān)鍵詞：

惡意PDF檢測，惡意軟件檢測挂谍，數(shù)據(jù)挖掘叔壤，引力搜索算法(GSA)。

第一部分介紹

自1993年Adobe Systems公司發(fā)明可移植文檔格式(PDF)^[1]以來口叙，它已成為廣泛接受的格式炼绘。這是因?yàn)镻DF文檔完全獨(dú)立于操作系統(tǒng)、硬件和軟件妄田。盡管所有這些特性都簡化了對此類文檔的處理俺亮，但它們也使PDF成為惡意軟件開發(fā)人員利用的最吸引人的引擎之一。因此疟呐，PDF攻擊的數(shù)量在過去的幾年里大大增加了^[2]^[3]^[4]^[5]脚曾。一旦系統(tǒng)被利用，這些特性可以用于一類稱為高級持續(xù)威脅(Advanced Persistent Threats, APTs)的目標(biāo)是對政府機(jī)構(gòu)启具、金融部門和個人進(jìn)行^[6]間諜活動的有針對性的攻擊本讥。它們也可能用于非目標(biāo)攻擊，如蠕蟲和僵尸網(wǎng)絡(luò)。攻擊者利用PDF文件中的漏洞囤踩，在PDF文檔中注入其他惡意代碼旨椒，如JavaScript、可移植可執(zhí)行程序(PEs)堵漱、HTML、圖像或其他惡意PDF文件涣仿。PDF漏洞和攻擊用^[7]解釋勤庐。

在^[8]中，給出了一個針對會議論文呼叫的惡意PDF文件攻擊實(shí)例好港。PDF文件中注入的惡意軟件安裝了一個后門愉镰，以訪問目標(biāo)用戶的網(wǎng)絡(luò)。假定受害者是軍事當(dāng)局或如[9]^[9]所述的國防承包商钧汹。[10]^[10]中給出了另一個示例丈探，用于通過附帶惡意PDF文件的垃圾郵件進(jìn)行非目標(biāo)攻擊。在社會工程技術(shù)的幫助下拔莱，郵件接收者被說服打開所附的惡意PDF文件碗降。

從上面的例子可以得出結(jié)論，使用PDF文檔對個人塘秦、公司和政府來說是一把雙刃劍讼渊。為了獲得使用PDF文檔的優(yōu)點(diǎn)和最小的缺點(diǎn)，我們引入了一些研究工作來檢測和/或防止惡意PDF文檔∽鹛蓿現(xiàn)有的入侵檢測系統(tǒng)(IDSs)和殺毒包等工具都是基于啟發(fā)式和簽名的^[11]技術(shù)爪幻。然而，這些技術(shù)是低效的须误，因?yàn)樗鼈冃枰ㄆ诟滦碌膼阂釶DF文件的簽名挨稿，而這些惡意PDF文件每天都在增加。因此京痢，迫切需要其他技術(shù)來檢測惡意PDF奶甘。近年來，PDF文件的動態(tài)分析历造、靜態(tài)分析和混合分析已經(jīng)成為基于簽名和啟發(fā)式算法的替代方法甩十。

在動態(tài)分析中，PDF文件是在隔離的環(huán)境(虛擬操作系統(tǒng))中打開的吭产÷录啵可以通過監(jiān)視PDF文件與其系統(tǒng)的交互來提取PDF行為:網(wǎng)絡(luò)、注冊表(適用于Windows OS)臣淤、文件系統(tǒng)和其他OS組件橄霉。根據(jù)從虛擬系統(tǒng)收集的信息，對文件進(jìn)行惡意或良性分類邑蒋⌒辗洌基于動態(tài)分析的系統(tǒng)有CWSanbox^[12]按厘、MalOffice^[13]、JSAND^[14]钱慢、MDScan^[15]和ShellOS^[16]逮京。一般來說，動態(tài)分析技術(shù)可以實(shí)現(xiàn)較高的檢出率和較低的錯檢率束莫。這些優(yōu)點(diǎn)是以儀器儀表懒棉、時間消耗和計(jì)算開銷為代價(jià)的。隨后览绿，這種基于動態(tài)分析的方法只局限于惡意軟件研究系統(tǒng)策严。由于這些限制，出現(xiàn)了靜態(tài)分析和混合分析來分類PDF文件饿敲。靜態(tài)分析是通過從良性和惡意文件中提取一些特征來實(shí)現(xiàn)的妻导。這些特性可用于分類給定的PDF文件是惡意的還是良性的。通過靜態(tài)分析PDF文件的內(nèi)容或結(jié)構(gòu)怀各，開展了^[17]倔韭、^[18]、^[19]渠啤、^[20]狐肢、^[21]、^[22]沥曹、^[23]這些檢測惡意PDF的最新工作份名。

在文獻(xiàn)中，針對PDF文件中只檢測嵌入的惡意Javascript代碼妓美，已經(jīng)開展了^[24]僵腺、^[25]、^[26]壶栋、^[27]辰如、^[28]、^[29]贵试、^[30] 的研究琉兜。這些系統(tǒng)不如基于文件結(jié)構(gòu)和內(nèi)容的系統(tǒng)有效。由于這些系統(tǒng)無法檢測到其他基于Flash ^[20]. 的漏洞毙玻。然而豌蟋，基于PDF文件內(nèi)容和/或結(jié)構(gòu)的系統(tǒng)容易受到有意攻擊 ^[31], ^[32].

本文提出了一種基于數(shù)據(jù)挖掘技術(shù)niques的惡意PDF文件檢測算法。該算法結(jié)合了特征選擇算法和數(shù)據(jù)挖掘技術(shù)桑滩。該算法由特征選擇階段和分類階段組成梧疲。利用特征選擇階段，從PDF文件中提取最優(yōu)特征個數(shù)，以較小的計(jì)算開銷實(shí)現(xiàn)較高的檢出率和較低的錯檢率幌氮。因此缭受，該算法能夠達(dá)到較高的檢測率和準(zhǔn)確率，且錯檢率較低该互。

本文的其余部分組織如下米者。第二節(jié)提供PDF文件的結(jié)構(gòu)。第三部分給出了該算法的系統(tǒng)模型宇智。第四節(jié)給出了該算法塘雳，第五節(jié)給出并討論了該算法的實(shí)驗(yàn)結(jié)果。第六節(jié)給出了結(jié)論和未來的工作普筹。

第二部分 PDF文件的結(jié)構(gòu)

如圖1所示的PDF文件由四個組件組成，它們是文件頭隘马、對象太防、交叉引用(xref)和文件尾。文件頭提供有關(guān)PDF語言版本的信息酸员。文件頭包含在PDF文件的開頭蜒车。如果缺少文件頭，PDF呈現(xiàn)程序?qū)⒑雎栽撐募｀隆ｎ^后面跟著由一個或多個對象組成的文件主體酿愧。有幾種類型的對象，如字符串邀泉、數(shù)字嬉挡、字典、布爾值和流汇恤。對象具有包括字體庞钢、圖形、頁面和嵌入代碼(如JavaScript和Acrobat表單)在內(nèi)的信息因谎。字典對象包含更簡單的對象類型基括，如名稱、數(shù)組和數(shù)字财岔。流用于存儲大量嵌入式數(shù)據(jù)风皿，如圖像、多媒體匠璧、字體和JavaScript桐款。良性PDF文件中的流通常包含文本、字體和圖片患朱。然而鲁僚，惡意PDF文件中的流通常包含JavaScript。攻擊者使用壓縮流隱藏惡意JavaScript代碼，否則這些惡意代碼將是純文本冰沙，并且很容易看到侨艾。交叉引用(xref)表包含PDF文件中所有對象的列表和這些對象開頭的偏移量。PDF文件的末尾提供了關(guān)于交叉引用表的位置偏移量和對象數(shù)量的信息拓挥。

圖1 PDF文件結(jié)構(gòu)

本文從一個給定的PDF文件中提取了一組特征唠梨。這組特性用于識別PDF文件是良性的還是惡意的。使用自定義工具從培訓(xùn)數(shù)據(jù)中使用的PDF文件中提取特性侥啤。所有這些特性都是靜態(tài)特性当叭，可以通過解析給定的PDF文件來提取，而不需要訪問PDF文件本身盖灸。通過選擇最優(yōu)特征個數(shù)蚁鳖，該算法可以在較小的計(jì)算開銷下實(shí)現(xiàn)較高的檢測率和較低的錯檢率。有15個特征表示文件中特定關(guān)鍵字的頻率赁炎。一些關(guān)鍵字在惡意文檔中比在良性文檔中使用得更多醉箕。例如，在本文使用的數(shù)據(jù)集中徙垫，大約79%的惡意文檔中發(fā)現(xiàn)了JavaScript關(guān)鍵字讥裤，而只有4%的良性文檔中發(fā)現(xiàn)了JavaScript關(guān)鍵字。數(shù)據(jù)描述特性提供關(guān)于文檔內(nèi)容的信息姻报。本研究使用了三個數(shù)據(jù)描述特征己英。第一個和第二個特征分別表示流對象內(nèi)部和外部的熵。第三個特性計(jì)算文件最后一個結(jié)束(EOF)關(guān)鍵字之后的字節(jié)數(shù)吴旋。在PDF文件中可以通過多種方式進(jìn)行混淆损肛。例如，文件的頭通常需要10個字節(jié)邮府。這個頭文件應(yīng)該在文件的前1024字節(jié)中找到荧关。在良性PDF文件中，頭通常是文件中的第一項(xiàng)褂傀。一些惡意文件傾向于隱藏這個頭忍啤，并將它從PDF文件的開頭移開，以欺騙反病毒掃描器仙辟。這里使用兩個特性來指示PDF文件中的混淆同波。第一個特性指示標(biāo)頭是否混淆。第二個特性計(jì)算模糊關(guān)鍵詞的數(shù)量叠国。

第三部分系統(tǒng)模型

所提出的算法如圖2所示未檩。該系統(tǒng)由培訓(xùn)階段和測試階段兩部分組成。在<font coler = red>圖2(a)</font>所示的培訓(xùn)階段粟焊，使用一組惡意和良性的PDF文件作為培訓(xùn)數(shù)據(jù)冤狡。自定義特征提取工具所獲得的特征被用于特征選擇算法和數(shù)據(jù)挖掘技術(shù)孙蒙。本文采用改進(jìn)的二值引力搜索算法(IBGSA)^[33]來選擇分類精度最高、錯檢率最低的特征悲雳。通過分類器計(jì)算了IBGSA算法的適應(yīng)度函數(shù)挎峦。適應(yīng)度函數(shù)計(jì)算為真正值、真負(fù)值合瓢、假正值和假負(fù)值的函數(shù)坦胶。在本文中，我們使用了兩個分類器來獲得最佳結(jié)果晴楔。這些分類器是隨機(jī)森林^[34]和決策樹^[35]顿苇。從訓(xùn)練階段獲得的最佳特征集用于測試階段，如<font coler = red>圖2(b)</font>所示税弃。在特征提取算法的輸入處使用待測PDF文件纪岁，只提取訓(xùn)練階段選擇的特征。然后则果，分類器使用這些特性來判斷PDF是惡意的還是良性的蜂科。

第四部分我們提出的惡意PDF文件檢測算法

如第三節(jié)所述，該算法由訓(xùn)練和測試兩個階段組成短条。訓(xùn)練階段由特征提取、特征選擇和分類器組成才菠。測試階段包括特征提取和分類器茸时。這些組件的詳細(xì)信息如下所示。

圖2(a)

圖2(b)

A赋访、特征提取

特征選擇的目標(biāo)是找到產(chǎn)生最佳分類結(jié)果的特征子集可都。它還刪除了不協(xié)調(diào)和不相關(guān)的特性。特征選擇對于n個離散二進(jìn)制空間來說是一個挑戰(zhàn)蚓耽，每個維度都可以是0或1來判斷是否使用該特征渠牲。需要注意的是，所有長度為n的可能向量的軌跡都是不實(shí)用的步悠，因此可以使用啟發(fā)式搜索算法來獲得為所考慮問題提供最佳解決方案的向量签杈。

本文采用改進(jìn)的二元引力研究算法(IBGSA)^[33]作為特征選擇算法。IBGSA是一種二進(jìn)制空間的啟發(fā)式搜索算法鼎兽。將IBGSA算法與隨機(jī)森林^[34]和決策樹^[35]分類器一起使用答姥，以訓(xùn)練從PDF文件中提取的所有可能的特征子集。該算法的目標(biāo)是選擇分類精度最高谚咬、錯檢率最低的特征子集鹦付。然后，這些選擇的功能被用來分類PDF文件是惡意的還是良性的择卦。下一節(jié)解釋IBGSA算法及其作為特征選擇算法的應(yīng)用敲长。正如在^[33]中所解釋的郎嫁，IBGSA的目標(biāo)是減輕導(dǎo)致BGSA算法性能下降的停滯效應(yīng)。停滯是解決方案落在局部最小值的情況祈噪。

B泽铛、改進(jìn)的二進(jìn)制引力搜索算法（IBGSA）

本算法采用IBGSA算法^[33]作為特征選擇算法，如圖2(a)所示钳降。IBGSA是BGSA的改進(jìn)版本厚宰，BGSA是原始算法引力研究算法(GSA)^[36]的二進(jìn)制版本。GSA是一種針對實(shí)值搜索空間的優(yōu)化算法遂填。然而铲觉，BGSA是針對二進(jìn)制值的搜索空間開發(fā)的。首先簡要介紹了BGSA算法吓坚，以便更好地理解IBGSA算法撵幽。

原始算法GSA是一種基于牛頓引力和運(yùn)動定律的啟發(fā)式算法。萬有引力定律指出礁击，每一個粒子的質(zhì)量都以一種叫做“萬有引力”的力吸引著每一個粒子^[37]盐杂。GSA試劑被認(rèn)為是粒子，其性能由其質(zhì)量來衡量哆窿。所有的粒子都用引力互相吸引链烈。這個力使質(zhì)量較輕的粒子向質(zhì)量較重的粒子移動。最大質(zhì)量代表問題的最優(yōu)解挚躯。提出了BGSA^[38]算法來解決二值問題强衡。在BGSA算法中，每個agent (particle)都有四個參數(shù):位置码荔、被動引力質(zhì)量漩勤、主動引力質(zhì)量和慣性質(zhì)量。慣性質(zhì)量和引力質(zhì)量由適應(yīng)度函數(shù)計(jì)算缩搅，而質(zhì)量位置表示問題的解越败。在算法的連續(xù)迭代過程中，對引力和慣性質(zhì)量進(jìn)行了概率調(diào)整硼瓣。BGSA算法的數(shù)學(xué)解釋如下:假設(shè)存在一個含有N個agent(粒子)的系統(tǒng)究飞，其中第i個agent的位置為:

$X_i=(x_i^1,x_i^2,...,x_i^d,...,x_i^n),\quad \forall i = 1,2,3,...,n \tag1$

其中n為空間維數(shù)， $x_i^d$ 為第i個agent在第d維數(shù)中的位置堂鲤。每個位置 $x_i^d$ 只取二進(jìn)制值(1或0)噪猾，第i個agent在t時刻的質(zhì)量更新如下:

$M_i(t)=\frac{m_i(t)}{\sum_{k=1}^Nm_k(t)},\quad\forall i=1,2,…,N \tag2$

其中

$m_k(t)=\frac{fit_k(t)-worst(t)}{best(t)-worst(t)} \tag3$

其中 $fit_k(t)$ 是 agent k 在 t 時刻的適應(yīng)度值，對于最大化問題筑累，分別給出了 $best(t)$ 和 $worst(t)$ 袱蜡。

$bset(t)=\max \limits_{k\in\{1,2,..,N\}}fit_k(t) \tag4$

$worst(t)=\min \limits_{k\in\{1,2,..,N\}}fit_k(t) \tag5$

第 d 維第 i 個 agent 在第 t 時刻作用的總力 F 計(jì)算方法為:

$F_i^d(t)=\sum\limits_{j \in kbset,j \neq i} \gamma_j\ G(t) \frac{M_i(t)×M_j(t)}{R_{ij}(t)+\epsilon} (x_j^d(t)-x_i^d(t)) \tag6$

$R_{ij} (t)$ 為第i個agent到第j個agent在t時刻的漢明距離：

$R_{ij}(t)=\sum\limits_{d=1}^n\ |\ x_j^d(t)-x_i^d(t)\ | \tag7$

$G(t)$ 的值是重力常數(shù)G0的初值與時間t的函數(shù):

$G(t)=G_0(1-\frac t T)\tag8$

$a$ 的值是加速度:

$a_i^d(t)=\frac{F_i^d(t)}{M_{ii}(t)}\tag9$

為了利用 BGSA 算法求解優(yōu)化問題，在每次迭代t中更新每個agent的位置和速度慢宗。agent的速度限制為 $| v(t) |< 6$ 坪蚁。
則下一刻的速度是：

$v_i^d(t+1)=\gamma_i^d×v_i^d(t)+a_i^d(t)\tag{10}$

第i個agent的新位置 $x(t +1)$ 如式(11)所示奔穿。 $γ$ 是一個在0和1之間選取的隨機(jī)值：

$x_i^d(t+1)= \begin{cases} \overline{x_i^d(t)} & \gamma < f(v_i^d(t+1)) \\ x_i^d(t) & otherwise \end{cases} \tag{11}$

其中，
$f(v_i^d(t+1))=|\tan h(v_i^d(t+1))|\tag{12}$

BGSA 的停滯現(xiàn)象

停滯是一種agent降到局部最小值的情況敏晤。當(dāng)某一刻的速度為零時就會發(fā)生這種情況贱田。IBGSA的目標(biāo)便是為了減輕停滯效應(yīng)。

IBGSA 中的改進(jìn)

改變公式(12)中的函數(shù)嘴脾，
把公式(7)中的漢明距離 $R_{ij}(t)$ 除以空間維n來將其歸一化男摧，
采用精英主義策略，當(dāng)新agent的適應(yīng)度值高于前一個agent時译打，更新agent的位置耗拓，否則agent將停留在原來的位置。式(12)中的函數(shù)修改如下：

$f(_i^d(t+1))=A+(1-A)×|\tanh(v_i^d(t+1))|\tag{13}$

這里面的 $A$ 由公式(14)得出：

$A=k_1(1-e^\frac{F_C}{K_2})\tag{14}$

agent 的新位置就成了：

$X_i(t+1)= \begin{cases} X_i(t+1) & fit(X_i(t+1))\geq fit(X_i(t))\\ X^i(t) & otherwise \end{cases} \tag{15}$

C奏司、我們提出的PDF特征選擇算法

在^[33]和^[39]已有研究的基礎(chǔ)上乔询，本文利用IBGSA作為特征選擇算法。在圖(2(a))所示的訓(xùn)練階段韵洋，將分類器的檢測精度作為IBGSA算法的適應(yīng)度函數(shù)竿刁。本文的適應(yīng)度函數(shù)計(jì)算方法為:

$fit_i(t)=\frac{T_P+T_N}{T_P+T_N+F_P+F_N} \tag{16}$

$T_P$ 是真陽性代表惡意PDF文件被分類為惡意文件的數(shù)量, $T_N$ 是真正的正數(shù)代表良性的文件被分類為良性的數(shù)量，錯檢, $F_P$ ,良性的文件被分類為惡意的數(shù)量, $F_N$ 代表假陰性的數(shù)量代表惡意文件被分類為良性的文件的數(shù)量搪缨。這些值是在目標(biāo)分類器完成分類過程后計(jì)算出來的食拜。IBGSA的目標(biāo)是最大化公式(16)中給出的適應(yīng)度函數(shù)。該適應(yīng)度函數(shù)表示了該算法的總體精度(ACC)副编。該函數(shù)的最佳值為100%监婶，即 $T_P$ 為惡意文件總數(shù)， $T_N$ 為良性文件總數(shù)齿桃， $F_N$ =0, $F_P$ =0≈笈危基于分類器后計(jì)算的適應(yīng)度函數(shù)短纵，IBGSA再次更新agent的位置，使適應(yīng)度函數(shù)最大化僵控，以此類推香到，直到完成IBGSA算法的迭代次數(shù)。采用三個指標(biāo)檢測率(DR)报破、錯檢率(FPR)和總準(zhǔn)確率(ACC)來衡量算法的性能悠就，如公式(17)所示。這些指標(biāo)的數(shù)學(xué)計(jì)算方法如下:

$DR = \frac{T_P}{T_P+F_N} \\ FRP = \frac{F_P}{F_P+P_N} \\ ACC = \frac{T_P+T_N}{F_P+F_N+T_P+T_N} \tag{17}$

算法1給出了采用IBGSA算法作為特征選擇算法的偽代碼充易。提出的特征選擇算法將數(shù)據(jù)集分為訓(xùn)練子集 $T_s$ 和評價(jià)子集 $E_s$ 兩部分梗脾。為了評估候選解的適應(yīng)度，通過只選擇該解所選擇的特征盹靴，將 $T_s$ 和 $E_s$ 分別創(chuàng)建另外兩個子集 $T$ 和 $E$ 炸茧。 $T$ 用于訓(xùn)練分類器瑞妇， $E$ 用于評價(jià)分類器。分類器的結(jié)果用于計(jì)算IBGSA算法的適應(yīng)度函數(shù)梭冠。然后辕狰，IBGSA將適應(yīng)度最高的候選解決方案返回給特征選擇算法。解是選取了最優(yōu)的特征集控漠，得到如公式(16)所示的最優(yōu)適應(yīng)度值蔓倍。測試階段使用所選擇的特征和經(jīng)過訓(xùn)練的分類器，如圖(2(b))所示盐捷。從測試的PDF文件中提取所需的特性偶翅，然后應(yīng)用于分類器的輸入，以確定PDF文件的惡意或良性毙驯。

算法1提出了惡意PDF文件檢測算法
輸入：訓(xùn)練數(shù)據(jù)集 $Ts$ ,評估數(shù)據(jù)集,迭代次數(shù) $T$ ,維度(特性) $n$ ,最初的引力常數(shù) $G_0$ ,其他參數(shù) $N$ , $k_1$ , $k_2$ , $F_C$ , $kbest$ 和 $ε$
輸出：在 $E_s$ 上達(dá)到最大適應(yīng)度函數(shù)(精度)的特征子集 $f$
1: $\ x_{i,j}\leftarrow Random\left \{0,1 \right \},v_{i,j}\leftarrow 0,\ \forall i=0,1,..,N\ \&\ j=1,2..,n$
2: $\ A \leftarrow k_1(1-e^\frac{F_C}{k_2})$
3: $不搞了倒堕，插入圖片吧……$
公式1

第五部分實(shí)驗(yàn)結(jié)果

本節(jié)給出了該算法的實(shí)驗(yàn)結(jié)果。收集了大量惡意和良性PDF文件的數(shù)據(jù)集爆价。為了使訓(xùn)練集達(dá)到均衡垦巴，訓(xùn)練數(shù)據(jù)集中惡意和良性PDF文件的數(shù)量是相同的。培訓(xùn)共使用了22000個惡意和良性的PDF文件铭段，數(shù)據(jù)集中沒有重復(fù)骤宣。惡意PDF文件已從 EG-CERT^[40]) 和 VirusTotal^[41] 的蜜網(wǎng)項(xiàng)目中收集。而良性的PDF文件則來自三個不同的來源序愚。大多數(shù)良性的文件都是從EG-CERT和VirusTotal中隨機(jī)收集的憔披。其余的文件是從埃及和英國的一些大學(xué)獲得的。從大學(xué)中隨機(jī)抽取各種PDF文件爸吮，包括學(xué)術(shù)論文芬膝、報(bào)告、考試形娇、考試等锰霜。為了進(jìn)行可靠的評估，所有收集的PDF文件都使用EG-CERT工具和VirusTotal被驗(yàn)證為正確的惡意或良性桐早。數(shù)據(jù)集被劃分為訓(xùn)練集和測試集癣缅。訓(xùn)練階段使用訓(xùn)練集來獲得最有效的特征。測試集用于在不可見的PDF文件上測量所提議的系統(tǒng)的性能哄酝。訓(xùn)練集的選擇過程是基于十次交叉驗(yàn)證的友存。在眾多分類技術(shù)中，由于隨機(jī)森林^[34]和決策樹^[35]分類器的準(zhǔn)確性和效率^[42]陶衅，本研究選取了這兩種分類器屡立。在Intel Pentium Core 2四核計(jì)算機(jī)、2.8GHz處理器和4G Byte RAM上進(jìn)行了分析搀军。

在10次交叉驗(yàn)證的基礎(chǔ)上侠驯，將訓(xùn)練集劃分為10個子集抡秆。為了選擇最好的特性，每個特性的頻率在10次迭代中計(jì)算吟策。研究發(fā)現(xiàn)儒士，隨機(jī)森林和決策樹的特征數(shù)最小值分別為10、8檩坚。而隨機(jī)森林的最大特征數(shù)為16着撩，決策樹的最大特征數(shù)為13。表I顯示了該算法對兩個分類器所選特征個數(shù)的性能匾委。結(jié)果表明拖叙，與決策樹分類器相比，隨機(jī)森林分類器具有更好的分類性能赂乐。如表1所示薯鳍，使用隨機(jī)森林分類器獲得最佳結(jié)果的特征數(shù)為15個。

表1 隨機(jī)森林與決策樹對比

為了更好地了解所提算法的性能挨措，我們使用具有最佳特征集的隨機(jī)森林分類器將所提算法與一些著名的殺毒軟件包進(jìn)行比較挖滤。表2顯示了該算法相對于某些殺毒軟件包的性能。該系統(tǒng)在檢測率(DR)和總體精度(ACC)方面優(yōu)于所有給定的殺毒軟件包浅役。與Avast和卡巴斯基等殺毒軟件相比斩松，該系統(tǒng)的錯檢率(0.05%)有較小的下降。但是觉既，與需要不斷更新簽名數(shù)據(jù)庫的殺毒包相比惧盹，該算法基于數(shù)據(jù)挖掘技術(shù)，具有專門檢測惡意PDF文件的優(yōu)點(diǎn)瞪讼。因此钧椰，該算法在檢測高級持續(xù)威脅(APTs)方面具有較好的性能。此外符欠，所提出的算法是靈活的嫡霞，無論是與殺毒軟件包集成或一個獨(dú)立的工具。該算法也可用于任何類型的PDF文件背亥。

表2 我們提出的系統(tǒng)與殺毒軟件包對比

第六部分總結(jié)

提出了一種基于數(shù)據(jù)挖掘技術(shù)的惡意PDF文件檢測策略。實(shí)驗(yàn)表明悬赏，該算法由魯棒特征選擇階段和一組分層技術(shù)組成狡汉。特征選擇階段選擇的最優(yōu)特征被分類階段用來檢查給定的PDF文件是惡意的還是良性的。實(shí)驗(yàn)結(jié)果表明闽颇，該算法能夠達(dá)到99.77%的檢出率盾戴，99.84%的準(zhǔn)確率，小于0.05%的錯檢率兵多。與CalamAV尖啡、TrendMicro橄仆、MacAfee和賽門鐵克等殺毒軟件相比，該算法具有更好的性能衅斩。該算法基于數(shù)據(jù)挖掘技術(shù)盆顾，與殺毒包相比，該算法還具有檢測從未見過的惡意PDF文件的優(yōu)點(diǎn)畏梆。因此您宪，該算法能夠較好地檢測高級持續(xù)威脅(APTs)。此外奠涌，提出的算法是靈活的宪巨，無論是與防毒包集成或作為一個獨(dú)立的工具。此外溜畅，該算法也可用于任何類型的PDF文件捏卓。

在今后的工作中，可以用動態(tài)分析技術(shù)對該算法進(jìn)行擴(kuò)充慈格。這將進(jìn)一步提高檢出率怠晴、準(zhǔn)確率和錯檢率。此外峦椰，該算法還將測試規(guī)避技術(shù)和模仿攻擊龄寞，其中惡意PDF文件模仿良性PDF文件的結(jié)構(gòu)。

致謝

作者要感謝埃及國家電信管理當(dāng)局(NTRA)支持這項(xiàng)研究作為國家項(xiàng)目的一部分汤功。作者還要感謝埃及計(jì)算機(jī)應(yīng)急準(zhǔn)備小組(EG-CERT)和VirusTotal提供了本研究中使用的惡意PDF文件的數(shù)據(jù)庫物邑。

Adobe Systems Incorporated, “PDF Reference, Fifth ed.: Adobe Portable Document Format version 1.6,” Adobe Systems Incorporated,2004. ?
K. Selvaraj and N. F. Gutierrez, “The rise of pdf malware,” in Symantec Technical Report, 2010. ?
J. Drake, “Exploiting memory corruption vulnerabilities in the java runtime,” Black Hat Abu Dhabi 2011, pp. 3–20, 2011. ?
H. W. Daiping Liu and A. Stavrou, “Detecting Malicious Javascript in PDF through Document Instrumentation,” 44th Annual IEEE/IFIP International Conference on Dependable Systems and Networks, pp. 100 – 111, 2014. ?
M. Li, Y. Liu, M. Yu, G. Li, Y. Wang, and C. Liu, “FEPDF: A Robust Feature Extractor for Malicious PDF Detection,” in 2017 IEEE Trustcom/BigDataSE/ICESS, Aug 2017, pp. 218–224. ?
N. A. S. Mirza, H. Abbas, F. A. Khan, and J. A. Muhtadi, “Anticipating Advanced Persistent Threat (APT) countermeasures using collaborative security mechanisms,” International Symposium on Biometrics and Security Technologies (ISBAST), pp. 129–132, 2014. ?
D. Stevens, “Malicious PDF Documents Explained,” IEEE Security & Privacy, vol. 9, no. 1, pp. 80–82, Jan.-Feb. 2011. ?
F. Schmitt, J. Gassen, and E. Gerhards-Padilla, “PDF SCRUTINIZER: Detecting JavaScript-based Attacks in PDF Documents,” in Tenth An-nual International Conference on Privacy, Security and Trust, 2012, pp. 104–111. ?
The H security, “Targeted attacks on arms manufacturers continue,” 2011. [Online]. Available: http://www.h-online.com/security/news/item/Targeted-attacks-on-arms-manufacturers-continue-1283425.html ?
P. O. Baccas, “Who ordered spam? New trick in PDF malware uncovered,” 2011. [Online]. Available: http://nakedsecurity.sophos.com/ 2011/04/18/orders-spam-new-trick-in-pdf-malware/ ?
N. Nissim, A. Cohen, R. Moskovitch, A. Shabtai, M. Edry, O. Bar-Ad, and Y. Elovici, “ALPD: Active Learning Framework for Enhancing the Detection of Malicious PDF Files,” in IEEE Joint Intelligence and Security Informatics Conference, 2014, pp. 91–98. ?
C. Willems, T. Holz, and F. Freiling, “CWSandbox: Towardsautomated dynamic binary analysis,” IEEE Security and Privacy, vol. 5, no. 2, pp. 32–39, 2007. ?
M. Engleberth, C. Willems, and T. Holz., “Detecting malicious docu-ments with combined static and dynamic analysis,” in Technical report, Virus Bulletin, 2009. ?
M. Cova, C. Kruegel, and G. Vigna, “Detection and analysis of drive-by-download attacks and malicious JavaScript code,” in In International Conference on World Wide Web (WWW), 2010, pp. 281–290. ?
Z. Tzermias, G. Sykiotakis, M. Polychronakis, and E. P. Markatos, “Combining static and dynamic analysis for the detection of malicious documents,” in Proceedings of European Workshop on System Security (EUROSEC), 2011. ?
K. Z. Snow, S. Krishnan, F. Monrose, and N. Provos, “ShellOS: Enabling fast detection and forensic analysis of code injection attacks,” in USENIX Security Symposium, 2011. ?
M. Z. Sha?q, S. A. Khayam, and M. Farooq, “Embedded malware detection using markov n-grams,” in Proceedings of International conference on Detection of Intrusions and Malware, and Vulnerability Assessment (DIMVA), 2008. ?
P. Laskov and N. Srndic, “Static detection of malicious javascript-bearing pdf documents,” in Proceedings of Annual Computer Security Applications Conference (ACSAC), 2011. ?
C. Smutz and A. Stavrou, “Malicious pdf detection using metadata and structural features,” in Proceedings of 28th Annual Computer Security Applications Conference (ACSAC), 2012. ?
D. Maiorca, G. Giacinto, and I. Corona, “A Pattern Recognition System for Malicious PDF Files Detection,” in Proceedings of 8th International Conference, MLDM 2012, Berlin, Germany, July 2012, pp. 510–524. ? ?
N. Srndic and P. Laskov, “Detection of Malicious PDF Files Based on Hierarchical Document Structure,” in 20th Annual Network & Distributed System Security Symposium, 2013. ?
D. Maiorca, D. Ariu, I. Corona, and G. Giacinto, “A Structural and Content-Based Approach for a Precise and Robust Detection of Mali-cious PDF Files,” in Proceedings of the 1st International Conference on Information Systems Security and Privacy (ICISSP), Angers, France, 2015. ?
A. Cohen, N. Nissim, L. Rokach, and Y. Elovici, “SFEM: Structural Feature Extraction Methodology for the Detection of Malicious Of?ce Documents Using Machine Learning Methods,” in Expert Systems with Applications, vol. 63, 2016, pp. 324–343. ?
P. Likarish, E. Jung, and I. Jo, “Obfuscated malicious javascript detec-tion using classi?cation techniques,” in 4th International Conference on Malicious and Unwanted Software (MALWARE), 2009, pp. 47–54. ?
K. Rieck, T. Krueger, and A. Dewald, “Cujo: ef?cient detection and prevention of drive-by-download attacks,” in Proceedings of the 26th Annual Computer Security Applications Conference, 2010. ?
C. Curtsinger, B. Livshits, B. Zorn, and C. Seifert, “Zozzle: Fast and precise in-browser javascript malware detection,” in Proceedings of the 20th USENIX Conference on Security, Berkeley, CA, USA: USENIX Association, 2011. ?
D. Canali, M. Cova, G. Vigna, and C. Kruegel, “Prophiler: a fast ?lter for the large-scale detection of malicious web pages,” in Proceedings of the 20th International Conference on World Wide Web, 2011. ?
T. Krueger and K. Rieck, “Intelligent defense against malicious javascript code,” Praxis der Informationsverarbeitung und Kommunika-tion, vol. 35, no. 1, pp. 54–60, 2012. ?
G. Schwenk, A. Bikadorov, T. Krueger, and K. Rieck, “Autonomous learning for detection of javascript attacks: Vision or reality?” in Proceedings of the 5th ACM Workshop on Security and Arti?cial Intelligence, New York, NY, USA: ACM, 2012, pp. 93–104. ?
D. Cosovan, R. Benchea, and D. Gavrilut, “A Practical Guide for Detecting JavaScript-based Malware using Hidden Markov Models and Linear Classi?ers,” in 16th International Symposium on Symbolic and Numeric Algorithms for Scienti?c Computing, 2014, pp. 236–243. ?
D. Maiorca, I. Corona, and G. Giacinto, “Looking at the Bag is Not Enough to Find the Bomb: An Evasion of Structural Methods for Malicious PDF Files Detection,” in Proceedings of the 8th ACM SIGSAC Symposium on Information, Computer and Communications Security, 2013, pp. 119–130. ?
N. Srndic and P. Laskov, “Practical evasion of a learning-based clas-si?er: A case study,” in Proceedings of the 2014 IEEE Symposium on Security and Privacy, SP’14, Washington, DC, USA, 2014, pp. 197–211. ?
E. Rashedi and H. Nezamabadi-pour, “Feature subset selection using improved binary gravitational search algorithm,” Journal of Intelligent & Fuzzy Systems, vol. 26, pp. 1211–1221, 2014. ? ? ? ? ?
L. Breiman, “Random Forests,” Machine Learning, vol. 45, no. 1, pp. 5–32, 2001. ? ? ?
J. R. Quinlan, “Simplifying decision trees,” International Journal of Man-Machine Studies, vol. 27, no. 3, pp. 221–234, 1987. ? ? ?
E. Rashedi, H. Nezamabadi-pour, and S. Saryazdi, “GSA: A Gravita-tional Search Algorithm,” Information Sciences, vol. 179, no. 13, pp. 2232–2248, 2009. ?
D. Halliday, R. Resnick, and J. Walker, Fundamentalsof Physics. John Wiley and Sons, 1993. ?
E. Rashedi, H. Nezamabadi-pour, and S. Saryazdi, “BGSA: binary gravitational search algorithm,” Natural Computing, vol. 9, no. 3, pp. 727–745, 2009. ?
A. Pagnin, S. A. Schellini, A. Spadotto, R. C. Guido, M. Ponti,
G. Chiachia, and A. X. Falcao, “Feature selection through gravitational search algorithm,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2011, pp. 2052–2055. ?
egcert. [Online]. Available: http://www.egcert.eg/ ?
VirusTotal. [Online]. Available: https://www.virustotal.com/ ?
A. A. Awad, S. G. Sayed, and S. A. Salem, “A network-based frame-work for rat-bots detection,” in 2017 8th IEEE Annual Information Tech-nology, Electronics and Mobile Communication Conference (IEMCON), Oct 2017, pp. 128–133. ?