編者注:從Nikhil Buduma的《深度學(xué)習(xí)的基礎(chǔ)》開始了解深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)
安全數(shù)據(jù)科學(xué)正在蓬勃發(fā)展,有報告顯示安全分析市場將在2023年達(dá)到八十億美元的價值咨油, 26%的增長率您炉。這要感謝不屈不撓的網(wǎng)絡(luò)攻擊。如果你想要在2017年走在不斷涌現(xiàn)的安全威脅的前面役电,那么投資在正確的領(lǐng)域是很重要的赚爵。在2016年3月,我寫了一篇《2016年需要注意的4個趨勢》。而2017年的文章由我與來自Netflix的Cody Rioux合作冀膝,帶來他的平臺化視角唁奢。我們的目標(biāo)是幫助你為2017年的每一個季度形成一個計劃(例如,4個季度有4個趨勢)窝剖。對于每一個趨勢麻掸,我們都提供了一個短小精悍的理論基礎(chǔ),即為什么我們認(rèn)為現(xiàn)在這個時間投資是對的赐纱;以及如何充分利用這一投資论笔,并指明具體的工具和可用資源。
1.自動化安全響應(yīng)和協(xié)助的機器人
我們認(rèn)為千所,安全行業(yè)將會見證以聊天機器人形式出現(xiàn)的自動和自主反應(yīng)狂魔。當(dāng)一個模型判定到相關(guān)信息時或者符合需求時,機器人將會響應(yīng)提供信息淫痰。這種響應(yīng)將會整合在目前用于與團隊成員進行溝通的事件響應(yīng)平臺里最楷。這并不是一個新的想法,聊天機器人至少和IRC存在一樣長的時間了待错,但是要感謝”ChatOps”使它們流行起來籽孙。Shivon Zilis和James Cham將這稱為“2016年最大的聊天機器人爆發(fā)潮”。在他們給出的信息圖表中列出了15家正在開發(fā)自主代理機器人的公司火俄。
為什么是現(xiàn)在犯建?
Chris Messina(@chrismessina,哈希標(biāo)簽的發(fā)明者)最近寫了一篇名為《聊天機器人不是一時的流行瓜客,它們是一場革命》的文章适瓦。高科技組織通常處在這樣一個地位,即對于生產(chǎn)環(huán)境中的自主系統(tǒng)有著充分的信任谱仪,這使得自動化各種瑣碎的任務(wù)(包括那些在安全領(lǐng)域的任務(wù))成為可能玻熙。機器人框架主要用于開發(fā)各種溝通協(xié)作平臺,包括Slack疯攒、 IRC 以及Skype等嗦随,你很可能在日常生活和安全事件發(fā)生時已經(jīng)在使用這樣的平臺進行溝通了。這使得機器人成為在事件中快速執(zhí)行任務(wù)或是執(zhí)行和報告例行檢查(例如證書更新以及確認(rèn)是否符合安全標(biāo)準(zhǔn))的理想伙伴敬尺。Jason Chan (@chanjbs)最近也發(fā)表了關(guān)于Netflix在安全方面是如何使用機器人的相關(guān)演講:從安全咨詢講到批準(zhǔn)部署更新枚尼,再到如何設(shè)定明顯的安全關(guān)鍵字等。
下一步
與你的運營團隊/網(wǎng)絡(luò)運營中心談?wù)勆巴蹋纯此麄兪欠褚呀?jīng)有了可以進行調(diào)用的解決方案署恍。
看看微軟的機器人框架、Slack機器人呜舒,或者許多IRC機器人框架之一锭汛。
調(diào)研Security Monkey(Netflix的一個安全開源項目)中的自動化技術(shù)笨奠,并嘗試復(fù)制它們。
2.將威脅情報與機器學(xué)習(xí)檢測相結(jié)合
威脅情報可以被認(rèn)為是已知的不良行為的離散實例唤殴,或是一個折衷指標(biāo)的集合般婆。它們是多種多樣的,可以是已知惡意文件的哈希值朵逝、僵尸網(wǎng)絡(luò)的控制服務(wù)器以及命令的IP地址蔚袍,甚至是持久威脅所試用的用戶代理字符串。威脅情報長期被安全社區(qū)用于安全監(jiān)控的定點檢查配名,但是我們認(rèn)為數(shù)據(jù)科學(xué)社區(qū)應(yīng)該在2017年將它們利用到行為檢測系統(tǒng)中去啤咽。
為什么是現(xiàn)在?
貝葉斯錯誤率是任何在給定數(shù)據(jù)集上的分類器的最基本的限制渠脉。改進錯誤率的標(biāo)準(zhǔn)方法是包含新的信息來源宇整。我們假設(shè)威脅情報是一個簡單的網(wǎng)關(guān),并且是引入新的數(shù)據(jù)來源的第一步芋膘。
另外還有可替代的能解釋性——他們還提供了解釋警告的洞察鳞青。例如,如果你的機器學(xué)習(xí)系統(tǒng)判斷出登陸人是不正常的为朋,且登陸的IP地址出現(xiàn)在一個“肉雞”網(wǎng)絡(luò)情報列表里臂拓,那么我們就能推測出這次登陸不正常,是一個受到感染的“肉雞”機器進行的习寸。盡管有些玄乎且不是100%確信胶惰,但這也提供了對告警的一種好的解釋。
下一步
引入威脅情報最簡單的方式是直接將威脅情報數(shù)據(jù)加入到機器學(xué)習(xí)系統(tǒng)的結(jié)果中去霞溪。而最直接的方法是將威脅情報作為一個過濾器放置在機器學(xué)習(xí)系統(tǒng)之后孵滞。
另外一個選項是將它們作為二元的特征放置到訓(xùn)練集中去。這帶來額外的好處就是只要管理一份代碼威鹿。這個方法的缺點是每當(dāng)你新添加一個新的威脅情報剃斧,你需要改動一次代碼并且重新訓(xùn)練和部署你的機器學(xué)習(xí)系統(tǒng),這是很麻煩的忽你。
在你開始威脅情報的相關(guān)實驗之前,要注意這些數(shù)據(jù)在不同的指標(biāo)上有不同級別的置信度臂容,需要反復(fù)嘗試調(diào)整科雳。商業(yè)威脅情報的供應(yīng)商包括Team Cymru,、iSight脓杉、?iDefense以及?Webroot糟秘。開源威脅情報項目包括Project Honeypot、Malware Domain List球散,而諸如?Feodo Tracker,?Zeus Tracker?和?OpenPhish?等的追蹤器是便宜的原型系統(tǒng)之選尿赚。
3.繼續(xù)投資在對抗性機器學(xué)習(xí)上
對抗機器學(xué)習(xí)是指攻擊者可以破壞機器學(xué)習(xí)系統(tǒng)從而獲利。攻擊方可以增加系統(tǒng)的誤報率到很高,使得安全分析師感到挫敗凌净、精疲力竭悲龟。或者也可以增加系統(tǒng)的假陰性率冰寻,從而使得攻擊可以完全不被注意地通過雷達(dá)監(jiān)控须教。甚至可以完全控制整個安全系統(tǒng)。對抗機器學(xué)習(xí)是真實會發(fā)生的斩芭,與Ian Goodfellow一起在這一話題寫過很多論文的Nicholas Papernot曾寫過一篇很棒的博客來解釋其中的一些奧妙轻腺,其核心就是說,對抗性機器學(xué)習(xí)是非郴裕可能發(fā)生的贬养。
為什么是現(xiàn)在?
這一趨勢已經(jīng)在我2016年發(fā)表的文章中列舉過琴庵。但是考慮到熱度的提升以及可能的損害误算,我們認(rèn)為有必要提醒我們的讀者,在2017年開始保護他們的機器學(xué)習(xí)檢測防護系統(tǒng)是有價值的细卧。盡管安全專家之前在惡意軟件過濾領(lǐng)域中已經(jīng)預(yù)見這一趨勢尉桩,2016年還是出現(xiàn)了許多的例子,打擊了幾乎所有的大公司贪庙。首先蜘犁,微軟的“Tay the Tweet”機器人不得不關(guān)停,因為它開始冒出種族方面的用詞止邮。然后这橙,來自康奈爾的研究人員展示了他們是如何能夠從亞馬遜和BigML偷取機器學(xué)習(xí)模型的。最后导披,對抗機器學(xué)習(xí)甚至出現(xiàn)在2016大選屈扎,谷歌曾經(jīng)顯示過一張總統(tǒng)候選人的圖片,上面寫著“病態(tài)的騙子”撩匕。
下一步
開始對你的對外暴露的機器學(xué)習(xí)系統(tǒng)進行威脅建模鹰晨,Nicholas Papernot (@nicholaspapernot)等有一些靠譜的指導(dǎo),比如這篇新論文《論安全科學(xué)以及機器學(xué)習(xí)中的隱私》止毕。
看一看cleverhans模蜡。這是一個新的庫,模擬了對于機器學(xué)習(xí)解決方案的各種類型的攻擊扁凛。
在允許用戶輸入成為模型的訓(xùn)練數(shù)據(jù)之前仔細(xì)地檢查用戶輸入忍疾,特別是在線機器學(xué)習(xí)的場景下。
4.深度學(xué)習(xí)用于安全
深度學(xué)習(xí)使以與人類相當(dāng)?shù)乃絹硗瓿梢恍┤蝿?wù)成為可能谨朝,從開車到以你最喜歡的藝術(shù)家的風(fēng)格來繪畫卤妒。有時甚至是完全超越人類的水平甥绿,比如說下圍棋。諸如流量識別则披、惡意軟件識別共缕、命令檢測、服務(wù)器控制等安全任務(wù)已經(jīng)在向這一趨勢發(fā)展收叶。而神經(jīng)網(wǎng)絡(luò)也具有無監(jiān)督學(xué)習(xí)的技術(shù)能力骄呼,可以自動編碼和強化學(xué)習(xí),這為諸如異常檢測和建立自治系統(tǒng)等任務(wù)提供了即使沒有標(biāo)記數(shù)據(jù)也可用的解決方案判没。簡而言之蜓萄,如果你需要人類級別的性能并且有相當(dāng)多的數(shù)據(jù)和處理它們的計算資源,那么你可能想要利用這一趨勢來自動化那些曾經(jīng)被視為只有人類可以完成的任務(wù)澄峰。
為什么是現(xiàn)在嫉沽?
深度學(xué)習(xí)的實現(xiàn)層一度淪為數(shù)據(jù)科學(xué)家的機器拼湊上包含數(shù)百行Theano代碼的python腳本。然而早已不是這樣了俏竞,產(chǎn)品級深度學(xué)習(xí)組件的工具是應(yīng)有盡有绸硕,無論你的軟件棧是什么。并且用來訓(xùn)練大型模型的分布式計算資源也是司空見慣的魂毁,你很可能已經(jīng)有一個可用的Spark或者Hadoop集群玻佩。你可能也正在生成足夠的數(shù)據(jù)來訓(xùn)練一個數(shù)據(jù)饑餓的算法,例如深度神經(jīng)網(wǎng)絡(luò)席楚。集合分布式計算集群上的數(shù)據(jù)和計算資源咬崔,再加上可以使得用戶能夠簡單地訓(xùn)練、預(yù)測烦秩、監(jiān)控和維護深度學(xué)習(xí)模型的產(chǎn)品級軟件包垮斯,意味著把深度學(xué)習(xí)整合到你的產(chǎn)品的威脅監(jiān)控系統(tǒng)中是前所未有得簡單。
下一步
如果你不了解深度學(xué)習(xí)只祠,在http://course.fast.ai/看看Jeremy Howard (@jeremyphoward)的新課程兜蠕,務(wù)實、關(guān)注代碼抛寝,并且非常實用熊杨。
調(diào)研你的技術(shù)棧中的神經(jīng)網(wǎng)絡(luò)相關(guān)的包。Python (Keras,?Lasagne,?Theano,?Tensorflow), Java (deeplearning4j), 或者 .NET (accord)盗舰。你可能更愿意將這一職責(zé)交給一個管理服務(wù)猴凹,例如Azure ML。
一旦你選定了軟件包岭皂,動手嘗試一下Cyber Defense Exercise數(shù)據(jù)集。
調(diào)研惡意軟件識別的研究沼头,可以從以下論文開始:《?Deep Neural Network-Based Malware Detection Using Two-Dimensional Binary Program Features?》和《Droid-Sec: Deep learning in android malware detection》爷绘。
總地來說书劝,對抗機器學(xué)習(xí)將繼續(xù)成為重要焦點,而正如它在其他領(lǐng)域所做的那樣土至,深度神經(jīng)網(wǎng)絡(luò)將開始在安全數(shù)據(jù)科學(xué)領(lǐng)域產(chǎn)生影響力购对。與此同時,分析師的日常工作將更簡單陶因,通過整合威脅情報和通過帶有“安全口味”的聊天運營機器人盡可能自動化所有任務(wù)骡苞。進一步的自動化任務(wù)可以只執(zhí)行一次并且自動地通過聊天機器人將信息傳播到相關(guān)群體中。
我們樂意聽取你對于安全數(shù)據(jù)科學(xué)的趨勢預(yù)測的想法楷扬,歡迎通過推特@ram_ssk和?@codyrioux聯(lián)系我們解幽,并加入到討論中來。
Ram Shankar是微軟Azure的安全數(shù)據(jù)科學(xué)團隊的安全數(shù)據(jù)總監(jiān)烘苹。他的主要關(guān)注點是對海量安全日志進行建模來發(fā)現(xiàn)惡意活動躲株。他的成果曾出現(xiàn)在核心安全會議(像DerbyCon、MIRCon镣衡、BlueHat等)霜定,以及大數(shù)據(jù)會議(像Strata+Hadoop 世界大會)和機器學(xué)習(xí)實踐大會。Ram畢業(yè)于卡內(nèi)基梅隆大學(xué)電氣與計算機工程專業(yè)廊鸥,并獲得工程與技術(shù)創(chuàng)新管理碩士望浩。
Cody Rioux是一名高級軟件工程師,設(shè)計和開發(fā)實時機器學(xué)習(xí)系統(tǒng)來支持Netflix在AWS上的高可靠和可用惰说。Cody曾參與過Netflix的異常值檢測磨德、自動化Hystrix部署等項目,實現(xiàn)了針對實時流式數(shù)據(jù)查詢的查詢語言助被。Cody的成果在Netflix的技術(shù)博客剖张、一些集會、Strata+Hadoop世界大會以及PyData上發(fā)表過揩环。Cody畢業(yè)于萊斯布里奇大學(xué)搔弄,獲得計算機科學(xué)學(xué)士學(xué)位。
閱讀原文:http://mp.weixin.qq.com/s?__biz=MzI2MDQ5MjExOA==&mid=2247483772&idx=1&sn=44a5c75b1d30dd61b9ed6aeab3d8704a&scene=0#wechat_redirect