小結(jié)
在用戶隱私數(shù)據(jù)安全
合規(guī)場景中,企業(yè)采集用戶信息或與用戶形成交互狀態(tài)梯嗽,企業(yè)此時(shí)需要滿足各 類隱私合規(guī)要求棒卷。對(duì)于用戶敏感行為的信息采集凤覆,比如 GPS 軌跡压彭、輸入表情以及瀏覽行為,為了降低合規(guī)性風(fēng)險(xiǎn)辱匿,可采取本地化差分技術(shù)?實(shí)現(xiàn)批量用戶行為數(shù)據(jù)的挖掘而不泄露單個(gè)的個(gè)體隱私信息灶泵; 為了更好地滿足用戶出各項(xiàng)數(shù)據(jù)權(quán)利請(qǐng)求與響應(yīng),可采取知識(shí)圖譜技術(shù)补箍,對(duì)個(gè)人信息進(jìn)行治理與可視 化改执。進(jìn)一步地啸蜜,應(yīng)用流程自動(dòng)化技術(shù)可對(duì)用戶數(shù)據(jù)權(quán)利“請(qǐng)求 -響應(yīng)”過程進(jìn)行賦能,一方面可通過 高處理效率從而人工運(yùn)營成本辈挂,另一方面可降低由于響應(yīng)超時(shí)帶來的合規(guī)性風(fēng)險(xiǎn)衬横。我國《個(gè)人信息保護(hù) 法(草案)》賦予個(gè)人包括知情權(quán)、決定權(quán)终蒂、查詢權(quán)蜂林、更正權(quán)、刪除權(quán)等拇泣,同時(shí)指出“個(gè)人信息處理者 應(yīng)當(dāng)建立個(gè)人行使權(quán)利的申請(qǐng)受理和處理機(jī)制”噪叙,而在《個(gè)人信息安全規(guī)范》(GB/T 35273-2020)指 出企業(yè)處理用戶數(shù)據(jù)權(quán)利請(qǐng)求的時(shí)間是 30 天之內(nèi)。隨著我國數(shù)據(jù)安全法規(guī) -標(biāo)準(zhǔn)體系的完善霉翔,可預(yù)計(jì) 國內(nèi)用戶數(shù)據(jù)權(quán)利響應(yīng)自動(dòng)化等隱私合規(guī)技術(shù)與市場正將逐步形成睁蕾。
前沿技術(shù)賦能企業(yè)內(nèi)部數(shù)據(jù)安全治理
本章將聚焦在企業(yè)內(nèi)部數(shù)據(jù)安全治理場景,首先分析其三個(gè)典型的子場景合規(guī)性
要求與安全挑戰(zhàn)债朵, 后續(xù)將從應(yīng)對(duì)的三種前沿技術(shù)子眶,包括敏感數(shù)據(jù)智能識(shí)別、數(shù)據(jù)脫敏風(fēng)險(xiǎn)評(píng)估序芦、用戶實(shí)體行為分析臭杰,進(jìn)行 技術(shù)原理、行業(yè)應(yīng)用芝加、以及未來發(fā)展的介紹與探討硅卢。
數(shù)據(jù)安全場景與挑戰(zhàn)
本節(jié)將分析用戶隱私數(shù)據(jù)安全合規(guī)的三個(gè)子場景面臨的合規(guī)性條款,以及安全挑戰(zhàn)藏杖。
敏感數(shù)據(jù)的智能識(shí)別 / 分類
敏感數(shù)據(jù)識(shí)別與分類是數(shù)據(jù)安全建設(shè)與治理的首要環(huán)節(jié)将塑。如 2.1 節(jié)所述,敏感數(shù)據(jù)來源有三類:? 國家敏感數(shù)據(jù)(也稱重要數(shù)據(jù))蝌麸;? 個(gè)人隱私數(shù)據(jù)点寥;? 企業(yè)敏感數(shù)據(jù)。通過對(duì)這三類敏感數(shù)據(jù)類型的 識(shí)別與分類来吩,企業(yè)更好地實(shí)施敏感數(shù)據(jù)安全管控與保護(hù)敢辩。
- 合規(guī)條款
- GDPR:法規(guī)保護(hù)“個(gè)人數(shù)據(jù)”。其定義的“個(gè)人數(shù)據(jù)”范圍十分寬泛(如 1.2 節(jié)分析)弟疆,不僅 包括姓名戚长、年齡、性別等基本個(gè)人信息怠苔,還包括個(gè)人照片同廉、指紋、虹膜、個(gè)人的宗教信仰迫肖,心 理和生理特征信息以及 IP锅劝、Mac、網(wǎng)絡(luò) Cookie 等一系列新增類型(第 4 條)蟆湖。
- 《網(wǎng)絡(luò)安全法》:法規(guī)保護(hù)的網(wǎng)絡(luò)信息包括兩類:“個(gè)人信息”和“重要數(shù)據(jù)”故爵。對(duì)于“個(gè)人信息”, 它同樣蘊(yùn)含豐富的信息類型隅津,比如個(gè)人照片诬垂、身份證照片和指紋等(第 76 條)。對(duì)于“重要數(shù)據(jù)”饥瓷, 《數(shù)據(jù)安全管理辦法》(征求意見稿)進(jìn)一步給出了示例剥纷, “入未公開的政府信息,大面積人 口呢铆、基因健康、地理蹲缠、礦產(chǎn)資源等”棺克。對(duì)于不同類型的敏感數(shù)據(jù),企業(yè)應(yīng)履行“采取數(shù)據(jù)分類线定、 重要數(shù)據(jù)備份和加密等措施”(第 21 條)娜谊。
- 問題挑戰(zhàn)
敏感數(shù)據(jù)類型多種多樣,傳統(tǒng)規(guī)則和正則匹配不夠智能斤讥,易出現(xiàn)漏檢纱皆。對(duì)于非結(jié)構(gòu)數(shù)據(jù)的檢測與識(shí)別, 如身份證照片芭商、合同文檔派草,傳統(tǒng)的檢測與識(shí)別方法難以應(yīng)付。
應(yīng)對(duì)技術(shù): 敏感數(shù)據(jù)智能識(shí)別(參見 4.2 節(jié))
脫敏數(shù)據(jù)的殘余風(fēng)險(xiǎn)評(píng)估
雖然數(shù)據(jù)脫敏在企業(yè)得到廣泛應(yīng)用铛楣,但研究發(fā)現(xiàn)脫敏數(shù)據(jù)仍然或多或少存在殘余的隱私風(fēng)險(xiǎn) [20]近迁。因此,需對(duì)脫敏的數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)評(píng)估與風(fēng)險(xiǎn)管理簸州,確保風(fēng)險(xiǎn)在企業(yè)組織的可控范圍之內(nèi)鉴竭。
- 合規(guī)條款
- GDPR:為了應(yīng)對(duì)隱私問題帶來的風(fēng)險(xiǎn)的挑戰(zhàn),GDPR指出數(shù)據(jù)控制者與處理者“應(yīng)當(dāng)執(zhí)行合 的技術(shù)措施和有組織性的措施來保證合理應(yīng)對(duì)風(fēng)險(xiǎn)的安全水平”(第 32 條)岸浑。
- 《網(wǎng)絡(luò)安全法》:“網(wǎng)絡(luò)運(yùn)營者應(yīng)當(dāng)采取技術(shù)措施和其他必要措施搏存,確保其收集的個(gè)人信息安全, 防止信息泄露矢洲、毀損璧眠、丟失”。即要求企業(yè)采取一定的技術(shù)與管理措施,確保用戶個(gè)人信息與 隱私安全(第 42 條)蛆橡。
- 問題挑戰(zhàn) 如何在攻擊視角下舌界,對(duì)脫敏數(shù)據(jù)的殘余隱私風(fēng)險(xiǎn)進(jìn)行刻畫。 應(yīng)對(duì)技術(shù): 數(shù)據(jù)脫敏風(fēng)險(xiǎn)評(píng)估(參見 4.3 節(jié))
數(shù)據(jù)操作行為的異常檢測
在數(shù)據(jù)庫泰演、大數(shù)據(jù)平臺(tái)等環(huán)境中呻拌,如何檢測與區(qū)分正常和異常操作行為模式,對(duì)數(shù)據(jù)安全的監(jiān)控與 防護(hù)十分關(guān)鍵睦焕。
合規(guī)條款
同 4.1.2 節(jié)的合規(guī)條款藐握。
!問題挑戰(zhàn)
普通的規(guī)則、閾值無法應(yīng)對(duì)復(fù)雜業(yè)務(wù)帶來的挑戰(zhàn)垃喊。 應(yīng)對(duì)技術(shù): 用戶實(shí)體行為分析 (UEBA)(參見 4.4 節(jié))
敏感數(shù)據(jù)智能識(shí)別
智能敏感數(shù)據(jù)識(shí)別技術(shù)主要應(yīng)用在文本猾普、圖像等非結(jié)構(gòu)化數(shù)據(jù)類型中。智能敏感識(shí)別包括三類智能 算法:基于相似度本谜、非監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)初家。
基于相似度算法可準(zhǔn)確檢測以文檔形式存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù),例如 Word 與 PowerPoint 文件乌助、PDF 文檔溜在、財(cái)務(wù)、并購文檔他托,以及其他敏感或?qū)S行畔⒁蠢摺J紫龋止せ蛘咄ㄟ^感知算法(例如赏参,SimHash)
取文檔指紋特征志笼,以檢測原始文檔的已檢索部分、草稿或不同版本的受保護(hù)文檔把篓。第二步進(jìn)行敏感文 件的學(xué)習(xí)和訓(xùn)練纫溃,獲得敏感內(nèi)容的文檔時(shí),采用語義分析的技術(shù)進(jìn)行分詞纸俭,出來需要學(xué)習(xí)和訓(xùn)練的敏 感信息文檔的指紋模型皇耗,然后利用同樣的方法對(duì)被測的文檔或內(nèi)容進(jìn)行指紋抓取,將得到的指紋與訓(xùn)練 的指紋進(jìn)行比對(duì)揍很,根據(jù)預(yù)設(shè)的相似度閾值去確認(rèn)被檢測文檔是否為敏感信息文檔郎楼。
基于非監(jiān)督學(xué)習(xí)算法,人工無需打標(biāo)簽窒悔,進(jìn)行特征設(shè)計(jì)與提取呜袁,比如敏感圖像場景提取目標(biāo)關(guān)鍵點(diǎn)、 文檔數(shù)據(jù)根據(jù)語義取特征向量简珠。首先選取 K-means阶界、DBSCAN 等聚類算法其中之一作為訓(xùn)練算法虹钮, 然后將敏感數(shù)據(jù)待分類的數(shù)目賦為聚類“簇”的個(gè)數(shù),將輸入的樣本數(shù)據(jù)進(jìn)行聚類膘融,聚類完成形成不同 “簇”的數(shù)據(jù)集合芙粱,人工對(duì)這些“簇”的部分樣本進(jìn)行分析并確定相應(yīng)“簇”的類別,比如敏感型氧映、非 敏感型春畔。
基于監(jiān)督學(xué)習(xí)算法需收集一定數(shù)量的訓(xùn)練數(shù)據(jù)(比如文檔、圖片)岛都,同時(shí)對(duì)數(shù)據(jù)進(jìn)行人工打標(biāo)簽律姨, 比如敏感 / 非敏感標(biāo)簽(二分類場景)。然后選擇相應(yīng)的監(jiān)督學(xué)習(xí)算法臼疫,比如支持向量機(jī)(SVM)择份、決 策樹、隨機(jī)森林烫堤、神經(jīng)網(wǎng)絡(luò)等荣赶,再對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練與調(diào)參。訓(xùn)練完成鸽斟,將輸出的模型應(yīng)用在新 的數(shù)據(jù)進(jìn)行智能識(shí)別與預(yù)測讯壶,自動(dòng)化輸出數(shù)據(jù)類型?敏感 / 非敏感數(shù)據(jù)。
在實(shí)際應(yīng)用中湾盗,Securiti.ai [17] 和 BigID [19]公司均宣稱利用機(jī)器學(xué)習(xí)和聚類算法在大規(guī)模數(shù)據(jù)實(shí)現(xiàn)分 類,以自動(dòng)化發(fā)現(xiàn)個(gè)人數(shù)據(jù)以及其他敏感數(shù)據(jù)立轧。但算法的效率格粪、識(shí)別精度以及可擴(kuò)展性仍然是一系列富 有挑戰(zhàn)性的關(guān)鍵問題。
參考資料
綠盟 2020 數(shù)據(jù)安全前沿技術(shù)研究報(bào)告