敏感數(shù)據(jù)的智能識(shí)別 / 分類

小結(jié)

在用戶隱私數(shù)據(jù)安全
合規(guī)場景中，企業(yè)采集用戶信息或與用戶形成交互狀態(tài)梯嗽，企業(yè)此時(shí)需要滿足各類隱私合規(guī)要求棒卷。對(duì)于用戶敏感行為的信息采集凤覆，比如 GPS 軌跡压彭、輸入表情以及瀏覽行為，為了降低合規(guī)性風(fēng)險(xiǎn)辱匿，可采取本地化差分技術(shù)?實(shí)現(xiàn)批量用戶行為數(shù)據(jù)的挖掘而不泄露單個(gè)的個(gè)體隱私信息灶泵；為了更好地滿足用戶出各項(xiàng)數(shù)據(jù)權(quán)利請(qǐng)求與響應(yīng)，可采取知識(shí)圖譜技術(shù)补箍，對(duì)個(gè)人信息進(jìn)行治理與可視化改执。進(jìn)一步地啸蜜，應(yīng)用流程自動(dòng)化技術(shù)可對(duì)用戶數(shù)據(jù)權(quán)利“請(qǐng)求 -響應(yīng)”過程進(jìn)行賦能，一方面可通過高處理效率從而人工運(yùn)營成本辈挂，另一方面可降低由于響應(yīng)超時(shí)帶來的合規(guī)性風(fēng)險(xiǎn)衬横。我國《個(gè)人信息保護(hù) 法（草案）》賦予個(gè)人包括知情權(quán)、決定權(quán)终蒂、查詢權(quán)蜂林、更正權(quán)、刪除權(quán)等拇泣，同時(shí)指出“個(gè)人信息處理者應(yīng)當(dāng)建立個(gè)人行使權(quán)利的申請(qǐng)受理和處理機(jī)制”噪叙，而在《個(gè)人信息安全規(guī)范》（GB/T 35273-2020）指出企業(yè)處理用戶數(shù)據(jù)權(quán)利請(qǐng)求的時(shí)間是 30 天之內(nèi)。隨著我國數(shù)據(jù)安全法規(guī) -標(biāo)準(zhǔn)體系的完善霉翔，可預(yù)計(jì) 國內(nèi)用戶數(shù)據(jù)權(quán)利響應(yīng)自動(dòng)化等隱私合規(guī)技術(shù)與市場正將逐步形成睁蕾。

前沿技術(shù)賦能企業(yè)內(nèi)部數(shù)據(jù)安全治理

本章將聚焦在企業(yè)內(nèi)部數(shù)據(jù)安全治理場景，首先分析其三個(gè)典型的子場景合規(guī)性
要求與安全挑戰(zhàn)债朵，后續(xù)將從應(yīng)對(duì)的三種前沿技術(shù)子眶，包括敏感數(shù)據(jù)智能識(shí)別、數(shù)據(jù)脫敏風(fēng)險(xiǎn)評(píng)估序芦、用戶實(shí)體行為分析臭杰，進(jìn)行技術(shù)原理、行業(yè)應(yīng)用芝加、以及未來發(fā)展的介紹與探討硅卢。

數(shù)據(jù)安全場景與挑戰(zhàn)

本節(jié)將分析用戶隱私數(shù)據(jù)安全合規(guī)的三個(gè)子場景面臨的合規(guī)性條款，以及安全挑戰(zhàn)藏杖。

敏感數(shù)據(jù)的智能識(shí)別 / 分類

敏感數(shù)據(jù)識(shí)別與分類是數(shù)據(jù)安全建設(shè)與治理的首要環(huán)節(jié)将塑。如 2.1 節(jié)所述，敏感數(shù)據(jù)來源有三類：? 國家敏感數(shù)據(jù)（也稱重要數(shù)據(jù)）蝌麸；? 個(gè)人隱私數(shù)據(jù)点寥；? 企業(yè)敏感數(shù)據(jù)。通過對(duì)這三類敏感數(shù)據(jù)類型的識(shí)別與分類来吩，企業(yè)更好地實(shí)施敏感數(shù)據(jù)安全管控與保護(hù)敢辩。

合規(guī)條款
GDPR：法規(guī)保護(hù)“個(gè)人數(shù)據(jù)”。其定義的“個(gè)人數(shù)據(jù)”范圍十分寬泛（如 1.2 節(jié)分析）弟疆，不僅包括姓名戚长、年齡、性別等基本個(gè)人信息怠苔，還包括個(gè)人照片同廉、指紋、虹膜、個(gè)人的宗教信仰迫肖，心理和生理特征信息以及 IP锅劝、Mac、網(wǎng)絡(luò) Cookie 等一系列新增類型（第 4 條）蟆湖。
《網(wǎng)絡(luò)安全法》：法規(guī)保護(hù)的網(wǎng)絡(luò)信息包括兩類：“個(gè)人信息”和“重要數(shù)據(jù)”故爵。對(duì)于“個(gè)人信息”，它同樣蘊(yùn)含豐富的信息類型隅津，比如個(gè)人照片诬垂、身份證照片和指紋等（第 76 條）。對(duì)于“重要數(shù)據(jù)”饥瓷，《數(shù)據(jù)安全管理辦法》（征求意見稿）進(jìn)一步給出了示例剥纷， “入未公開的政府信息，大面積人口呢铆、基因健康、地理蹲缠、礦產(chǎn)資源等”棺克。對(duì)于不同類型的敏感數(shù)據(jù)，企業(yè)應(yīng)履行“采取數(shù)據(jù)分類线定、重要數(shù)據(jù)備份和加密等措施”（第 21 條）娜谊。
問題挑戰(zhàn)

敏感數(shù)據(jù)類型多種多樣，傳統(tǒng)規(guī)則和正則匹配不夠智能斤讥，易出現(xiàn)漏檢纱皆。對(duì)于非結(jié)構(gòu)數(shù)據(jù)的檢測與識(shí)別，如身份證照片芭商、合同文檔派草，傳統(tǒng)的檢測與識(shí)別方法難以應(yīng)付。

應(yīng)對(duì)技術(shù)： 敏感數(shù)據(jù)智能識(shí)別（參見 4.2 節(jié)）

脫敏數(shù)據(jù)的殘余風(fēng)險(xiǎn)評(píng)估

雖然數(shù)據(jù)脫敏在企業(yè)得到廣泛應(yīng)用铛楣，但研究發(fā)現(xiàn)脫敏數(shù)據(jù)仍然或多或少存在殘余的隱私風(fēng)險(xiǎn) [20]近迁。因此，需對(duì)脫敏的數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)評(píng)估與風(fēng)險(xiǎn)管理簸州，確保風(fēng)險(xiǎn)在企業(yè)組織的可控范圍之內(nèi)鉴竭。

合規(guī)條款
GDPR：為了應(yīng)對(duì)隱私問題帶來的風(fēng)險(xiǎn)的挑戰(zhàn)，GDPR指出數(shù)據(jù)控制者與處理者“應(yīng)當(dāng)執(zhí)行合的技術(shù)措施和有組織性的措施來保證合理應(yīng)對(duì)風(fēng)險(xiǎn)的安全水平”（第 32 條）岸浑。
《網(wǎng)絡(luò)安全法》：“網(wǎng)絡(luò)運(yùn)營者應(yīng)當(dāng)采取技術(shù)措施和其他必要措施搏存，確保其收集的個(gè)人信息安全，防止信息泄露矢洲、毀損璧眠、丟失”。即要求企業(yè)采取一定的技術(shù)與管理措施，確保用戶個(gè)人信息與隱私安全（第 42 條）蛆橡。
問題挑戰(zhàn) 如何在攻擊視角下舌界，對(duì)脫敏數(shù)據(jù)的殘余隱私風(fēng)險(xiǎn)進(jìn)行刻畫。 應(yīng)對(duì)技術(shù)： 數(shù)據(jù)脫敏風(fēng)險(xiǎn)評(píng)估（參見 4.3 節(jié)）

數(shù)據(jù)操作行為的異常檢測

在數(shù)據(jù)庫泰演、大數(shù)據(jù)平臺(tái)等環(huán)境中呻拌，如何檢測與區(qū)分正常和異常操作行為模式，對(duì)數(shù)據(jù)安全的監(jiān)控與防護(hù)十分關(guān)鍵睦焕。
　合規(guī)條款

同 4.1.2 節(jié)的合規(guī)條款藐握。

!問題挑戰(zhàn)

普通的規(guī)則、閾值無法應(yīng)對(duì)復(fù)雜業(yè)務(wù)帶來的挑戰(zhàn)垃喊。 應(yīng)對(duì)技術(shù)： 用戶實(shí)體行為分析（UEBA）（參見 4.4 節(jié)）

敏感數(shù)據(jù)智能識(shí)別

智能敏感數(shù)據(jù)識(shí)別技術(shù)主要應(yīng)用在文本猾普、圖像等非結(jié)構(gòu)化數(shù)據(jù)類型中。智能敏感識(shí)別包括三類智能算法：基于相似度本谜、非監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)初家。

基于相似度算法可準(zhǔn)確檢測以文檔形式存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù)，例如 Word 與 PowerPoint 文件乌助、PDF 文檔溜在、財(cái)務(wù)、并購文檔他托，以及其他敏感或?qū)Ｓ行畔⒁蠢摺Ｊ紫龋止せ蛘咄ㄟ^感知算法（例如赏参，SimHash）
取文檔指紋特征志笼，以檢測原始文檔的已檢索部分、草稿或不同版本的受保護(hù)文檔把篓。第二步進(jìn)行敏感文件的學(xué)習(xí)和訓(xùn)練纫溃，獲得敏感內(nèi)容的文檔時(shí)，采用語義分析的技術(shù)進(jìn)行分詞纸俭，出來需要學(xué)習(xí)和訓(xùn)練的敏感信息文檔的指紋模型皇耗，然后利用同樣的方法對(duì)被測的文檔或內(nèi)容進(jìn)行指紋抓取，將得到的指紋與訓(xùn)練的指紋進(jìn)行比對(duì)揍很，根據(jù)預(yù)設(shè)的相似度閾值去確認(rèn)被檢測文檔是否為敏感信息文檔郎楼。

基于非監(jiān)督學(xué)習(xí)算法，人工無需打標(biāo)簽窒悔，進(jìn)行特征設(shè)計(jì)與提取呜袁，比如敏感圖像場景提取目標(biāo)關(guān)鍵點(diǎn)、文檔數(shù)據(jù)根據(jù)語義取特征向量简珠。首先選取 K-means阶界、DBSCAN 等聚類算法其中之一作為訓(xùn)練算法虹钮，然后將敏感數(shù)據(jù)待分類的數(shù)目賦為聚類“簇”的個(gè)數(shù)，將輸入的樣本數(shù)據(jù)進(jìn)行聚類膘融，聚類完成形成不同 “簇”的數(shù)據(jù)集合芙粱，人工對(duì)這些“簇”的部分樣本進(jìn)行分析并確定相應(yīng)“簇”的類別，比如敏感型氧映、非敏感型春畔。

基于監(jiān)督學(xué)習(xí)算法需收集一定數(shù)量的訓(xùn)練數(shù)據(jù)（比如文檔、圖片）岛都，同時(shí)對(duì)數(shù)據(jù)進(jìn)行人工打標(biāo)簽律姨，比如敏感 / 非敏感標(biāo)簽（二分類場景）。然后選擇相應(yīng)的監(jiān)督學(xué)習(xí)算法臼疫，比如支持向量機(jī)（SVM）择份、決策樹、隨機(jī)森林烫堤、神經(jīng)網(wǎng)絡(luò)等荣赶，再對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練與調(diào)參。訓(xùn)練完成鸽斟，將輸出的模型應(yīng)用在新的數(shù)據(jù)進(jìn)行智能識(shí)別與預(yù)測讯壶，自動(dòng)化輸出數(shù)據(jù)類型?敏感 / 非敏感數(shù)據(jù)。

在實(shí)際應(yīng)用中湾盗，Securiti.ai [17] 和 BigID [19]公司均宣稱利用機(jī)器學(xué)習(xí)和聚類算法在大規(guī)模數(shù)據(jù)實(shí)現(xiàn)分類，以自動(dòng)化發(fā)現(xiàn)個(gè)人數(shù)據(jù)以及其他敏感數(shù)據(jù)立轧。但算法的效率格粪、識(shí)別精度以及可擴(kuò)展性仍然是一系列富有挑戰(zhàn)性的關(guān)鍵問題。

參考資料

綠盟 2020 數(shù)據(jù)安全前沿技術(shù)研究報(bào)告

友情鏈接

GB-T 17901.1-2020 信息技術(shù) 安全技術(shù) 密鑰管理第1部分：框架

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末氛改，一起剝皮案震驚了整個(gè)濱河市帐萎，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌胜卤，老刑警劉巖疆导，帶你破解...
沈念sama閱讀 221,695評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異葛躏，居然都是意外死亡澈段，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,569評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門舰攒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來败富，“玉大人，你說我怎么就攤上這事摩窃∈薅＃” “怎么了？”我有些...
開封第一講書人閱讀 168,130評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長鹦聪。經(jīng)常有香客問我账阻，道長，這世上最難降的妖魔是什么泽本？我笑而不...
開封第一講書人閱讀 59,648評(píng)論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任淘太，我火速辦了婚禮，結(jié)果婚禮上观挎，老公的妹妹穿的比我還像新娘琴儿。我一直安慰自己，他們只是感情好嘁捷，可當(dāng)我...
茶點(diǎn)故事閱讀 68,655評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布造成。她就那樣靜靜地躺著，像睡著了一般雄嚣。火紅的嫁衣襯著肌膚如雪晒屎。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,268評(píng)論 1贊 309
城市分裂傳說
那天缓升，我揣著相機(jī)與錄音鼓鲁，去河邊找鬼。笑死港谊，一個(gè)胖子當(dāng)著我的面吹牛骇吭，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播歧寺，決...
沈念sama閱讀 40,835評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼燥狰，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼！你這毒婦竟也來了斜筐？” 一聲冷哼從身側(cè)響起龙致，我...
開封第一講書人閱讀 39,740評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎顷链，沒想到半個(gè)月后目代，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,286評(píng)論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡嗤练，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,375評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年榛了，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片潭苞。...
茶點(diǎn)故事閱讀 40,505評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡忽冻，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出此疹，到底是詐尸還是另有隱情僧诚，我是刑警寧澤遮婶，帶...
沈念sama閱讀 36,185評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站湖笨，受9級(jí)特大地震影響旗扑，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜慈省，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,873評(píng)論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一臀防、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧边败，春花似錦袱衷、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,357評(píng)論 0贊 24
一樁弒父案致燥，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至排截，卻和暖如春嫌蚤，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背断傲。一陣腳步聲響...
開封第一講書人閱讀 33,466評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工脱吱，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人认罩。一個(gè)月前我還...
沈念sama閱讀 48,921評(píng)論 3贊 376
代替公主和親
正文我出身青樓箱蝠，卻偏偏與公主長得像，于是被迫代替她去往敵國和親垦垂。傳聞我的和親對(duì)象是個(gè)殘疾皇子抡锈，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,515評(píng)論 2贊 359

敏感數(shù)據(jù)的智能識(shí)別 / 分類

小結(jié)

前沿技術(shù)賦能企業(yè)內(nèi)部數(shù)據(jù)安全治理

數(shù)據(jù)安全場景與挑戰(zhàn)

敏感數(shù)據(jù)的智能識(shí)別 / 分類

脫敏數(shù)據(jù)的殘余風(fēng)險(xiǎn)評(píng)估

數(shù)據(jù)操作行為的異常檢測

敏感數(shù)據(jù)智能識(shí)別

參考資料

友情鏈接

推薦閱讀更多精彩內(nèi)容