隨著大數(shù)據(jù)在各個行業(yè)領(lǐng)域應(yīng)用的不斷深入阐枣,數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源的地位日益凸顯忍坷,如何構(gòu)建更有利于大數(shù)據(jù)產(chǎn)業(yè)健康有序發(fā)展的良好環(huán)境成為業(yè)界關(guān)注的焦點聘芜,數(shù)據(jù)治理也隨之成為大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)中的新熱點。
與此同時鞋屈,在政策追城、技術(shù)刹碾、需求等多重因素的推動下,以自動駕駛座柱、智能客服迷帜、語音識別為代表的人工智能應(yīng)用快速興起物舒,AI已經(jīng)成為全球科技巨頭的布局重點。如百度李彥宏公開表示:“百度公司將不再是互聯(lián)網(wǎng)公司戏锹,而是一家人工智能公司”冠胯。中國移動也高度重視人工智能,于2017年發(fā)布了“九天”人工智能平臺锦针,努力將人工智能技術(shù)應(yīng)用在網(wǎng)絡(luò)荠察、市場、服務(wù)奈搜、安全悉盆、管理和衍生業(yè)務(wù)等多個領(lǐng)域。
那么馋吗,當(dāng)數(shù)據(jù)治理遇上人工智能焕盟,將碰撞出怎樣的火花?
確保數(shù)據(jù)質(zhì)量和安全是發(fā)展AI的前提
今天耗美,企業(yè)對全面數(shù)據(jù)治理的需求從未如此強烈京髓。監(jiān)管機構(gòu)希望企業(yè)能更加清晰地了解數(shù)據(jù)航缀,對它進(jìn)行有效的管控商架;企業(yè)管理層希望理清數(shù)據(jù)資產(chǎn),降低數(shù)據(jù)應(yīng)用的復(fù)雜性芥玉,對企業(yè)進(jìn)行更高效的管理蛇摸;企業(yè)員工也開始認(rèn)識到數(shù)據(jù)的重要性,更多地采用數(shù)據(jù)驅(qū)動的方式來開展工作灿巧。數(shù)據(jù)治理正迅速發(fā)展成一種企業(yè)核心策略赶袄,只有做好數(shù)據(jù)治理,讓數(shù)據(jù)更加準(zhǔn)確完整抠藕,并且安全合規(guī)饿肺,才能釋放出數(shù)據(jù)的無限潛能,挖掘出更多有價值的數(shù)據(jù)應(yīng)用盾似。
在人工智能技術(shù)在應(yīng)用和實踐中敬辣,確保數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全是最基礎(chǔ)的底層保障。由于人工智能的落地應(yīng)用效果會受到數(shù)據(jù)質(zhì)量和安全的影響零院,更多的企業(yè)開始反思并轉(zhuǎn)而去推動數(shù)據(jù)質(zhì)量和安全的提升溉跃,提供數(shù)據(jù)質(zhì)量和安全評測工具,建立好的數(shù)據(jù)環(huán)境告抄,再進(jìn)行人工智能應(yīng)用的同步研發(fā)撰茎。
大數(shù)據(jù)是人工智能技術(shù)研發(fā)、訓(xùn)練的關(guān)鍵打洼,是人工智能長期發(fā)展的重要保障龄糊。只有當(dāng)人工智能系統(tǒng)能夠獲取更為準(zhǔn)確逆粹、及時、一致的高質(zhì)量數(shù)據(jù)炫惩,才能提供更有效枯饿、有用、精準(zhǔn)性高的智能化服務(wù)诡必。根據(jù)埃森哲在2018年4月的一份調(diào)研發(fā)現(xiàn)奢方,中國制造企業(yè)在運用人工智能技術(shù)時面臨一系列挑戰(zhàn)。其中爸舒,52%的受訪中國企業(yè)將數(shù)據(jù)質(zhì)量列為突出挑戰(zhàn)蟋字,數(shù)據(jù)安全與網(wǎng)絡(luò)安全緊隨其后(47%)。在2017年4月的一次研討會上扭勉,圍繞人工智能話題鹊奖, 華為任正非提出:“高質(zhì)量的數(shù)據(jù)是人工智能的前提和基礎(chǔ)”。當(dāng)前涂炎,不管是人工智能技術(shù)的研發(fā)忠聚,還是人工智能應(yīng)用領(lǐng)域的發(fā)展,“數(shù)據(jù)質(zhì)量”都是一個不可或缺唱捣、位于重中之重的要素两蟀。
人工智能發(fā)展的另一個重點保障就是數(shù)據(jù)安全,人工智能系統(tǒng)的基礎(chǔ)是大數(shù)據(jù)震缭,要對外提供服務(wù)赂毯,就會涉及數(shù)據(jù)的安全保護(hù),在這個過程中拣宰,一系列的數(shù)據(jù)安全防護(hù)手段是必不可少的党涕,如數(shù)據(jù)脫敏管理,對敏感信息的風(fēng)險評估巡社、使用監(jiān)控膛堤,對數(shù)據(jù)的泄露檢測,數(shù)據(jù)庫保密檢查等晌该。人工智能需要海量的數(shù)據(jù)肥荔,人工智能技術(shù)的進(jìn)步取決于各種來源數(shù)據(jù)的可用性,如何確保這些數(shù)據(jù)的安全性與保證用戶數(shù)據(jù)的隱私性是數(shù)據(jù)質(zhì)量之外又一個重要問題气笙。同時次企,通過對業(yè)務(wù)數(shù)據(jù)應(yīng)用語義計算、數(shù)據(jù)挖掘潜圃、機器學(xué)習(xí)缸棵、知識圖譜、認(rèn)知計算等人工智能技術(shù)谭期,也可以促進(jìn)企業(yè)數(shù)據(jù)安全保障體系完善堵第。因此吧凉,數(shù)據(jù)安全和人工智能兩種技術(shù)起到了相互促進(jìn)、相互完善的作用踏志。
智能化數(shù)據(jù)治理悄然興起
經(jīng)過多年的理論更新阀捅、技術(shù)演進(jìn)和應(yīng)用實踐,與前些年前相比针余,如今的數(shù)據(jù)治理從概念到技術(shù)已經(jīng)發(fā)生了很多變化饲鄙。特別是隨著這一波人工智能浪潮的重新興起,數(shù)據(jù)治理技術(shù)和人工智能技術(shù)在一些方面也開始有了結(jié)合使用圆雁,應(yīng)用了人工智能技術(shù)的新一代數(shù)據(jù)治理可以稱之為“智能化數(shù)據(jù)治理”忍级。
數(shù)據(jù)治理工作中,可以通過對大數(shù)據(jù)應(yīng)用機器學(xué)習(xí)技術(shù)伪朽,作數(shù)據(jù)挖掘和分析轴咱,從而識別哪些是用戶隱私性數(shù)據(jù)、哪些數(shù)據(jù)可能有異常烈涮,一旦數(shù)據(jù)特征被確認(rèn)朴肺,打上標(biāo)簽,未來再做數(shù)據(jù)管理時坚洽,就可以使用元數(shù)據(jù)管理的方法機制戈稿,對外提供服務(wù)。比如當(dāng)碰到涉及的某特殊標(biāo)記數(shù)據(jù)酪术,就會有相應(yīng)的流程啟動器瘪,或在相關(guān)的數(shù)據(jù)對外服務(wù)提供過程中,一旦數(shù)據(jù)涉及個人隱私绘雁,則一定要小心處理,以避免引起政策方面的風(fēng)險援所。通過上述應(yīng)用庐舟,可以增強大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全管理和元數(shù)據(jù)管理的能力。
另外住拭,也可以在針對大數(shù)據(jù)開展數(shù)據(jù)質(zhì)量核查過程中挪略,配合傳統(tǒng)根據(jù)預(yù)置的質(zhì)量核查規(guī)則進(jìn)行核查的方式,僅針對少量核心核查規(guī)則滔岳,從大數(shù)據(jù)中選取訓(xùn)練數(shù)據(jù)樣本杠娱,經(jīng)過預(yù)處理,利用機器學(xué)習(xí)算法進(jìn)行深度分析谱煤,提取公共特征和模型摊求,可以用來定位數(shù)據(jù)質(zhì)量原因,做數(shù)據(jù)質(zhì)量問題的預(yù)測刘离,并進(jìn)一步形成知識庫室叉。這樣就可以更進(jìn)一步增強大數(shù)據(jù)系統(tǒng)數(shù)據(jù)質(zhì)量管理的能力睹栖。
對于數(shù)據(jù)模型的管理,機器學(xué)習(xí)技術(shù)可用來分析數(shù)據(jù)庫中數(shù)據(jù)實體的引用熱度茧痕,通過聚類算法自動識別數(shù)據(jù)模型間的內(nèi)在關(guān)系野来,還可以用于數(shù)據(jù)模型質(zhì)量的檢測和評估。對于非結(jié)構(gòu)化數(shù)據(jù)的管理踪旷,像文檔內(nèi)容曼氛,圖像,音頻令野,視頻搪锣,更是可以充分利用人工智能中的自然語言處理、圖像識別彩掐、語音識別构舟、視頻處理等技術(shù)。
大數(shù)據(jù)治理+AI
大數(shù)據(jù)治理堵幽,顧名思義狗超,即基于大數(shù)據(jù)的數(shù)據(jù)治理。大數(shù)據(jù)朴下,一般指符合4V特征的數(shù)據(jù)努咐,包括社交數(shù)據(jù),機器數(shù)據(jù)等殴胧,大數(shù)據(jù)對傳統(tǒng)數(shù)據(jù)治理工作帶來很多的擴展渗稍。在政策和流程上,大數(shù)據(jù)治理應(yīng)覆蓋大數(shù)據(jù)的獲取团滥、處理竿屹、存儲、安全等環(huán)節(jié)灸姊;在數(shù)據(jù)生命周期管理各階段拱燃,如數(shù)據(jù)存儲、保留力惯、歸檔碗誉、處置時,要考慮大數(shù)據(jù)保存時間與存儲空間的平衡父晶;大數(shù)據(jù)量大哮缺,因此應(yīng)識別對業(yè)務(wù)有關(guān)鍵影響的數(shù)據(jù)元素,檢查和保證數(shù)據(jù)質(zhì)量甲喝;大數(shù)據(jù)還需要定義與其內(nèi)容相關(guān)的元數(shù)據(jù)尝苇,需與傳統(tǒng)數(shù)據(jù)定義標(biāo)準(zhǔn)保持一致,術(shù)語字典應(yīng)包含大數(shù)據(jù)的術(shù)語,需要為非結(jié)構(gòu)化數(shù)據(jù)提供分類茎匠、語義支持格仲,Hadoop、NoSQL數(shù)據(jù)庫的技術(shù)元數(shù)據(jù)也同樣需要納入元數(shù)據(jù)存儲庫管理诵冒;此外凯肋,在隱私方面,應(yīng)考慮社交數(shù)據(jù)的隱私保護(hù)需求汽馋,制定相應(yīng)政策侮东,還要將大數(shù)據(jù)治理與企業(yè)內(nèi)外部風(fēng)險管控需求建立聯(lián)系。
數(shù)字化時代豹芯,大數(shù)據(jù)治理應(yīng)該如何和人工智能技術(shù)深度結(jié)合悄雅,人工智能技術(shù)在大數(shù)據(jù)治理領(lǐng)域能有哪些應(yīng)用?
? ??數(shù)據(jù)安全管理
當(dāng)前已經(jīng)有許多行業(yè)信息安全解決方案都開始使用機器學(xué)習(xí)算法來識別潛在的系統(tǒng)攻擊铁蹈,通過機器學(xué)習(xí)可以建立用于檢測異常情況的正常行為的基線宽闲,一切不符合基線標(biāo)準(zhǔn)的異常情況都能及時得到預(yù)警和處理。
? ??元數(shù)據(jù)管理
互聯(lián)網(wǎng)企業(yè)使用機器學(xué)習(xí)握牧,分析用戶點擊過哪些鏈接容诬,為用戶生成畫像,打上特定的標(biāo)簽沿腰,來做商品览徒、內(nèi)容的推薦和優(yōu)化用戶搜索結(jié)果。這些描述用戶消費形為颂龙、興趣偏好特征的元數(shù)據(jù)信息习蓬,已經(jīng)成為互聯(lián)網(wǎng)企業(yè)得以生存發(fā)展的核心數(shù)據(jù)資產(chǎn)。
? ??數(shù)據(jù)質(zhì)量管理
金融行業(yè)中措嵌,銀行信用卡發(fā)卡部門很早就開始利用機器學(xué)習(xí)技術(shù)躲叼,來識別不合規(guī)的申請人、虛假申請信息以及可能存在欺詐性的交易行為铅匹。此外押赊,既然機器學(xué)習(xí)可以識別信息系統(tǒng)中的異常數(shù)據(jù),那它也可以檢測工業(yè)制成品中的異常情況包斑。企業(yè)可以通過將實體物品生產(chǎn)過程數(shù)字化,然后使用經(jīng)過訓(xùn)練的機器學(xué)習(xí)系統(tǒng)來識別不符合標(biāo)準(zhǔn)或規(guī)格的產(chǎn)品數(shù)據(jù)涕俗,挑出異常數(shù)據(jù)罗丰,從而部分替代人類檢測員的工作。
? ??非結(jié)構(gòu)化數(shù)據(jù)管理
近年來再姑,利用機器學(xué)習(xí)的人臉識別系統(tǒng)能力一直在提高萌抵,已經(jīng)大量應(yīng)用在識別已知的犯罪分子、員工上班考勤、或者識別公共場所中超出規(guī)范或違反法律的行為或活動绍填。而醫(yī)療行業(yè)霎桅,則可以利用機器學(xué)習(xí)工具,通過對大量紙質(zhì)和圖像病例資料的訓(xùn)練學(xué)習(xí)讨永,構(gòu)建醫(yī)療知識庫滔驶,輔助專業(yè)醫(yī)護(hù)人員,診斷疾病并提出最有效的治療策略卿闹。
各類社交網(wǎng)站每天都在產(chǎn)生著大量非結(jié)構(gòu)化數(shù)據(jù)揭糕,企業(yè)可以利用機器學(xué)習(xí)技術(shù)來實時發(fā)現(xiàn)和識別潛在的問題,手寫識別锻霎、語音轉(zhuǎn)寫著角、自然語言處理技術(shù)也在不同場景中大量應(yīng)用,可以提高人們識別旋恼、理解和處理非結(jié)構(gòu)化數(shù)據(jù)的能力吏口。
? ??數(shù)據(jù)共享開放
企業(yè)可以充分利用人工智能技術(shù),以信息化冰更、自動化方式产徊,共享和開放一部分?jǐn)?shù)據(jù)或數(shù)據(jù)加工結(jié)果,對外提供服務(wù)冬殃,提升企業(yè)競爭力囚痴。最典型的就是現(xiàn)在各種客戶服務(wù)機器人,可以使用自然語言處理技術(shù)處理回答客戶提出的常見問題审葬,并隨著時間的推移提高答案的質(zhì)量深滚。據(jù)悉,中國移動客戶服務(wù)系統(tǒng)中機器服務(wù)的比例已經(jīng)超過10%涣觉。
另外一個常見的應(yīng)用領(lǐng)域就是營銷推薦痴荐,在大多數(shù)商業(yè)環(huán)境中,將適合的產(chǎn)品投放給恰當(dāng)?shù)氖鼙妼Υ龠M(jìn)商業(yè)成功至關(guān)重要官册。機器學(xué)習(xí)系統(tǒng)可以使用企業(yè)收集的用戶數(shù)據(jù)生兆,根據(jù)用戶過去的購物習(xí)慣預(yù)測可能喜歡的物品,再將預(yù)測結(jié)果數(shù)據(jù)向企業(yè)電商系統(tǒng)或銷售決策系統(tǒng)開放膝宁。Facebook前科學(xué)家Jeffrey Hammerbacher曾感嘆道:“我們這一代最聰明的大腦鸦难,沒有花多少精力思考如何利用人工智能改善人們的生活,而是思考怎么讓人們點擊更多廣告…”员淫。???
? ??數(shù)據(jù)資產(chǎn)分析
物聯(lián)網(wǎng)的大發(fā)展提供了許多潛在的機器學(xué)習(xí)使用場景合蔽,其中就包括預(yù)測性維護(hù),企業(yè)可以使用歷史設(shè)備數(shù)據(jù)開展預(yù)測分析介返,推斷機器可能發(fā)生故障的時間拴事,使其能夠在影響業(yè)務(wù)運行之前主動進(jìn)行維修或安裝更換部件沃斤。對于物流企業(yè)來說,設(shè)置時間表和路線是一件復(fù)雜而費時的工作刃宵,機器學(xué)習(xí)系統(tǒng)可以通過對交通數(shù)據(jù)的分析和監(jiān)控衡瓶,幫助企業(yè)規(guī)劃貨物運輸路線及計劃,提出最有效和最具低成本高效益的方法牲证。
另外哮针,在金融市場交易中,每個交易者都希望在市場上找到能讓他們低買高賣的模式从隆,大的金融機構(gòu)更是花費重金诚撵,使用人工智能技術(shù)針對金融交易數(shù)據(jù)做深度的分析挖掘,打造自己的量化交易系統(tǒng)键闺,以期望能在變幻莫測的市場風(fēng)云中更早一步識別潛在的風(fēng)險和機會寿烟。
數(shù)據(jù)治理政策研究重要性凸顯
2018年5月,在中國國際大數(shù)據(jù)博覽會上辛燥,中國科學(xué)院院士梅宏發(fā)表演講中表示筛武,大數(shù)據(jù)治理體系建設(shè)是我們國家實施大數(shù)據(jù)戰(zhàn)略的重要保障,是發(fā)揮大數(shù)據(jù)作用挎塌,做大做強大數(shù)據(jù)產(chǎn)業(yè)的重要因素徘六,也是關(guān)鍵基礎(chǔ)。當(dāng)下榴都,做人工智能的企業(yè)很多待锈,人工智能的基礎(chǔ)就是大數(shù)據(jù),數(shù)據(jù)首先要能標(biāo)準(zhǔn)化嘴高、共享竿音、開放,如果數(shù)據(jù)標(biāo)準(zhǔn)不一致拴驮,質(zhì)量不高春瞬,就很難做分析、建模套啤,更談不上預(yù)測的準(zhǔn)確性宽气。開展數(shù)據(jù)治理則能為企業(yè)提供一個高質(zhì)量的數(shù)據(jù)工作環(huán)境,促進(jìn)人工智能技術(shù)的研究和實踐潜沦√蜒模總之,數(shù)據(jù)治理是人工智能的基礎(chǔ)唆鸡,想做人工智能窃判,需要先把數(shù)據(jù)治理這個基礎(chǔ)打好。
對大型科技企業(yè)來說喇闸,面對日益激烈的競爭環(huán)境,企業(yè)亟需進(jìn)行數(shù)字化轉(zhuǎn)型,一方面要做好數(shù)據(jù)治理燃乍,另一方面唆樊,數(shù)據(jù)治理政策也對人工智能發(fā)展發(fā)揮著重要的影響。
號稱歐盟“史上最嚴(yán)”的數(shù)據(jù)保護(hù)法規(guī)刻蟹,備受關(guān)注的《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation逗旁,GDPR)于2018年5月25日正式生效。GDPR適用地域范圍不僅限于歐盟境內(nèi)舆瘪,也適用于提供業(yè)務(wù)給歐盟境內(nèi)個人的境外組織機構(gòu)片效;同時,GDPR在全面加強個人信息保護(hù)英古、強調(diào)用戶知情權(quán)淀衣、訪問權(quán)和被遺忘權(quán)的同時,對相關(guān)組織機構(gòu)提出更為嚴(yán)格的合規(guī)要求召调,違反者會被處以最高罰沒其全球營業(yè)額的4%或2千萬歐元膨桥。根據(jù)GDPR條例,個人消費者可以享有更多個人數(shù)據(jù)隱私權(quán)力唠叛。同時只嚣,GDPR也會對國內(nèi)互聯(lián)網(wǎng)及商業(yè)科技公司會產(chǎn)生長遠(yuǎn)的影響∫照樱可以斷定册舞,GDPR對基于個人信息搜集和隱私驅(qū)動的國內(nèi)互聯(lián)網(wǎng)產(chǎn)業(yè)收入模式必將產(chǎn)生重大甚至可能是顛覆性的影響。
此外障般,我國對個人信息保護(hù)方面调鲸,《信息安全技術(shù)個人信息安全規(guī)范》于2018年5月1日的正式實施,已經(jīng)對我國科技公司產(chǎn)生了實質(zhì)性的影響剩拢。過去這些年线得,我國大型科技企業(yè)在人工智能領(lǐng)域取得了突飛猛進(jìn)的發(fā)展,這些企業(yè)通過使用消費者數(shù)據(jù)徐伐,提供了智能化服務(wù)便利性的同時贯钩,在保護(hù)消費者數(shù)據(jù)隱私權(quán)方面做得還很不到位。
未來办素,以歐盟為代表的個人數(shù)據(jù)隱私權(quán)監(jiān)管機構(gòu)角雷,根據(jù)GDPR等數(shù)據(jù)保護(hù)法規(guī),隨時可能對違規(guī)企業(yè)進(jìn)行處罰性穿。在這種環(huán)境下勺三,開展數(shù)據(jù)治理,以及對數(shù)據(jù)治理的政策研究和應(yīng)對需曾,將成為企業(yè)人工智能技術(shù)應(yīng)用過程中亟待解決的重大問題吗坚。
*??? *???*
隨著數(shù)字時代的到來祈远,數(shù)據(jù)治理和人工智能研究研發(fā)的關(guān)系日漸緊密。近年來商源,一些互聯(lián)網(wǎng)企業(yè)在享受人工智能技術(shù)紅利的同時车份,存在數(shù)據(jù)認(rèn)知不清、數(shù)據(jù)治理不當(dāng)牡彻、客戶隱私數(shù)據(jù)使用不合規(guī)等現(xiàn)象扫沼,出現(xiàn)了不少負(fù)面事件。要防止大數(shù)據(jù)和人工智能的濫用和失控庄吼,應(yīng)該從人工智能的源頭——大數(shù)據(jù)上開始建立科學(xué)的數(shù)據(jù)治理體系缎除,包括數(shù)據(jù)的質(zhì)量規(guī)范、制度政策总寻、管理流程器罐、職責(zé)定位和技術(shù)管控工具。數(shù)據(jù)治理體系是對商業(yè)價值和用戶隱私废菱,以及企業(yè)長期利益和短期利益選擇的基礎(chǔ)技矮,建立數(shù)據(jù)治理體系是一個長期的過程,對于大型科技企業(yè)殊轴,都應(yīng)當(dāng)在數(shù)據(jù)治理的規(guī)范和約束下應(yīng)用大數(shù)據(jù)衰倦,挖掘數(shù)據(jù)資產(chǎn)價值,提供人工智能服務(wù)旁理。
數(shù)據(jù)治理是人工智能的基礎(chǔ)樊零,數(shù)據(jù)治理的目的是在業(yè)務(wù)價值驅(qū)動下提供高質(zhì)量的大數(shù)據(jù),而人工智能本身是大數(shù)據(jù)應(yīng)用的一種商業(yè)模式孽文,數(shù)據(jù)治理和人工智能就好比一枚硬幣的正反面一樣密不可分驻襟,兩者的有機結(jié)合驅(qū)動兩大行業(yè)的升級,助力我們邁入一個更加美好的數(shù)字化時代芋哭。
來源:中國信息產(chǎn)業(yè)網(wǎng)