大數(shù)據(jù)時(shí)代的數(shù)據(jù)存在如下幾個(gè)特點(diǎn):多源異構(gòu)霸褒、分布廣泛馅扣、動(dòng)態(tài)增長(zhǎng)、先有數(shù)據(jù)后有模式娘侍。
正是這些與傳統(tǒng)數(shù)據(jù)管理迥然不同的特點(diǎn)咖刃,使得大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理面臨新的挑戰(zhàn)。
1. 數(shù)據(jù)集成的挑戰(zhàn)
數(shù)據(jù)集成的挑戰(zhàn)主要有兩個(gè)方面:
(1)廣泛的異構(gòu)性:①數(shù)據(jù)類型從以結(jié)構(gòu)化數(shù)據(jù)為主轉(zhuǎn)向結(jié)構(gòu)化憾筏、半結(jié)構(gòu)化嚎杨、非結(jié)構(gòu)化三者的融合。②數(shù)據(jù)產(chǎn)生方式的多樣性帶來(lái)的數(shù)據(jù)源變化氧腰。
(2)數(shù)據(jù)質(zhì)量:數(shù)據(jù)量大不一定就代表信息量或者數(shù)據(jù)價(jià)值的增大枫浙,相反很多時(shí)候意味著信息垃圾的泛濫刨肃。
2. 數(shù)據(jù)分析的挑戰(zhàn)
隨著大數(shù)據(jù)時(shí)代的到來(lái),半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的迅猛增長(zhǎng)箩帚,給傳統(tǒng)的分析技術(shù)帶來(lái)了巨大的沖擊和挑戰(zhàn)真友,主要體現(xiàn)在:
(1)數(shù)據(jù)處理的實(shí)時(shí)性:隨著時(shí)間的流逝,數(shù)據(jù)中所蘊(yùn)含的知識(shí)價(jià)值往往也在衰減紧帕,因此很多領(lǐng)域?qū)τ跀?shù)據(jù)的實(shí)時(shí)處理有需求盔然。在實(shí)時(shí)處理的模式選擇中,主要有三種思路:即流處理模式是嗜、批處理模式以及二者的融合愈案。雖然已有的研究成果很多,但仍未有一個(gè)通用的大數(shù)據(jù)實(shí)時(shí)處理框架鹅搪。
(2)動(dòng)態(tài)變化環(huán)境中索引的設(shè)計(jì):關(guān)系數(shù)據(jù)庫(kù)中的索引能夠加速查詢速率站绪,但是傳統(tǒng)數(shù)據(jù)管理中的模式基本不會(huì)發(fā)生變化,因此在其上構(gòu)建索引主要考慮的是索引創(chuàng)建丽柿、更新的效率等恢准。大數(shù)據(jù)時(shí)代的數(shù)據(jù)模式隨著數(shù)據(jù)量的不斷變化可能會(huì)處于不斷的變化之中,這就要求索引結(jié)構(gòu)的設(shè)計(jì)簡(jiǎn)單航厚、高效顷歌,能夠在數(shù)據(jù)模式發(fā)生變化時(shí)快速調(diào)整并適應(yīng)。目前幔睬,存在一些通過(guò)在NoSQL數(shù)據(jù)庫(kù)上構(gòu)建索引來(lái)應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的一些方案眯漩,但總得來(lái)說(shuō),這些方案基本都有特定的應(yīng)用場(chǎng)景麻顶,且這些場(chǎng)景的數(shù)據(jù)模式不太會(huì)發(fā)生變化赦抖。在數(shù)據(jù)模式變更的假設(shè)前提下設(shè)計(jì)新的索引方案將是大數(shù)據(jù)時(shí)代的主要挑戰(zhàn)之一。
(3)先驗(yàn)知識(shí)的缺乏:傳統(tǒng)分析主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)展開(kāi)辅肾,這些數(shù)據(jù)在以關(guān)系模型進(jìn)行存儲(chǔ)的同時(shí)就隱含了這些數(shù)據(jù)內(nèi)部關(guān)系的先驗(yàn)知識(shí)队萤。比如我們知道所要分析的對(duì)象會(huì)有哪些屬性,通過(guò)屬性我們又能大致了解其可能的取值范圍等矫钓。這些知識(shí)使得我們?cè)跀?shù)據(jù)分析之前就已經(jīng)對(duì)數(shù)據(jù)有了一定的理解要尔。而在面對(duì)大數(shù)據(jù)分析時(shí),一方面是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存在新娜,這些數(shù)據(jù)很難以類似結(jié)構(gòu)化數(shù)據(jù)的方式構(gòu)建出其內(nèi)部的正式關(guān)系赵辕;另一方面很多數(shù)據(jù)以流的形式源源不斷的到來(lái),這些需要實(shí)時(shí)處理的數(shù)據(jù)很難有足夠的時(shí)間去建立先驗(yàn)知識(shí)概龄。
3.數(shù)據(jù)隱私與安全的挑戰(zhàn)
數(shù)據(jù)隱私與安全的挑戰(zhàn)主要有以下幾點(diǎn):
(1)隱形的數(shù)據(jù)暴露:大數(shù)據(jù)時(shí)代的隱私保護(hù)面臨著技術(shù)和人力層面的雙重考驗(yàn)还惠。
(2)數(shù)據(jù)公開(kāi)與隱私保護(hù)的矛盾:如果僅僅為了保護(hù)隱私就將所有的數(shù)據(jù)都加以隱藏,那么數(shù)據(jù)的價(jià)值根本無(wú)法體現(xiàn)私杜。數(shù)據(jù)公開(kāi)是非常有必要的蚕键,大數(shù)據(jù)時(shí)代的隱私性主要體現(xiàn)在不暴露用戶敏感信息的前提下進(jìn)行有效的數(shù)據(jù)挖掘救欧,這有別于傳統(tǒng)的信息安全領(lǐng)域更加關(guān)注文件的私密性等安全屬性。但是數(shù)據(jù)信息量和隱私之間是有矛盾的锣光,Dwork在2006年提出了新的差分隱私方法笆怠。差分隱私保護(hù)技術(shù)可能是解決大數(shù)據(jù)中隱私保護(hù)的一個(gè)方向,但是這項(xiàng)技術(shù)離實(shí)際應(yīng)用還很遠(yuǎn)嫉晶。
(3)數(shù)據(jù)動(dòng)態(tài)性:大數(shù)據(jù)時(shí)代數(shù)據(jù)的快速變化除了要求有新的數(shù)據(jù)處理技術(shù)應(yīng)對(duì)之外骑疆,也給隱私保護(hù)帶來(lái)了新的挑戰(zhàn)。現(xiàn)有隱私保護(hù)技術(shù)主要基于靜態(tài)數(shù)據(jù)集替废,而在現(xiàn)實(shí)中箍铭,數(shù)據(jù)模式和數(shù)據(jù)內(nèi)容時(shí)刻都在發(fā)生著變化,因此在這種更加復(fù)雜的環(huán)境下實(shí)現(xiàn)對(duì)動(dòng)態(tài)數(shù)據(jù)的利用和隱私保護(hù)將更具挑戰(zhàn)椎镣。
4.大數(shù)據(jù)能耗的挑戰(zhàn)
在能源價(jià)格上漲诈火、數(shù)據(jù)中心存儲(chǔ)規(guī)模不斷擴(kuò)大的今天,高耗能已逐漸成為制約大數(shù)據(jù)快速發(fā)展的瓶頸状答。從小型集群到大規(guī)模數(shù)據(jù)中心都面臨著降低能耗的問(wèn)題冷守,但是尚未引起足夠的重視,相關(guān)的研究成果也較少惊科。在大數(shù)據(jù)管理系統(tǒng)中拍摇,能耗主要由兩大部分組成:硬件能耗和軟件能耗,二者之中又以硬件能耗為主馆截。理想狀態(tài)下充活,整個(gè)大數(shù)據(jù)管理系統(tǒng)的能耗應(yīng)該和系統(tǒng)利用率成正比。但是實(shí)際情況并不像預(yù)期情況蜡娶,系統(tǒng)利用率為0的時(shí)候仍然有能量消耗混卵。
從已有的一些研究成果來(lái)看,可以從以下兩個(gè)方面改善大數(shù)據(jù)能耗問(wèn)題:①采用新型低功耗硬件窖张。②引入可再生的新能源幕随。
總結(jié):數(shù)據(jù)集成的挑戰(zhàn)、數(shù)據(jù)分析的挑戰(zhàn)宿接、數(shù)據(jù)隱私與安全的挑戰(zhàn)赘淮、大數(shù)據(jù)能耗的挑戰(zhàn)。