大數(shù)據(jù)技術(shù)面臨的挑戰(zhàn)

大數(shù)據(jù)時(shí)代的數(shù)據(jù)存在如下幾個(gè)特點(diǎn):多源異構(gòu)霸褒、分布廣泛馅扣、動(dòng)態(tài)增長(zhǎng)、先有數(shù)據(jù)后有模式娘侍。

正是這些與傳統(tǒng)數(shù)據(jù)管理迥然不同的特點(diǎn)咖刃,使得大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理面臨新的挑戰(zhàn)。

大數(shù)據(jù)技術(shù)面臨的挑戰(zhàn)

1. 數(shù)據(jù)集成的挑戰(zhàn)

數(shù)據(jù)集成的挑戰(zhàn)主要有兩個(gè)方面:

(1)廣泛的異構(gòu)性:①數(shù)據(jù)類型從以結(jié)構(gòu)化數(shù)據(jù)為主轉(zhuǎn)向結(jié)構(gòu)化憾筏、半結(jié)構(gòu)化嚎杨、非結(jié)構(gòu)化三者的融合。②數(shù)據(jù)產(chǎn)生方式的多樣性帶來(lái)的數(shù)據(jù)源變化氧腰。

(2)數(shù)據(jù)質(zhì)量:數(shù)據(jù)量大不一定就代表信息量或者數(shù)據(jù)價(jià)值的增大枫浙,相反很多時(shí)候意味著信息垃圾的泛濫刨肃。

2. 數(shù)據(jù)分析的挑戰(zhàn)

隨著大數(shù)據(jù)時(shí)代的到來(lái),半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的迅猛增長(zhǎng)箩帚,給傳統(tǒng)的分析技術(shù)帶來(lái)了巨大的沖擊和挑戰(zhàn)真友,主要體現(xiàn)在:

(1)數(shù)據(jù)處理的實(shí)時(shí)性:隨著時(shí)間的流逝,數(shù)據(jù)中所蘊(yùn)含的知識(shí)價(jià)值往往也在衰減紧帕,因此很多領(lǐng)域?qū)τ跀?shù)據(jù)的實(shí)時(shí)處理有需求盔然。在實(shí)時(shí)處理的模式選擇中,主要有三種思路:即流處理模式是嗜、批處理模式以及二者的融合愈案。雖然已有的研究成果很多,但仍未有一個(gè)通用的大數(shù)據(jù)實(shí)時(shí)處理框架鹅搪。

(2)動(dòng)態(tài)變化環(huán)境中索引的設(shè)計(jì):關(guān)系數(shù)據(jù)庫(kù)中的索引能夠加速查詢速率站绪,但是傳統(tǒng)數(shù)據(jù)管理中的模式基本不會(huì)發(fā)生變化,因此在其上構(gòu)建索引主要考慮的是索引創(chuàng)建丽柿、更新的效率等恢准。大數(shù)據(jù)時(shí)代的數(shù)據(jù)模式隨著數(shù)據(jù)量的不斷變化可能會(huì)處于不斷的變化之中,這就要求索引結(jié)構(gòu)的設(shè)計(jì)簡(jiǎn)單航厚、高效顷歌,能夠在數(shù)據(jù)模式發(fā)生變化時(shí)快速調(diào)整并適應(yīng)。目前幔睬,存在一些通過(guò)在NoSQL數(shù)據(jù)庫(kù)上構(gòu)建索引來(lái)應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的一些方案眯漩,但總得來(lái)說(shuō),這些方案基本都有特定的應(yīng)用場(chǎng)景麻顶,且這些場(chǎng)景的數(shù)據(jù)模式不太會(huì)發(fā)生變化赦抖。在數(shù)據(jù)模式變更的假設(shè)前提下設(shè)計(jì)新的索引方案將是大數(shù)據(jù)時(shí)代的主要挑戰(zhàn)之一。

(3)先驗(yàn)知識(shí)的缺乏:傳統(tǒng)分析主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)展開(kāi)辅肾,這些數(shù)據(jù)在以關(guān)系模型進(jìn)行存儲(chǔ)的同時(shí)就隱含了這些數(shù)據(jù)內(nèi)部關(guān)系的先驗(yàn)知識(shí)队萤。比如我們知道所要分析的對(duì)象會(huì)有哪些屬性,通過(guò)屬性我們又能大致了解其可能的取值范圍等矫钓。這些知識(shí)使得我們?cè)跀?shù)據(jù)分析之前就已經(jīng)對(duì)數(shù)據(jù)有了一定的理解要尔。而在面對(duì)大數(shù)據(jù)分析時(shí),一方面是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存在新娜,這些數(shù)據(jù)很難以類似結(jié)構(gòu)化數(shù)據(jù)的方式構(gòu)建出其內(nèi)部的正式關(guān)系赵辕;另一方面很多數(shù)據(jù)以流的形式源源不斷的到來(lái),這些需要實(shí)時(shí)處理的數(shù)據(jù)很難有足夠的時(shí)間去建立先驗(yàn)知識(shí)概龄。

3.數(shù)據(jù)隱私與安全的挑戰(zhàn)

數(shù)據(jù)隱私與安全的挑戰(zhàn)主要有以下幾點(diǎn):

(1)隱形的數(shù)據(jù)暴露:大數(shù)據(jù)時(shí)代的隱私保護(hù)面臨著技術(shù)和人力層面的雙重考驗(yàn)还惠。

(2)數(shù)據(jù)公開(kāi)與隱私保護(hù)的矛盾:如果僅僅為了保護(hù)隱私就將所有的數(shù)據(jù)都加以隱藏,那么數(shù)據(jù)的價(jià)值根本無(wú)法體現(xiàn)私杜。數(shù)據(jù)公開(kāi)是非常有必要的蚕键,大數(shù)據(jù)時(shí)代的隱私性主要體現(xiàn)在不暴露用戶敏感信息的前提下進(jìn)行有效的數(shù)據(jù)挖掘救欧,這有別于傳統(tǒng)的信息安全領(lǐng)域更加關(guān)注文件的私密性等安全屬性。但是數(shù)據(jù)信息量和隱私之間是有矛盾的锣光,Dwork在2006年提出了新的差分隱私方法笆怠。差分隱私保護(hù)技術(shù)可能是解決大數(shù)據(jù)中隱私保護(hù)的一個(gè)方向,但是這項(xiàng)技術(shù)離實(shí)際應(yīng)用還很遠(yuǎn)嫉晶。

(3)數(shù)據(jù)動(dòng)態(tài)性:大數(shù)據(jù)時(shí)代數(shù)據(jù)的快速變化除了要求有新的數(shù)據(jù)處理技術(shù)應(yīng)對(duì)之外骑疆,也給隱私保護(hù)帶來(lái)了新的挑戰(zhàn)。現(xiàn)有隱私保護(hù)技術(shù)主要基于靜態(tài)數(shù)據(jù)集替废,而在現(xiàn)實(shí)中箍铭,數(shù)據(jù)模式和數(shù)據(jù)內(nèi)容時(shí)刻都在發(fā)生著變化,因此在這種更加復(fù)雜的環(huán)境下實(shí)現(xiàn)對(duì)動(dòng)態(tài)數(shù)據(jù)的利用和隱私保護(hù)將更具挑戰(zhàn)椎镣。

4.大數(shù)據(jù)能耗的挑戰(zhàn)

在能源價(jià)格上漲诈火、數(shù)據(jù)中心存儲(chǔ)規(guī)模不斷擴(kuò)大的今天,高耗能已逐漸成為制約大數(shù)據(jù)快速發(fā)展的瓶頸状答。從小型集群到大規(guī)模數(shù)據(jù)中心都面臨著降低能耗的問(wèn)題冷守,但是尚未引起足夠的重視,相關(guān)的研究成果也較少惊科。在大數(shù)據(jù)管理系統(tǒng)中拍摇,能耗主要由兩大部分組成:硬件能耗和軟件能耗,二者之中又以硬件能耗為主馆截。理想狀態(tài)下充活,整個(gè)大數(shù)據(jù)管理系統(tǒng)的能耗應(yīng)該和系統(tǒng)利用率成正比。但是實(shí)際情況并不像預(yù)期情況蜡娶,系統(tǒng)利用率為0的時(shí)候仍然有能量消耗混卵。

從已有的一些研究成果來(lái)看,可以從以下兩個(gè)方面改善大數(shù)據(jù)能耗問(wèn)題:①采用新型低功耗硬件窖张。②引入可再生的新能源幕随。

總結(jié):數(shù)據(jù)集成的挑戰(zhàn)、數(shù)據(jù)分析的挑戰(zhàn)宿接、數(shù)據(jù)隱私與安全的挑戰(zhàn)赘淮、大數(shù)據(jù)能耗的挑戰(zhàn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末睦霎,一起剝皮案震驚了整個(gè)濱河市拥知,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌碎赢,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,265評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件速梗,死亡現(xiàn)場(chǎng)離奇詭異肮塞,居然都是意外死亡襟齿,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門枕赵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)猜欺,“玉大人,你說(shuō)我怎么就攤上這事拷窜】螅” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 156,852評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵篮昧,是天一觀的道長(zhǎng)赋荆。 經(jīng)常有香客問(wèn)我,道長(zhǎng)懊昨,這世上最難降的妖魔是什么窄潭? 我笑而不...
    開(kāi)封第一講書人閱讀 56,408評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮酵颁,結(jié)果婚禮上嫉你,老公的妹妹穿的比我還像新娘。我一直安慰自己躏惋,他們只是感情好幽污,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著簿姨,像睡著了一般距误。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上款熬,一...
    開(kāi)封第一講書人閱讀 49,772評(píng)論 1 290
  • 那天深寥,我揣著相機(jī)與錄音,去河邊找鬼贤牛。 笑死惋鹅,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的殉簸。 我是一名探鬼主播闰集,決...
    沈念sama閱讀 38,921評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼般卑!你這毒婦竟也來(lái)了武鲁?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 37,688評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蝠检,失蹤者是張志新(化名)和其女友劉穎沐鼠,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,130評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡饲梭,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評(píng)論 2 325
  • 正文 我和宋清朗相戀三年乘盖,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片憔涉。...
    茶點(diǎn)故事閱讀 38,617評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡订框,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出兜叨,到底是詐尸還是另有隱情穿扳,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評(píng)論 4 329
  • 正文 年R本政府宣布国旷,位于F島的核電站矛物,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏议街。R本人自食惡果不足惜泽谨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望特漩。 院中可真熱鬧吧雹,春花似錦、人聲如沸涂身。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,740評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)蛤售。三九已至丁鹉,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間悴能,已是汗流浹背揣钦。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,967評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留漠酿,地道東北人冯凹。 一個(gè)月前我還...
    沈念sama閱讀 46,315評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像炒嘲,于是被迫代替她去往敵國(guó)和親宇姚。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容