大數(shù)據(jù)面臨的技術(shù)挑戰(zhàn)

圖片發(fā)自簡(jiǎn)書App

上周在大數(shù)據(jù)的趨勢(shì)和特點(diǎn)中蠢护,說到了人類這次面臨的問題不是問題無法解決,而是問題過于復(fù)雜养涮。采用機(jī)械思維葵硕,其速度和效率已經(jīng)趕不上新問題的產(chǎn)生。正是在這種分工越來越細(xì)贯吓,協(xié)作越來越緊密懈凹,問題越來越復(fù)雜的背景下,產(chǎn)生了大數(shù)據(jù)思維悄谐。大數(shù)據(jù)思維也由其獨(dú)特的體量大蘸劈、多樣性和完備性,使得過去看來很復(fù)雜很難處理的問題變得可以解決了尊沸。

其實(shí)早在20世紀(jì)60年代就有研究學(xué)者提出采用人工智能的方法來解決社會(huì)問題。當(dāng)時(shí)的人工智能方法還是局限于通過首先了解人類是如何產(chǎn)生智能贤惯,然后讓計(jì)算機(jī)按照人的思路去做洼专。吳軍老師在《智能時(shí)代》中說到:“在人類發(fā)明的歷史上,很多領(lǐng)域早期的嘗試都是模仿人或者動(dòng)物的行為孵构,因?yàn)檫@是我們的直覺最容易想到的方法屁商。” 但是經(jīng)過十幾年的發(fā)展,科學(xué)家們發(fā)現(xiàn)采用上面的思路去發(fā)展人工智能蜡镶,似乎解決不了什么實(shí)際問題雾袱。很多科學(xué)家開始反思人工智能的發(fā)展,而在之后的20年左右的時(shí)間官还,在人工智能學(xué)術(shù)界的研究是處于低谷的芹橡。20世紀(jì)70年代,人類開始嘗試智能的另一條發(fā)展道路望伦,即采用數(shù)據(jù)驅(qū)動(dòng)和超級(jí)計(jì)算的方法林说。即便在10年前,那時(shí)我還在念書屯伞,也曾接觸過人工神經(jīng)網(wǎng)絡(luò)算法腿箩。很顯然,當(dāng)時(shí)對(duì)機(jī)器智能的概念大家都還是比較模糊的劣摇,人工智能也還沒有被我們提高到現(xiàn)在的高度珠移。

機(jī)器智能的概念在60多年就被提出來了,真正的突破卻在具有了大數(shù)據(jù)的今天末融。為什么大數(shù)據(jù)的拐點(diǎn)會(huì)發(fā)生在今天钧惧?大數(shù)據(jù)到底面臨何種技術(shù)挑戰(zhàn)?

過去的10年滑潘,最容易看到的特征就是全球數(shù)據(jù)量呈爆炸式增長(zhǎng)垢乙。大數(shù)據(jù)的第一個(gè)來源是電腦本身;第二個(gè)來源是傳感器语卤;第三個(gè)來源是將那些過去已經(jīng)存在的追逮、以非數(shù)字化形式儲(chǔ)存的信息數(shù)字化。據(jù)2015年思科公司的統(tǒng)計(jì)數(shù)據(jù)顯示粹舵,從2009~2015年的6年時(shí)間內(nèi)钮孵,企業(yè)級(jí)數(shù)據(jù)增長(zhǎng)了50倍。當(dāng)然數(shù)據(jù)的爆炸式增長(zhǎng)眼滤,離不開電腦硬件巴席、軟件、互聯(lián)網(wǎng)诅需、數(shù)據(jù)儲(chǔ)存漾唉、數(shù)據(jù)處理等一系列配套技術(shù)的發(fā)展和支撐。大數(shù)據(jù)實(shí)際上是對(duì)計(jì)算機(jī)科學(xué)堰塌、電機(jī)工程赵刑、通信、應(yīng)用數(shù)學(xué)和認(rèn)知科學(xué)發(fā)展的一個(gè)綜合考量场刑。目前這些技術(shù)難題不一定有最佳的解決方案般此,甚至不存在什么絕對(duì)好的解決辦法。

一、數(shù)據(jù)收集

傳統(tǒng)的數(shù)據(jù)方法常常是先有一個(gè)目的铐懊,然后開始收集數(shù)據(jù)邀桑。比如,海王星的發(fā)現(xiàn)就是在人們發(fā)現(xiàn)天王星運(yùn)動(dòng)軌跡和牛頓力學(xué)預(yù)測(cè)出來的不一樣之后科乎,天文學(xué)家拍了很多星空的照片后發(fā)現(xiàn)的壁畸;心理學(xué)研究也是在有了一個(gè)明確的研究課題后,再通過實(shí)驗(yàn)的方法采集數(shù)據(jù)喜喂,如 “棉花糖測(cè)驗(yàn)”系列實(shí)驗(yàn)瓤摧,以及關(guān)于認(rèn)知失調(diào)的“追隨者案例”等等。大數(shù)據(jù)則避免了采樣之苦玉吁,因?yàn)榇髷?shù)據(jù)常常以全集(大數(shù)據(jù)的特征之一)作為樣本集照弥。

但是,如何收集到全集就是一件很有挑戰(zhàn)的事情了进副。目前一些聰明公司这揣,比如Google, Facebook, 百度,京東都是繞一個(gè)彎子影斑,間接地去收集數(shù)據(jù)给赞,然后利用數(shù)據(jù)的相關(guān)性,導(dǎo)出自己想要的結(jié)論矫户。但是即便是這些如此成功的公司片迅,仍然也有很多失敗的案例。2010年皆辽,Google推出了自己的電視機(jī)頂盒Google TV柑蛇,為了獲取數(shù)據(jù)為進(jìn)入電視廣告做準(zhǔn)備。但是驱闷,由于Google TV銷售得很差耻台,最終Google徹底地放棄了這產(chǎn)品。到目前為止空另,無論是Google過去的機(jī)頂盒盆耽,還是后來的Chromecast,蘋果的Apple TV扼菠,除了統(tǒng)計(jì)一下收視率摄杂,計(jì)算一下可能的廣告觀眾,并沒有什么大的作為循榆。數(shù)據(jù)收集是一個(gè)開放性的話題匙姜,不存在唯一性或最佳方法,目前仍然面臨著很大的挑戰(zhàn)冯痢。

二、數(shù)據(jù)儲(chǔ)存

僅Google街景地圖每天產(chǎn)生的數(shù)據(jù)量就有1TB,假如一份數(shù)據(jù)存三個(gè)拷貝浦楣,一年下來就1PB袖肥。即使使用當(dāng)今最大容量的10TB硬盤,也需要用100個(gè)振劳。因此椎组,不能簡(jiǎn)單地依靠設(shè)備來解決數(shù)據(jù)儲(chǔ)存的問題,而是需要技術(shù)解決方案來提高儲(chǔ)存效率历恐,保證不斷產(chǎn)生出來的數(shù)據(jù)都能存得下寸癌。目前的數(shù)據(jù)儲(chǔ)存手段主要是從如下2個(gè)方面考慮:去除數(shù)據(jù)冗余和便于使用。去除數(shù)據(jù)冗余可以簡(jiǎn)單理解為去除數(shù)據(jù)中的重復(fù)部分弱贼,比如同一份附件在所有的郵件中只儲(chǔ)存一次蒸苇。這樣,在去除數(shù)據(jù)冗余的過程中吮旅,相應(yīng)的數(shù)據(jù)讀寫處理就要改變溪烤。是否有比現(xiàn)在更有效率的儲(chǔ)存格式或方式,仍然是大數(shù)據(jù)所面臨的挑戰(zhàn)庇勃。另外檬嘀,便于使用的思路是從使用者的角度就去考慮數(shù)據(jù)的儲(chǔ)存。大數(shù)據(jù)之前责嚷,數(shù)據(jù)在設(shè)計(jì)文件系統(tǒng)的數(shù)據(jù)儲(chǔ)存格式時(shí)鸳兽,主要考慮的是規(guī)模小、維度少的結(jié)構(gòu)化數(shù)據(jù)罕拂。到了大數(shù)據(jù)時(shí)代揍异,不僅數(shù)據(jù)量和維度都劇增,而且大數(shù)據(jù)在形式上也沒有固定模式聂受,因此需要重新設(shè)計(jì)通用蒿秦、有效和便捷的數(shù)據(jù)表示方式和儲(chǔ)存方式。

三蛋济、數(shù)據(jù)處理

大數(shù)據(jù)由于體量大棍鳖、維度多,處理起來計(jì)算量巨大碗旅,其處理效率是一大技術(shù)挑戰(zhàn)渡处。并行計(jì)算是目前解決計(jì)算量巨大的重要手段,但仍然存在一些的問題祟辟。例如医瘫,任何一個(gè)問題總用一部分計(jì)算是無法并行計(jì)算的,這類計(jì)算占比越大旧困,并行處理的效率就越低醇份;再次稼锅,并行計(jì)算中無法保證每一個(gè)小任務(wù)的計(jì)算量是相同的,這樣一來僚纷,并行計(jì)算的效率也會(huì)大打折扣矩距,即完成了自己計(jì)算任務(wù)的服務(wù)器需要等待個(gè)別尚未完成的服務(wù)器,最終的計(jì)算速度取決于最后完成的子任務(wù)怖竭。

四锥债、數(shù)據(jù)挖掘

如何從一堆雜亂無章的數(shù)據(jù)中挖掘出有價(jià)值的信息,是機(jī)器智能的關(guān)鍵痊臭,也是大數(shù)據(jù)的使命哮肚。數(shù)據(jù)在進(jìn)行降噪處理之后,基本就可以直接使用了广匙,接下來的關(guān)鍵一步就是機(jī)器學(xué)習(xí)允趟。目前廣泛使用的機(jī)器學(xué)習(xí)算法有人工神經(jīng)網(wǎng)絡(luò)算法、最大熵模型艇潭、邏輯自回歸等拼窥。Google公司的AlphaGo的訓(xùn)練算法就是人工神經(jīng)網(wǎng)絡(luò)。機(jī)器學(xué)習(xí)的過程是一個(gè)不斷迭代蹋凝、不斷進(jìn)化的過程鲁纠,只要事先定出一個(gè)目前,這些算法就會(huì)不斷地優(yōu)化模型鳍寂,讓它越來越接近真實(shí)的情況改含。尋找更優(yōu)算法一直也是科學(xué)家們探索的難題。

五迄汛、數(shù)據(jù)安全

大數(shù)據(jù)應(yīng)用的一個(gè)挑戰(zhàn)還來自數(shù)據(jù)安全的擔(dān)憂和對(duì)隱私的訴求捍壤。2014年爆出的索尼公司丟失數(shù)據(jù)時(shí),造成的損失高達(dá)1億美元鞍爱。比商業(yè)數(shù)據(jù)丟失后損失更大的是醫(yī)療數(shù)據(jù)的被盜鹃觉。在中國(guó),除了在北京建立了大數(shù)據(jù)中心睹逃,還在貴陽(yáng)建立了大數(shù)據(jù)災(zāi)備中心盗扇,而且正籌備在內(nèi)蒙古再建立另一個(gè)數(shù)據(jù)災(zāi)備中心。而關(guān)于數(shù)據(jù)隱私沉填,我想大家應(yīng)該是深有感觸疗隶,由于信息泄露而帶來的騷擾電話以及電信詐騙,就發(fā)生在我們每個(gè)人身上翼闹。據(jù)《智能時(shí)代》中記載:“在美國(guó)的黑市上斑鼻,一個(gè)醫(yī)療記錄的賣家是商業(yè)數(shù)據(jù)的50倍左右”×攒可見坚弱,數(shù)據(jù)安全已然成為大數(shù)據(jù)發(fā)展的一大隱患和難題蜀备。

上述大數(shù)據(jù)5個(gè)方面的技術(shù)挑戰(zhàn)并不是獨(dú)立的,而是相輔相成史汗、互相影響的琼掠。關(guān)于大數(shù)據(jù)的技術(shù)挑戰(zhàn)在此僅談?wù)剛€(gè)人的一點(diǎn)認(rèn)識(shí),希望對(duì)大家在這方面的思考有所幫助停撞。下周我們繼續(xù)聊,大數(shù)據(jù)給我們帶來便利以及隱患悼瓮。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末戈毒,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子横堡,更是在濱河造成了極大的恐慌埋市,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,509評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件命贴,死亡現(xiàn)場(chǎng)離奇詭異道宅,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)胸蛛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門污茵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人葬项,你說我怎么就攤上這事泞当。” “怎么了民珍?”我有些...
    開封第一講書人閱讀 163,875評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵襟士,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我嚷量,道長(zhǎng)陋桂,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,441評(píng)論 1 293
  • 正文 為了忘掉前任蝶溶,我火速辦了婚禮嗜历,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘身坐。我一直安慰自己秸脱,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,488評(píng)論 6 392
  • 文/花漫 我一把揭開白布部蛇。 她就那樣靜靜地躺著摊唇,像睡著了一般。 火紅的嫁衣襯著肌膚如雪涯鲁。 梳的紋絲不亂的頭發(fā)上巷查,一...
    開封第一講書人閱讀 51,365評(píng)論 1 302
  • 那天有序,我揣著相機(jī)與錄音,去河邊找鬼岛请。 笑死旭寿,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的崇败。 我是一名探鬼主播盅称,決...
    沈念sama閱讀 40,190評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼后室!你這毒婦竟也來了缩膝?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,062評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤岸霹,失蹤者是張志新(化名)和其女友劉穎疾层,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贡避,經(jīng)...
    沈念sama閱讀 45,500評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡痛黎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,706評(píng)論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了刮吧。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片湖饱。...
    茶點(diǎn)故事閱讀 39,834評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖皇筛,靈堂內(nèi)的尸體忽然破棺而出琉历,到底是詐尸還是另有隱情,我是刑警寧澤水醋,帶...
    沈念sama閱讀 35,559評(píng)論 5 345
  • 正文 年R本政府宣布旗笔,位于F島的核電站,受9級(jí)特大地震影響拄踪,放射性物質(zhì)發(fā)生泄漏蝇恶。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,167評(píng)論 3 328
  • 文/蒙蒙 一惶桐、第九天 我趴在偏房一處隱蔽的房頂上張望撮弧。 院中可真熱鬧,春花似錦姚糊、人聲如沸贿衍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)贸辈。三九已至,卻和暖如春肠槽,著一層夾襖步出監(jiān)牢的瞬間擎淤,已是汗流浹背奢啥。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留嘴拢,地道東北人桩盲。 一個(gè)月前我還...
    沈念sama閱讀 47,958評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像席吴,于是被迫代替她去往敵國(guó)和親赌结。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,779評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容