上周在大數(shù)據(jù)的趨勢(shì)和特點(diǎn)中蠢护,說到了人類這次面臨的問題不是問題無法解決,而是問題過于復(fù)雜养涮。采用機(jī)械思維葵硕,其速度和效率已經(jīng)趕不上新問題的產(chǎn)生。正是在這種分工越來越細(xì)贯吓,協(xié)作越來越緊密懈凹,問題越來越復(fù)雜的背景下,產(chǎn)生了大數(shù)據(jù)思維悄谐。大數(shù)據(jù)思維也由其獨(dú)特的體量大蘸劈、多樣性和完備性,使得過去看來很復(fù)雜很難處理的問題變得可以解決了尊沸。
其實(shí)早在20世紀(jì)60年代就有研究學(xué)者提出采用人工智能的方法來解決社會(huì)問題。當(dāng)時(shí)的人工智能方法還是局限于通過首先了解人類是如何產(chǎn)生智能贤惯,然后讓計(jì)算機(jī)按照人的思路去做洼专。吳軍老師在《智能時(shí)代》中說到:“在人類發(fā)明的歷史上,很多領(lǐng)域早期的嘗試都是模仿人或者動(dòng)物的行為孵构,因?yàn)檫@是我們的直覺最容易想到的方法屁商。” 但是經(jīng)過十幾年的發(fā)展,科學(xué)家們發(fā)現(xiàn)采用上面的思路去發(fā)展人工智能蜡镶,似乎解決不了什么實(shí)際問題雾袱。很多科學(xué)家開始反思人工智能的發(fā)展,而在之后的20年左右的時(shí)間官还,在人工智能學(xué)術(shù)界的研究是處于低谷的芹橡。20世紀(jì)70年代,人類開始嘗試智能的另一條發(fā)展道路望伦,即采用數(shù)據(jù)驅(qū)動(dòng)和超級(jí)計(jì)算的方法林说。即便在10年前,那時(shí)我還在念書屯伞,也曾接觸過人工神經(jīng)網(wǎng)絡(luò)算法腿箩。很顯然,當(dāng)時(shí)對(duì)機(jī)器智能的概念大家都還是比較模糊的劣摇,人工智能也還沒有被我們提高到現(xiàn)在的高度珠移。
機(jī)器智能的概念在60多年就被提出來了,真正的突破卻在具有了大數(shù)據(jù)的今天末融。為什么大數(shù)據(jù)的拐點(diǎn)會(huì)發(fā)生在今天钧惧?大數(shù)據(jù)到底面臨何種技術(shù)挑戰(zhàn)?
過去的10年滑潘,最容易看到的特征就是全球數(shù)據(jù)量呈爆炸式增長(zhǎng)垢乙。大數(shù)據(jù)的第一個(gè)來源是電腦本身;第二個(gè)來源是傳感器语卤;第三個(gè)來源是將那些過去已經(jīng)存在的追逮、以非數(shù)字化形式儲(chǔ)存的信息數(shù)字化。據(jù)2015年思科公司的統(tǒng)計(jì)數(shù)據(jù)顯示粹舵,從2009~2015年的6年時(shí)間內(nèi)钮孵,企業(yè)級(jí)數(shù)據(jù)增長(zhǎng)了50倍。當(dāng)然數(shù)據(jù)的爆炸式增長(zhǎng)眼滤,離不開電腦硬件巴席、軟件、互聯(lián)網(wǎng)诅需、數(shù)據(jù)儲(chǔ)存漾唉、數(shù)據(jù)處理等一系列配套技術(shù)的發(fā)展和支撐。大數(shù)據(jù)實(shí)際上是對(duì)計(jì)算機(jī)科學(xué)堰塌、電機(jī)工程赵刑、通信、應(yīng)用數(shù)學(xué)和認(rèn)知科學(xué)發(fā)展的一個(gè)綜合考量场刑。目前這些技術(shù)難題不一定有最佳的解決方案般此,甚至不存在什么絕對(duì)好的解決辦法。
一、數(shù)據(jù)收集
傳統(tǒng)的數(shù)據(jù)方法常常是先有一個(gè)目的铐懊,然后開始收集數(shù)據(jù)邀桑。比如,海王星的發(fā)現(xiàn)就是在人們發(fā)現(xiàn)天王星運(yùn)動(dòng)軌跡和牛頓力學(xué)預(yù)測(cè)出來的不一樣之后科乎,天文學(xué)家拍了很多星空的照片后發(fā)現(xiàn)的壁畸;心理學(xué)研究也是在有了一個(gè)明確的研究課題后,再通過實(shí)驗(yàn)的方法采集數(shù)據(jù)喜喂,如 “棉花糖測(cè)驗(yàn)”系列實(shí)驗(yàn)瓤摧,以及關(guān)于認(rèn)知失調(diào)的“追隨者案例”等等。大數(shù)據(jù)則避免了采樣之苦玉吁,因?yàn)榇髷?shù)據(jù)常常以全集(大數(shù)據(jù)的特征之一)作為樣本集照弥。
但是,如何收集到全集就是一件很有挑戰(zhàn)的事情了进副。目前一些聰明公司这揣,比如Google, Facebook, 百度,京東都是繞一個(gè)彎子影斑,間接地去收集數(shù)據(jù)给赞,然后利用數(shù)據(jù)的相關(guān)性,導(dǎo)出自己想要的結(jié)論矫户。但是即便是這些如此成功的公司片迅,仍然也有很多失敗的案例。2010年皆辽,Google推出了自己的電視機(jī)頂盒Google TV柑蛇,為了獲取數(shù)據(jù)為進(jìn)入電視廣告做準(zhǔn)備。但是驱闷,由于Google TV銷售得很差耻台,最終Google徹底地放棄了這產(chǎn)品。到目前為止空另,無論是Google過去的機(jī)頂盒盆耽,還是后來的Chromecast,蘋果的Apple TV扼菠,除了統(tǒng)計(jì)一下收視率摄杂,計(jì)算一下可能的廣告觀眾,并沒有什么大的作為循榆。數(shù)據(jù)收集是一個(gè)開放性的話題匙姜,不存在唯一性或最佳方法,目前仍然面臨著很大的挑戰(zhàn)冯痢。
二、數(shù)據(jù)儲(chǔ)存
僅Google街景地圖每天產(chǎn)生的數(shù)據(jù)量就有1TB,假如一份數(shù)據(jù)存三個(gè)拷貝浦楣,一年下來就1PB袖肥。即使使用當(dāng)今最大容量的10TB硬盤,也需要用100個(gè)振劳。因此椎组,不能簡(jiǎn)單地依靠設(shè)備來解決數(shù)據(jù)儲(chǔ)存的問題,而是需要技術(shù)解決方案來提高儲(chǔ)存效率历恐,保證不斷產(chǎn)生出來的數(shù)據(jù)都能存得下寸癌。目前的數(shù)據(jù)儲(chǔ)存手段主要是從如下2個(gè)方面考慮:去除數(shù)據(jù)冗余和便于使用。去除數(shù)據(jù)冗余可以簡(jiǎn)單理解為去除數(shù)據(jù)中的重復(fù)部分弱贼,比如同一份附件在所有的郵件中只儲(chǔ)存一次蒸苇。這樣,在去除數(shù)據(jù)冗余的過程中吮旅,相應(yīng)的數(shù)據(jù)讀寫處理就要改變溪烤。是否有比現(xiàn)在更有效率的儲(chǔ)存格式或方式,仍然是大數(shù)據(jù)所面臨的挑戰(zhàn)庇勃。另外檬嘀,便于使用的思路是從使用者的角度就去考慮數(shù)據(jù)的儲(chǔ)存。大數(shù)據(jù)之前责嚷,數(shù)據(jù)在設(shè)計(jì)文件系統(tǒng)的數(shù)據(jù)儲(chǔ)存格式時(shí)鸳兽,主要考慮的是規(guī)模小、維度少的結(jié)構(gòu)化數(shù)據(jù)罕拂。到了大數(shù)據(jù)時(shí)代揍异,不僅數(shù)據(jù)量和維度都劇增,而且大數(shù)據(jù)在形式上也沒有固定模式聂受,因此需要重新設(shè)計(jì)通用蒿秦、有效和便捷的數(shù)據(jù)表示方式和儲(chǔ)存方式。
三蛋济、數(shù)據(jù)處理
大數(shù)據(jù)由于體量大棍鳖、維度多,處理起來計(jì)算量巨大碗旅,其處理效率是一大技術(shù)挑戰(zhàn)渡处。并行計(jì)算是目前解決計(jì)算量巨大的重要手段,但仍然存在一些的問題祟辟。例如医瘫,任何一個(gè)問題總用一部分計(jì)算是無法并行計(jì)算的,這類計(jì)算占比越大旧困,并行處理的效率就越低醇份;再次稼锅,并行計(jì)算中無法保證每一個(gè)小任務(wù)的計(jì)算量是相同的,這樣一來僚纷,并行計(jì)算的效率也會(huì)大打折扣矩距,即完成了自己計(jì)算任務(wù)的服務(wù)器需要等待個(gè)別尚未完成的服務(wù)器,最終的計(jì)算速度取決于最后完成的子任務(wù)怖竭。
四锥债、數(shù)據(jù)挖掘
如何從一堆雜亂無章的數(shù)據(jù)中挖掘出有價(jià)值的信息,是機(jī)器智能的關(guān)鍵痊臭,也是大數(shù)據(jù)的使命哮肚。數(shù)據(jù)在進(jìn)行降噪處理之后,基本就可以直接使用了广匙,接下來的關(guān)鍵一步就是機(jī)器學(xué)習(xí)允趟。目前廣泛使用的機(jī)器學(xué)習(xí)算法有人工神經(jīng)網(wǎng)絡(luò)算法、最大熵模型艇潭、邏輯自回歸等拼窥。Google公司的AlphaGo的訓(xùn)練算法就是人工神經(jīng)網(wǎng)絡(luò)。機(jī)器學(xué)習(xí)的過程是一個(gè)不斷迭代蹋凝、不斷進(jìn)化的過程鲁纠,只要事先定出一個(gè)目前,這些算法就會(huì)不斷地優(yōu)化模型鳍寂,讓它越來越接近真實(shí)的情況改含。尋找更優(yōu)算法一直也是科學(xué)家們探索的難題。
五迄汛、數(shù)據(jù)安全
大數(shù)據(jù)應(yīng)用的一個(gè)挑戰(zhàn)還來自數(shù)據(jù)安全的擔(dān)憂和對(duì)隱私的訴求捍壤。2014年爆出的索尼公司丟失數(shù)據(jù)時(shí),造成的損失高達(dá)1億美元鞍爱。比商業(yè)數(shù)據(jù)丟失后損失更大的是醫(yī)療數(shù)據(jù)的被盜鹃觉。在中國(guó),除了在北京建立了大數(shù)據(jù)中心睹逃,還在貴陽(yáng)建立了大數(shù)據(jù)災(zāi)備中心盗扇,而且正籌備在內(nèi)蒙古再建立另一個(gè)數(shù)據(jù)災(zāi)備中心。而關(guān)于數(shù)據(jù)隱私沉填,我想大家應(yīng)該是深有感觸疗隶,由于信息泄露而帶來的騷擾電話以及電信詐騙,就發(fā)生在我們每個(gè)人身上翼闹。據(jù)《智能時(shí)代》中記載:“在美國(guó)的黑市上斑鼻,一個(gè)醫(yī)療記錄的賣家是商業(yè)數(shù)據(jù)的50倍左右”×攒可見坚弱,數(shù)據(jù)安全已然成為大數(shù)據(jù)發(fā)展的一大隱患和難題蜀备。
上述大數(shù)據(jù)5個(gè)方面的技術(shù)挑戰(zhàn)并不是獨(dú)立的,而是相輔相成史汗、互相影響的琼掠。關(guān)于大數(shù)據(jù)的技術(shù)挑戰(zhàn)在此僅談?wù)剛€(gè)人的一點(diǎn)認(rèn)識(shí),希望對(duì)大家在這方面的思考有所幫助停撞。下周我們繼續(xù)聊,大數(shù)據(jù)給我們帶來便利以及隱患悼瓮。