1. 前言--人類的勝利
2016年3月12日Alpha Go 3:0 擊敗圍棋冠軍李世石私杜,標(biāo)志著人類開啟了人工智能時(shí)代。Alpha Go的勝利的基礎(chǔ)靠的是大數(shù)據(jù)和機(jī)器學(xué)習(xí)算法琼富,而非采用1997年IBM深藍(lán)戰(zhàn)勝國際象棋冠軍卡斯帕羅夫的邏輯推理方法。
幾十萬盤的高手對(duì)弈數(shù)據(jù) + 將圍棋的當(dāng)前狀態(tài)抽象成獲勝概率的數(shù)學(xué)模型 + 蒙特卡洛樹搜索算法限制搜索空間 + 幾十萬臺(tái)服務(wù)器的模型訓(xùn)練支持。
很多人擔(dān)心未來擁有自我意識(shí)的人工智能會(huì)控制甚至毀滅人類隔披,相當(dāng)一段長的時(shí)間內(nèi)看枢冤,這種擔(dān)心是沒有必要的鸠姨,目前我們對(duì)機(jī)器智能、大腦的工作原理淹真、意識(shí)和情感等方面的認(rèn)識(shí)還十分原始讶迁。雖然不會(huì)被機(jī)器人控制,但98%的人面臨被取代的危險(xiǎn)核蘸,未來只屬于2%的從事創(chuàng)造性勞動(dòng)巍糯,或者控制機(jī)器智能的人,而掌握某種技能客扎、做重復(fù)工作的人終將被淘汰祟峦。
2. 數(shù)據(jù)--人類建造文明的基石
如果我們把資本和機(jī)械動(dòng)能作為全球近代化的推動(dòng)力的話,那么數(shù)據(jù)將成為下一次技術(shù)革命和社會(huì)變革的核心動(dòng)力徙鱼。
數(shù)據(jù)是文明的基石宅楞,人類對(duì)數(shù)據(jù)的認(rèn)識(shí)和利用程度反映了文明的程度。
數(shù)據(jù)和信息不同袱吆,并非所有數(shù)據(jù)都承載有用的信息厌衙。知識(shí)比信息更高一層,也更加抽象杆故,具有系統(tǒng)性的特征迅箩。
- 如測量星球位置的數(shù)據(jù)和對(duì)應(yīng)時(shí)間屬于數(shù)據(jù),從數(shù)據(jù)中得到的行星運(yùn)動(dòng)軌跡為信息处铛,對(duì)信息總結(jié)和抽象得到開普勒定律便是知識(shí)饲趋。
對(duì)自然現(xiàn)象的觀察是早期人類獲得的數(shù)據(jù)的主要方式。
- 如古埃及人靠觀察每年天狼星和太陽同時(shí)出現(xiàn)的位置撤蟆,來判斷節(jié)氣和耕作時(shí)間奕塑,預(yù)測洪水(太陽歷)。
但以前數(shù)據(jù)的作用經(jīng)常被人們忽視:一是因?yàn)檫^去數(shù)據(jù)量不足家肯,而積累大量數(shù)據(jù)所需要的時(shí)間太長龄砰,以至于在較短時(shí)間內(nèi)數(shù)據(jù)的作用不明顯;二是數(shù)據(jù)和所獲得的信息之間的聯(lián)系通常是間接的,信息往往需要通過不同數(shù)據(jù)之間的相關(guān)性才能挖掘换棚。
- 利用相關(guān)性挖掘信息的例子:Google利用2008-09年流行病傳播和各地區(qū)搜索流行病關(guān)鍵詞的關(guān)系式镐,利用非常簡單的線性回歸模型 [1],成功預(yù)測流感等流行到什么地方了固蚤,準(zhǔn)確率高達(dá)97%娘汞;而傳統(tǒng)的收集各地醫(yī)院上報(bào)數(shù)據(jù)的低效率方法(10-14天左右的延遲)比,基于數(shù)據(jù)的簡單模型也能夠有效地防止疫情傳播和擴(kuò)散夕玩。
很多時(shí)候你弦,我們無法直接獲得信息(如疫情傳播情況),但我們可以將相關(guān)聯(lián)的信息(如各地搜索情況)量化燎孟,然后通過數(shù)學(xué)模型禽作,簡潔的獲得所需信息。而各種數(shù)學(xué)模型的基礎(chǔ)則是概率論和統(tǒng)計(jì)學(xué)揩页。要想獲得準(zhǔn)確的統(tǒng)計(jì)結(jié)果旷偿,首先要保證數(shù)據(jù)量充分大,二是選取的樣本要有代表性碍沐。這樣根據(jù)大數(shù)定理和切比雪夫不等式就能保證從樣本中得到的規(guī)律與實(shí)際情況相差不大狸捅。
獲得充足和有代表性的數(shù)據(jù),并且挖掘到了一定的規(guī)律之后累提,我們需要對(duì)數(shù)據(jù)建立定量的數(shù)學(xué)模型尘喝,以便在實(shí)際中應(yīng)用。數(shù)學(xué)建模主要需要解決兩個(gè)問題:1. 選什么樣的模型斋陪;2. 模型的參數(shù)是多少朽褪。
以前往往對(duì)問題建立理想化的精確模型,但由于找模型和選參數(shù)十分困難无虚,需要投入大量時(shí)間和精力缔赠,而且由于現(xiàn)實(shí)世界的復(fù)雜性,模型往往效果不佳∮烟猓現(xiàn)在嗤堰,精確模型越來越被機(jī)器學(xué)習(xí)方法取代,后者在大量數(shù)據(jù)的基礎(chǔ)上度宦,利用若干個(gè)簡單模型取代復(fù)雜模型踢匣,不對(duì)模型做預(yù)先假設(shè),往往能夠得到具有良好預(yù)測效果的模型戈抄。可以說在預(yù)測效果上离唬,數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)模型與精確模型是等效的。這實(shí)際上使用計(jì)算量和數(shù)據(jù)量來換去研究時(shí)間划鸽,大數(shù)據(jù)驅(qū)動(dòng)的方法不僅僅是經(jīng)驗(yàn)論输莺,其正確性在數(shù)學(xué)上是有嚴(yán)格的保障的戚哎。
數(shù)據(jù)驅(qū)動(dòng)的方法,是大數(shù)據(jù)的基礎(chǔ)嫂用,也是智能革命的核心型凳,更重要的是,它帶來了一種新的思維方式尸折。
3. 大數(shù)據(jù)和機(jī)器智能
在有大數(shù)據(jù)之前啰脚,計(jì)算機(jī)并不擅長于解決需要人類智能的問題,但是今天這個(gè)問題換個(gè)思路就可以解決了实夹,其核心就是變智能問題為數(shù)據(jù)問題。由此粒梦,全世界開始了新的一輪技術(shù)革命——智能革命亮航。
1950年,計(jì)算機(jī)科學(xué)奠基人圖靈首次定義機(jī)器智能匀们,即提出了通過圖靈測試來判斷機(jī)器有無智能缴淋。
- 圖靈測試:讓一個(gè)人同時(shí)與坐在幕后的人和機(jī)器同時(shí)交流,如果人無法分辨出自己交流的對(duì)象是機(jī)器還是人類泄朴,證明機(jī)器具有與人類同等的智能重抖。
**人工智能 1.0 **:傳統(tǒng)的人工智能方法的思路是首先了解清楚人類是如何產(chǎn)生智能的,然后讓計(jì)算機(jī)按照人的思路去做祖灰。然而機(jī)器并不需要按照人類的思維方式才能獲得智能钟沛,它有自己的智能方式,重要的能夠解決人腦能解決的問題局扶。
數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法的思想來源:20世紀(jì)80年代恨统,賈里尼克在研究語音識(shí)別問題時(shí),另辟蹊徑采用了基于大量語料數(shù)據(jù)驅(qū)動(dòng)的方法三妈。
4. 思維的革命
在無法確定因果關(guān)系時(shí)畜埋,數(shù)據(jù)為我們提供了解決問題的新方法,數(shù)據(jù)中所包含的信息可以幫助我們消除不確定性畴蒲,而數(shù)據(jù)間的相關(guān)性在某種程度上可以取代原來的因果關(guān)系悠鞍,幫助我們得到問題的答案。這便是大數(shù)據(jù)思維的核心模燥。
思維方式?jīng)Q定科學(xué)成就:從歐幾里得咖祭、托勒密到牛頓
歐洲之所以能在科學(xué)上領(lǐng)先于世界其他地方,主要依靠從古希臘建立起來的思辨的思想和邏輯推理能力涧窒。依靠它們可以從實(shí)踐中總結(jié)出最基本的公理心肪,然后通過因果邏輯構(gòu)建起整個(gè)科學(xué)的大廈。其中最具代表性的就是歐幾里得的幾何學(xué)和托勒密的地心說模型纠吴。
歐幾里得通過5條最簡單明顯的公設(shè)硬鞍,構(gòu)建起公理化幾何學(xué)體系,對(duì)歐洲產(chǎn)生了深遠(yuǎn)影響。例如羅馬法便是借鑒公理化的思路固该,從自然法的公設(shè)出發(fā)構(gòu)建起整個(gè)法律體系锅减。而托勒密的方法論則可以概括為:通過觀察獲得數(shù)學(xué)模型的雛形,然后利用數(shù)據(jù)細(xì)化模型伐坏。但是托勒密方法論的確定性假設(shè)缺陷是致命的怔匣,它假定模型一旦產(chǎn)生就不會(huì)改變,而牛頓時(shí)代的機(jī)械論延續(xù)了這種錯(cuò)誤的先驗(yàn)假設(shè)桦沉。
兩者的核心思想有以下兩點(diǎn):首先每瞒,需要有個(gè)簡單的元模型,這個(gè)模型可能是假設(shè)出來的纯露,然后利用這個(gè)元模型構(gòu)建復(fù)雜模型剿骨。其次,整個(gè)模型要和歷史數(shù)據(jù)相吻合埠褪。
思維方式和方法遠(yuǎn)不如方法論對(duì)科學(xué)的發(fā)展至關(guān)重要浓利,東方文明長期在技術(shù)上領(lǐng)先于西方,但是在科學(xué)體系的建立上遠(yuǎn)遠(yuǎn)落后于西方钞速,關(guān)鍵是輸在方法論上贷掖。
牛頓在《自然哲學(xué)的數(shù)學(xué)原理》中通過幾條簡明的公式,破解了宇宙萬物運(yùn)動(dòng)的規(guī)律渴语,指出任何正確的理論從形式上將都應(yīng)該是簡單的苹威,而且具有良好的通用性,這和東方的大道至簡的思想不謀而合遵班。牛頓的思想和方法論在哲學(xué)上被稱為機(jī)械思維屠升,其核心思想為:
- 世界變化的規(guī)律是確定的,即上帝不擲骰子狭郑。
- 這種確定性的規(guī)律能夠被認(rèn)識(shí)腹暖,而且能被簡單的公式或語言描述清楚。
- 這些規(guī)律應(yīng)該是放之四海而皆準(zhǔn)翰萨,可以應(yīng)用于未知領(lǐng)域的實(shí)踐脏答。
可以說整個(gè)工業(yè)革命都是機(jī)械思維的結(jié)果,都是希望所有問題有一個(gè)通用的解決方法亩鬼,如瓦特的萬用蒸汽機(jī)殖告。而機(jī)械思維更廣泛的影響力是作為一種指導(dǎo)準(zhǔn)則指導(dǎo)人們行為,即人們相信事物的確定性(可預(yù)測性)和因果關(guān)系雳锋。
當(dāng)然黄绩,機(jī)械思維的局限也來自于它否認(rèn)不確定性和不可知性。然而隨著人類對(duì)世界認(rèn)識(shí)的越來越清楚玷过,人們發(fā)現(xiàn)世界本身存在著很大的不確定性爽丹。這種不確定性主要來自兩方面:1. 影響世界的變量非常多筑煮,無法通過簡單的公式算出結(jié)果,比如金融和氣候領(lǐng)域的蝴蝶效應(yīng) 2. 不確定性還來自客觀世界本身粤蝎,它是宇宙的一個(gè)特性真仲,例如量子力學(xué)的測不準(zhǔn)原理。
雖然世界有很多事情是難以用確定公式來描述初澎,但它們并非沒有規(guī)律可循秸应,可以用概率模型來描述和預(yù)測。而概率論和香農(nóng)提出的信息論就是處理不確定問題的新方法碑宴。而信息論中最重要的是熵(Entropy)的概念软啼,即一件事不確定性程度越高,熵就越高延柠;為了消除不確定性焰宣,就要引入更多信息。比如搜索引擎希望猜出用戶的購買興趣捕仔,在用戶沒有任何輸入的時(shí)候,不確定性(熵)最大盈罐,而在用戶輸入大量信息榜跌,獲得用戶的搜索習(xí)慣后,對(duì)用戶猜測的不確定度將大大減少盅粪。
反映在信息時(shí)代就是:誰掌握了信息钓葫,誰就能獲得財(cái)富。
- 例如谷歌獲取和積累了海量的用戶搜索信息票顾,就可以通過少量的廣告精準(zhǔn)投放來獲取可觀收入础浮。
信息論中還有一個(gè)重要概念——互信息(Mutual Information),可以解釋為什么相關(guān)性可以消除不確定性奠骄,用來預(yù)測和解決與數(shù)據(jù)有相關(guān)性的問題豆同。關(guān)于信息論還與一個(gè)必須了解的是最大熵原理,即我們?cè)趯ふ夷P蜁r(shí)含鳞,模型應(yīng)滿足我們所有已經(jīng)看到的數(shù)據(jù)影锈,但不對(duì)未知情況做主觀假設(shè)。
大數(shù)據(jù)的本質(zhì)
大數(shù)據(jù)之所以能在很多重要問題上發(fā)揮作用蝉绷,產(chǎn)生非凡的預(yù)測效果主要有以下本質(zhì)原因:
- 數(shù)據(jù)量大:過去數(shù)據(jù)量積累不夠鸭廷,達(dá)不到大數(shù)定理所要求的量。
- 數(shù)據(jù)的多維度以及維度之間的相關(guān)性:在收集數(shù)據(jù)時(shí)熔吗,我們獲得的是多維的數(shù)據(jù)辆床,比如一個(gè)人的性別,年齡桅狠,收入讼载,消費(fèi)習(xí)慣等等轿秧,基于相關(guān)性和互信息,我們可以利用數(shù)據(jù)對(duì)與數(shù)據(jù)有相關(guān)性的問題進(jìn)行預(yù)測和建模维雇。
- 對(duì)模型不做假設(shè):
- 為了避免出現(xiàn)“黑天鵝效應(yīng)”這種漏網(wǎng)之魚淤刃,大數(shù)據(jù)的完備性保證了訓(xùn)練模型的數(shù)據(jù)能夠覆蓋到真實(shí)世界的極端情況。
大數(shù)據(jù)科學(xué)的基礎(chǔ)是信息論(熵吱型、互信息逸贾、最大熵原理)和統(tǒng)計(jì)學(xué)(大數(shù)定理、切比雪夫不等式)津滞,它的本質(zhì)就是利用信息消除不確定性铝侵。雖然人類使用數(shù)據(jù)和信息由來已久,但是大數(shù)據(jù)時(shí)代触徐,由量變到質(zhì)變咪鲜,使得很多過去困擾大家的問題,今天通過大數(shù)據(jù)迎刃而解撞鹉。
從因果關(guān)系到強(qiáng)相關(guān)關(guān)系
過去我們一直追求一定要找到事情的因果關(guān)系(比如牛頓的萬有引力定律疟丙,愛因斯坦的相對(duì)論),但是對(duì)于復(fù)雜問題鸟雏,其難度非常大享郊,除了需要物質(zhì)條件(設(shè)備、精密儀器孝鹊、材料炊琉、資金)、人們的努力又活,還需要運(yùn)氣苔咪,而牛頓和愛因斯坦都是運(yùn)氣很好的人。找到因果關(guān)系固然好柳骄,但是如果因?yàn)檎也坏揭蚬P(guān)系团赏,我們就不解決問題了,人類的進(jìn)步就會(huì)止步不前夹界。這時(shí)候如果我們敢于跳出機(jī)械思維的追求因果的做法馆里,利用數(shù)據(jù)的強(qiáng)相關(guān)關(guān)系解決問題,我們就開始具有大數(shù)據(jù)思維了可柿。
5. 大數(shù)據(jù)與商業(yè)
實(shí)體店(沃爾瑪)和網(wǎng)上商城(亞馬遜)的對(duì)比:亞馬遜是沃爾瑪最大的競爭對(duì)手鸠踪,雖然在價(jià)格上亞馬遜不占優(yōu)勢,但利用大數(shù)據(jù)針對(duì)性的為用戶推薦商品占到其銷售額的1/3复斥。相比沃爾瑪营密,亞馬遜主要有三大優(yōu)勢:
- 其交易數(shù)據(jù)是即時(shí)而完整的記錄下來的,隨時(shí)可以進(jìn)行分析目锭,而沃爾瑪數(shù)據(jù)則分散在各地评汰,不能即時(shí)分析纷捞。
- 亞馬遜擁有顧客的全面信息,包括所有購物歷史被去,住址等等主儡。
- 任何市場策略,亞馬遜都能馬上進(jìn)行調(diào)整和實(shí)現(xiàn)惨缆,比如臨時(shí)促銷等等糜值。
大數(shù)據(jù)在商業(yè)活動(dòng)中從細(xì)節(jié)到整體,再從整體到細(xì)節(jié)的雙向流動(dòng)坯墨。使得企業(yè)不僅能把握經(jīng)營的每一個(gè)細(xì)節(jié)寂汇,更能對(duì)宏觀商業(yè)情況分析把控,從而有針對(duì)性的改變策略捣染,提升營業(yè)額骄瓣。
- 例:美國絕大多數(shù)酒吧經(jīng)營不超過5年,除了經(jīng)營不善耍攘,更是由于23%的酒被酒保偷喝榕栏,或酒保給朋友提供免費(fèi)或者超量酒飲。避免此問題的傳統(tǒng)方法是老板必須要時(shí)刻在店里盯著蕾各,防止偷喝臼膏。而現(xiàn)在利用RFID技術(shù)(可以追蹤物體位置的一種芯片,應(yīng)用于物聯(lián)網(wǎng)的物流追蹤領(lǐng)域)并對(duì)酒瓶裝上重量傳感器示损,則每次動(dòng)酒以及倒酒的量都會(huì)被記錄下來,和交易記錄匹配嚷硫,從而使得老板即使出門辦事检访,也可以用手機(jī)查看店面的營業(yè)情況,了解經(jīng)營的細(xì)節(jié)仔掸。另外脆贵,大數(shù)據(jù)公司還可以為酒吧提供全地區(qū)酒吧的數(shù)據(jù)分析結(jié)果,作為行業(yè)的宏觀數(shù)據(jù)參考起暮。如從春天到夏天卖氨,啤酒的銷量比葡萄酒上升快,哪些方面占酒吧的支出較大等等负懦,定量的分析避免了傳統(tǒng)的全憑經(jīng)驗(yàn)筒捺,也可以讓經(jīng)營者對(duì)自己的酒吧和行業(yè)有更精準(zhǔn)的了解,制定更科學(xué)的經(jīng)營纸厉、銷售策略系吭。
大數(shù)據(jù)可以幫助制造業(yè)企業(yè)打通與客戶的連接,分析客戶的使用和購買習(xí)慣颗品,省去中間環(huán)節(jié)肯尺,直接向客戶發(fā)布促銷活動(dòng)沃缘,推薦商品等等,避免了由于分銷商则吟、零售商等中間環(huán)節(jié)帶來的利潤抽成和溝通壁壘槐臀。
- 例:格力等傳統(tǒng)制造業(yè)公司的銷售往往都是一錘子買賣,格力將制造的空調(diào)等電器分發(fā)給大區(qū)的大宗分銷商(如華北區(qū))氓仲,分銷商在一級(jí)一級(jí)的向下分發(fā)商品水慨,客戶從最終的零售商購買電器。之后如果不出現(xiàn)質(zhì)量問題寨昙,制造商(格力)和顧客之間就不會(huì)有聯(lián)系讥巡。包括大型的面向企業(yè)的銷售,貨款兩清之后舔哪,賣方對(duì)賣方設(shè)備的使用情況欢顷,需求反饋等等一無所知,必須要等到賣方下次產(chǎn)生購買需求才會(huì)通知生產(chǎn)廠商前來競標(biāo)捉蚤。主動(dòng)的制造商可能會(huì)做一些市場分析抬驴,但缺乏大數(shù)據(jù)的情況下,預(yù)測很難準(zhǔn)確缆巧。而大數(shù)據(jù)時(shí)代布持,格力可以對(duì)智能空調(diào)等加裝各種傳感器,并且開發(fā)控制電器的智能家居APP陕悬,從而記錄用戶的使用習(xí)慣题暖,購買偏好等等。針對(duì)數(shù)據(jù)分析結(jié)果捉超,個(gè)性化的定期向用戶手機(jī)直接推送促銷信息胧卤。
從歷史經(jīng)驗(yàn)上看大數(shù)據(jù)的作用
在歷史上,一項(xiàng)技術(shù)帶動(dòng)整個(gè)社會(huì)變革的事情曾經(jīng)發(fā)生過拼岳,它們通常遵循的模式是:現(xiàn)有產(chǎn)業(yè) + 新技術(shù) = 新產(chǎn)業(yè)枝誊。
例如:
蒸汽機(jī)出現(xiàn)后變革了很多產(chǎn)業(yè),即 現(xiàn)有產(chǎn)業(yè) + 蒸汽機(jī)= 新產(chǎn)業(yè):
蒸汽機(jī)+傳統(tǒng)家庭紡織作坊 = 大型紡織廠惜纸;
蒸汽機(jī) + 傳統(tǒng)帆船 = 巨型輪船引導(dǎo)的海上運(yùn)輸業(yè)叶撒,大帆船退出歷史舞臺(tái)。
蒸汽機(jī) + 車輪 = 火車耐版,取代馬車更為貨運(yùn)和客運(yùn)的高效運(yùn)輸工具祠够。19世紀(jì),電的應(yīng)用除了取代蒸汽機(jī)作為動(dòng)力源粪牲,也催生了很多新產(chǎn)業(yè)哪审,即** 現(xiàn)有產(chǎn)業(yè) + 電 = 新產(chǎn)業(yè)**:
電報(bào)、電話為核心的通信產(chǎn)業(yè)誕生虑瀑。
留聲機(jī)湿滓、電影滴须、收音機(jī)導(dǎo)致大眾娛樂業(yè)出現(xiàn)。
沒有電叽奥,絕大多數(shù)化工產(chǎn)品無法被制造出來扔水,如化肥,農(nóng)藥朝氓、建筑材料魔市,日常用品等。計(jì)算機(jī)和網(wǎng)絡(luò)引領(lǐng)的信息革命赵哲,也催生了很多新產(chǎn)業(yè)待德,即現(xiàn)有產(chǎn)業(yè) + 計(jì)算機(jī)、網(wǎng)絡(luò) = 新產(chǎn)業(yè):
證券交易:原來必須要到交易所進(jìn)行紙質(zhì)股票交易枫夺,變成了實(shí)時(shí)的網(wǎng)絡(luò)電子證券交易将宪。
銀行業(yè):原來成本非常高的、而且非常麻煩的跨行交易橡庞,使得人們不得不攜帶旅行支票或大量現(xiàn)金较坛。計(jì)算機(jī)網(wǎng)絡(luò)使得ATM網(wǎng)店可以遍布全球,銀行的業(yè)務(wù)拓展到全世界扒最。
回顧歷史是為了展望未來丑勤,大數(shù)據(jù)引發(fā)的智能革命也將與前幾次技術(shù)革命展開的方式類似,即:現(xiàn)有產(chǎn)業(yè) + 大數(shù)據(jù) | 機(jī)器智能 = 新產(chǎn)業(yè)吧趣。
技術(shù)改變商業(yè)模式
工業(yè)革命后法竞,全世界從過去物質(zhì)匱乏帶來的生產(chǎn)供不應(yīng)求,變成供大于求强挫。
第二次工業(yè)革命中爪喘,電又一次改變商業(yè)模式。電帶來的現(xiàn)代傳媒和通信業(yè)纠拔,使得廠家和顧客之間溝通渠道更暢通,產(chǎn)品營銷從原來的口碑相傳泛豪,實(shí)體店被動(dòng)展示稠诲,變成廣告主動(dòng)宣傳,全球性品牌開始誕生诡曙,產(chǎn)業(yè)鏈臀叙、工業(yè)標(biāo)準(zhǔn)化開始形成。國家需要靠消費(fèi)拉動(dòng)經(jīng)濟(jì)增長价卤,整個(gè)社會(huì)的消費(fèi)價(jià)值觀發(fā)生變化劝萤。
信息時(shí)代,產(chǎn)業(yè)鏈從一種產(chǎn)品擴(kuò)展到整個(gè)行業(yè)慎璧。摩爾定律讓很多電子產(chǎn)品價(jià)格每年不斷下降床嫌,為拉動(dòng)用戶購買新產(chǎn)品跨释,新軟件,“安迪-比爾定律”(軟件功能的增加和改進(jìn)要不斷吃掉硬件性能的提升)促使IT產(chǎn)業(yè)整合成大的產(chǎn)業(yè)鏈厌处,保證了計(jì)算機(jī)和硬件產(chǎn)業(yè)不斷發(fā)展的動(dòng)力鳖谈。
6. 大數(shù)據(jù)和智能革命的技術(shù)挑戰(zhàn)
大數(shù)據(jù)的主要來源:1. 電腦本身產(chǎn)生的數(shù)據(jù); 2. 傳感器(如用于跟蹤貨物的RFID芯片,以及可穿戴設(shè)備的芯片等); 3. 過去已經(jīng)存在的阔涉、非數(shù)字化形式存儲(chǔ)的語音缆娃、圖片、視頻瑰排、書籍贯要、醫(yī)療影像等等,由于積累時(shí)間長椭住,數(shù)據(jù)量巨大崇渗。
現(xiàn)在全球數(shù)據(jù)量增長的速度超過了存儲(chǔ)設(shè)備發(fā)展的速度,越往后兩者差距越大函荣。因此显押,不能簡單依靠更多地生產(chǎn)和購買設(shè)備解決數(shù)據(jù)存儲(chǔ)問題,需要設(shè)計(jì)技術(shù)解決方案來提高存儲(chǔ)效率傻挂,這主要可以通過1. 數(shù)據(jù)壓縮和去冗余 2. 重新設(shè)計(jì)通用乘碑、有效和便捷的數(shù)據(jù)表示和存儲(chǔ)和訪問方式塔次,比如設(shè)計(jì)隨機(jī)訪問策略來保證大數(shù)據(jù)的高效檢索吓肋。
大數(shù)據(jù)面臨的另一個(gè)技術(shù)難題是如何標(biāo)準(zhǔn)化數(shù)據(jù)格式,以便共享另假。Google設(shè)計(jì)了一種開源的Protocal Buffer的數(shù)據(jù)格式來作為數(shù)據(jù)存儲(chǔ)的主要格式绪抛,也是其開發(fā)的各種軟件的通信接口资铡。
并行計(jì)算和實(shí)時(shí)處理:并非增加機(jī)器那么簡單
大數(shù)據(jù)由于體量大、維數(shù)多幢码,處理起來計(jì)算量巨大笤休,它的使用效率取決于并行計(jì)算的水平。目前的MapReduce和Hadoop技術(shù)盡管可以將大型任務(wù)拆解成并行的小任務(wù)症副,但是總有一部分計(jì)算無法并行店雅,這些無法并行的任務(wù)所占比例越大,并行處理的效率越低贞铣。
另外闹啦,對(duì)于實(shí)時(shí)數(shù)據(jù)分析的任務(wù)需求,例如電商實(shí)時(shí)對(duì)熱門商品進(jìn)行銷量排序等辕坝,對(duì)于大數(shù)據(jù)而言是很大的挑戰(zhàn)窍奋,因?yàn)榇髷?shù)據(jù)主要存儲(chǔ)在硬盤上,訪問較慢,而且MapReduce等工具的批處理通常也要幾十分鐘琳袄。因此江场,解決實(shí)時(shí)數(shù)據(jù)處理問題,需要從根本上改變大數(shù)據(jù)相關(guān)的系統(tǒng)設(shè)計(jì)和算法挚歧,而不是增加機(jī)器那么簡單扛稽。
數(shù)據(jù)挖掘:機(jī)器智能的關(guān)鍵
大數(shù)據(jù)產(chǎn)生的效益很大程度上取決于對(duì)數(shù)據(jù)挖掘的水平,其關(guān)鍵就是機(jī)器學(xué)習(xí)滑负。但是機(jī)器學(xué)習(xí)算法通常都比較“慢”在张,因?yàn)橛?jì)算復(fù)雜度太高。
總體而言矮慕,大部分機(jī)器學(xué)習(xí)算法是等效的帮匾,在預(yù)測效果上只有量的區(qū)別,沒有質(zhì)的差別痴鳄,而量的差別可以通過數(shù)據(jù)的規(guī)模和量來彌補(bǔ)瘟斜。2010年Google開發(fā)出Google Brain的深度學(xué)習(xí)工具,可以將大型的神經(jīng)網(wǎng)絡(luò)分布在上百萬臺(tái)服務(wù)器上并行訓(xùn)練痪寻,即神經(jīng)網(wǎng)絡(luò)的并行版本螺句。雖然聽起來很簡單,但是并行神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)起來工作量巨大橡类,小公司不可能有精力和資本自己去研究蛇尚,因此由某個(gè)大公司投入精力研究并向大眾提供機(jī)器學(xué)習(xí)的基礎(chǔ)服務(wù),是未來的趨勢顾画。
數(shù)據(jù)安全的技術(shù)
數(shù)據(jù)安全有兩層含義:1. 保證用戶數(shù)據(jù)不損壞取劫,不丟失。2. 保證數(shù)據(jù)不被偷走和盜用研侣。
保護(hù)數(shù)據(jù)安全可以通過以下措施:1. 盡量將敏感信息分散放到不同地方谱邪,防止多種敏感數(shù)據(jù)同時(shí)丟失。2. 某些業(yè)務(wù)固定的流程庶诡,利用算法可以學(xué)習(xí)到被授權(quán)操作員的使用習(xí)慣惦银,用來發(fā)現(xiàn)和及時(shí)制止異常操作。
7. 未來智能化產(chǎn)業(yè)
“現(xiàn)有產(chǎn)業(yè) + 新技術(shù) = 新產(chǎn)業(yè)”是貫穿本書的主題末誓,接下來的智能革命中扯俱,依然是現(xiàn)有產(chǎn)業(yè)轉(zhuǎn)變和新產(chǎn)業(yè)誕生并行。無論是哪種方式基显,它們都有共同特點(diǎn),即智能化和精細(xì)化善炫。
本章將敘述一些未來產(chǎn)業(yè)的形態(tài)撩幽,這些改變并非我們預(yù)測,而是已經(jīng)發(fā)生的事實(shí)。
未來的農(nóng)業(yè)
人類的文明程度可以用人均產(chǎn)生的能量來衡量窜醉,原始社會(huì)人類產(chǎn)生能量是消耗能量的2-3倍宪萄;到發(fā)達(dá)社會(huì),這個(gè)比值將達(dá)到10倍榨惰。工業(yè)革命后拜英,機(jī)械、化肥琅催、農(nóng)藥的使用大大提高了單產(chǎn)居凶,但自然環(huán)境,尤其是土地短缺和降雨量藤抡,仍然是制約農(nóng)業(yè)發(fā)展的瓶頸侠碧。
傳統(tǒng)解決農(nóng)業(yè)用水資源短缺的方法是挖更多井,實(shí)質(zhì)是將短期危機(jī)轉(zhuǎn)化為了長期水資源危機(jī)缠黍。但如果跳出思維定式弄兜,思考:“種田是否真的需要那么多水和那土地?”我們會(huì)得到更加高效智能的農(nóng)業(yè)瓷式。
在降水極少的以色列????(年平均200毫米替饿,蘭州為年均降水325毫米),沙漠占國土面積的一半贸典,如此惡劣的條件视卢,發(fā)展農(nóng)業(yè)似乎不可能,但以色列人創(chuàng)造了令人咂舌的奇跡瓤漏,許多農(nóng)產(chǎn)品單產(chǎn)量領(lǐng)先于世界先進(jìn)水平腾夯,如棉花單產(chǎn)世界第一等。這歸功于以色列人發(fā)明了滴灌技術(shù)——通過裝有滴頭的管線直接將水和肥料送到植物的根系蔬充,大大節(jié)約了水和肥料蝶俱。并且所有的灌溉方式都采用計(jì)算機(jī)進(jìn)行自動(dòng)化控制,灌溉系統(tǒng)中含有濕度傳感器饥漫,來決定每次的灌溉量榨呆,這樣既節(jié)省了人力成本,又節(jié)省了水資源庸队。
2015年加州最干旱的季節(jié)积蜻,很多小區(qū)為了節(jié)水,購買了硅谷一家小公司的院落自動(dòng)噴水機(jī)器人彻消,來精確澆灌植物和草坪竿拆。機(jī)器人將掃描院落的濕度分布,來計(jì)算每個(gè)位置的噴水量宾尚,并且按照事先規(guī)劃好的線路完成整個(gè)院落的澆灌丙笋。它也會(huì)根據(jù)聯(lián)網(wǎng)的天氣預(yù)報(bào)來決定是否澆灌谢澈,如果明天下雨則停止?jié)补唷?/p>
未來的體育
2009年,NBA的金州勇士隊(duì)是全聯(lián)盟50支球隊(duì)中最爛的球隊(duì)之一御板,成績倒數(shù)第二锥忿。2015-16賽季,位于硅谷的金州勇士隊(duì)創(chuàng)造了NBA歷史上常規(guī)賽季獲勝率最高的記錄怠肋,全部82場比賽中獲勝73場敬鬓,同時(shí)創(chuàng)下主場54連勝記錄,并且獲得該年總冠軍笙各。一般人會(huì)以為勇士隊(duì)一定有很多大牌球星和金牌教練钉答,但事實(shí)并非如此。勇士隊(duì)的奇跡實(shí)際上是由硅谷最不缺的風(fēng)險(xiǎn)投資人和工程師創(chuàng)造的酪惭,前者善于發(fā)現(xiàn)投資潛力希痴,后者善于利用技術(shù)創(chuàng)造奇跡。低價(jià)被投資人收購后春感,管理層的任何決策都是基于大數(shù)據(jù)中得到的結(jié)論砌创。數(shù)據(jù)發(fā)現(xiàn)NBA很多球隊(duì)的打法是低效率的,都依靠明星球員的身體條件進(jìn)行突破扣籃鲫懒,雖然打起來漂亮嫩实,但實(shí)際很低效。管理層首先從零開始培養(yǎng)自己看中的新人窥岩,并且利用數(shù)據(jù)個(gè)性化的改進(jìn)每球員水平甲献,設(shè)計(jì)盡可能投三分球的新打法,并且在比賽中通過實(shí)時(shí)數(shù)據(jù)及時(shí)調(diào)整戰(zhàn)術(shù)颂翼。
未來的競技體育是離不開大數(shù)據(jù)和機(jī)器智能的晃洒,僅靠天賦和苦練將不足以取得最好的成績。
未來的制造業(yè)
2011年朦乏,德國????提出工業(yè)4.0的概念球及,即通過數(shù)字化和智能化來提升制造業(yè)水平。在美國????呻疹,特斯拉公司已經(jīng)嘗試全部采用機(jī)器人來裝配汽車吃引,不僅大幅減少了雇傭工人的數(shù)量,也讓出廠汽車的性能和質(zhì)量更穩(wěn)定刽锤,同時(shí)產(chǎn)品也更容易按照個(gè)性化定制镊尺。
在過去,產(chǎn)品生產(chǎn)本身只是主要環(huán)節(jié)中的一個(gè)并思。商品的設(shè)計(jì)和研發(fā)庐氮,倉儲(chǔ)和物資管理,物流和運(yùn)輸宋彼,批發(fā)和零售弄砍,都是不可或缺的環(huán)節(jié)颅筋,而每個(gè)環(huán)節(jié)都意味著成本。到了大數(shù)據(jù)時(shí)代输枯,除了商品的設(shè)計(jì)和研發(fā),剩下的環(huán)節(jié)要么高度智能化(如倉儲(chǔ)和物資管理)占贫,要么干脆被砍掉(如批發(fā)行業(yè))桃熄,因此在制造業(yè)中哪些所謂的高端工作也面臨著被機(jī)器智能取代的風(fēng)險(xiǎn)。
未來的醫(yī)療
人類發(fā)展經(jīng)濟(jì)和科技的最重要的目的就是增進(jìn)健康型奥,延年益壽瞳收。歷次重大科技進(jìn)步無不伴隨著人類醫(yī)療水平的飛躍,如工業(yè)革命后厢汹,人類通過搞清楚了細(xì)菌致病的原理而開啟現(xiàn)代醫(yī)學(xué)螟深,并隨后發(fā)明了抗生素。
今天烫葬,人類在醫(yī)療保健上遇到的主要瓶頸是:1. 醫(yī)療成本越來越高界弧,美國醫(yī)保開銷占GDP 17-18%。2. 醫(yī)療資源不平衡 3. 最關(guān)鍵的是搭综,很多疾病治不好垢箕,癌癥、帕金森綜合征和阿爾茨海默癥兑巾。因此我們從這三方面看看大數(shù)據(jù)如何改變醫(yī)療及制藥行業(yè)現(xiàn)狀条获。
降低醫(yī)療成本:醫(yī)療成本過高的主要原因是:
- 藥品研制周期長,費(fèi)用太高(20年蒋歌、20億美元的投入帅掘,專利保護(hù)年限只有20年,但是要算上3年申請(qǐng)時(shí)間堂油,多年的藥品上市等待時(shí)間修档,據(jù)強(qiáng)生公司介紹實(shí)際上受專利保護(hù)時(shí)間僅有7年左右)
- 醫(yī)務(wù)人員培養(yǎng)的成本太高(平均13年學(xué)習(xí)和實(shí)習(xí)和時(shí)間,全自付高學(xué)費(fèi)称诗、還要經(jīng)過非常激烈的競爭才能最終從醫(yī)學(xué)院畢業(yè)萍悴,時(shí)間和金錢投入如此巨大,必須由高收入才合算)寓免。
過去像放射科醫(yī)生這種被認(rèn)為需要太多專業(yè)技能和經(jīng)驗(yàn)癣诱,工作性質(zhì)復(fù)雜,不可能被機(jī)器取代袜香。而今模式識(shí)別軟件通過醫(yī)學(xué)影像識(shí)別和分析撕予,能比有經(jīng)驗(yàn)的放射科醫(yī)生更好的診斷病情。此外蜈首,越老越吃香实抡,靠經(jīng)驗(yàn)進(jìn)行診斷的老醫(yī)生業(yè)也將面臨被基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的診斷算法取代欠母,并且后者在某些問題上(如確定乳腺癌細(xì)胞的位置)上,準(zhǔn)確率可以超過屵赫科醫(yī)生赏淌,達(dá)到96%。
另外啄清,在手術(shù)方面六水,全世界最具代表性的自動(dòng)化手術(shù)機(jī)器人:達(dá)芬奇手術(shù)系統(tǒng)能完成一些人類醫(yī)生難以完成的手術(shù)。
相比醫(yī)生辣卒,計(jì)算機(jī)在診斷和手術(shù)上具有三大優(yōu)勢:1. 漏判或誤判的可能性非常低掷贾,能發(fā)現(xiàn)一些醫(yī)生忽略的情況 2. 準(zhǔn)確率非常高,而且隨著病例的積累會(huì)增加的很快 3. 程序的穩(wěn)定性非常好荣茫,不會(huì)像人那樣受情緒影響想帅,而智能程序的成本不足人工的百分之一。
解決醫(yī)療資源短缺問題:在缺少醫(yī)生的非洲和印度????啡莉,IBM開發(fā)了可以幫助看病的Watson“機(jī)器醫(yī)生”港准。
制藥業(yè)的革命:基于基因組學(xué)、轉(zhuǎn)錄組和藥物靶點(diǎn)相關(guān)的大數(shù)據(jù)咧欣,開發(fā)出能夠預(yù)測舊藥的新用途的算法叉趣,將大大降低藥物的研發(fā)成本。
未來的律師業(yè)
大數(shù)據(jù)對(duì)司法領(lǐng)域的影響在于:機(jī)器智能會(huì)逐漸取代律師做一些案例分析工作该押,使得訴訟成本可能大幅降低疗杉。律師費(fèi)高昂的重要原因就是某些案件所需要進(jìn)行的判例分析工作量巨大,例如Google和Viacom的官司蚕礼,就分析了上百萬份文檔烟具。但利用自然語言處理技術(shù)和信息檢索技術(shù),這種時(shí)間奠蹬、人力和成本將大大降低朝聋。
未來的記者和編輯
計(jì)算機(jī)目前通過機(jī)器學(xué)習(xí)算法,已經(jīng)具有寫出符合邏輯的段落的寫作能力囤躁。這使得其可以應(yīng)用于撰寫固定格式的新聞稿冀痕,或者生成財(cái)經(jīng)評(píng)論等。
智能革命和未來社會(huì)
狄更斯在《雙城記》的開頭說“這是最好的時(shí)代狸演,也是最壞的時(shí)代”言蛇。一方面,智能革命無疑會(huì)給我們帶來更美好的社會(huì)宵距,更加智能腊尚、精細(xì)化、人性化满哪。但機(jī)器也會(huì)越來越多的取代人類的工作機(jī)會(huì)婿斥。
每次重大技術(shù)革命都需要很長時(shí)間來消化它產(chǎn)生的負(fù)面影響:例如智能化帶來的大量剩余勞動(dòng)力釋放劝篷。這些靠各國政府等手段讓從業(yè)人員掌握新技能實(shí)際上收效甚微,因?yàn)樯弦淮茈y適應(yīng)下一代的技術(shù)發(fā)展民宿。解決這一問題只能靠時(shí)間娇妓,靠上一代人逐漸退出勞動(dòng)力市場。
未來98%的人面臨被取代的危險(xiǎn)活鹰,而只屬于2%的從事創(chuàng)造性勞動(dòng)峡蟋,或者控制機(jī)器智能的人,我們要努力變成這2%的人华望。
[1] Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M. S., & Brilliant, L. (2009). Detecting influenza epidemics using search engine query data. Nature, 457(7232), 1012.