《智能時代》---吳軍
大數(shù)據(jù)與智能革命重新定義未來;2%的人將會控制未來,成為他們或被淘汰攀甚;重塑個人思維,構(gòu)建未來的商業(yè)和社會圖景岗喉。
目錄:
序言
前言:人類的勝利
第一章 數(shù)據(jù)—人類建造文明的基石
????????現(xiàn)象秋度,數(shù)據(jù)和知識
????????數(shù)據(jù)的作用:文明的基石
????????相關性:使用數(shù)據(jù)的鑰匙
????????統(tǒng)計學:點石成金的魔棒
????????數(shù)學模型:數(shù)據(jù)驅(qū)動方法的基礎
? ? ? ? 小結(jié)
第二章 大數(shù)據(jù)和機器智能
????????什么是機器智能
????????鳥飛派:人工智能1.0
????????另辟蹊徑:統(tǒng)計+數(shù)據(jù)
????????數(shù)據(jù)創(chuàng)造奇跡:量變到質(zhì)變
????????大數(shù)據(jù)的特征
????????變智能問題為數(shù)據(jù)問題
第三章 思維的革命
????????思維方式?jīng)Q定科學成就:從歐幾里得、托勒密到牛頓
????????工業(yè)革命钱床,機械思維的結(jié)果
????????世界的不確定性
????????熵— 一種新的世界觀
????????大數(shù)據(jù)的本質(zhì)
????????從因果關系到強相關關系
????????數(shù)據(jù)公司Google
????????小節(jié)????????
第四章 大數(shù)據(jù)與商業(yè)
????????從大數(shù)據(jù)中找規(guī)律
????????巨大的商業(yè)利好:相關性荚斯、時效性和個性化的重要性
????????大數(shù)據(jù)商業(yè)的共同點—盡在數(shù)據(jù)流中
????????把控每一個細節(jié)
????????重新認識窮舉法—完備性帶來的結(jié)果
????????從歷史經(jīng)驗看大數(shù)據(jù)的作用
????????技術(shù)改變商業(yè)模式
????????加(+)大數(shù)據(jù)訂造新產(chǎn)業(yè)
????????小節(jié)
第五章 大數(shù)據(jù)和智能革命的技術(shù)挑戰(zhàn)
????????技術(shù)的拐點
????????數(shù)據(jù)的產(chǎn)生
????????信息的存儲
????????傳輸?shù)募夹g(shù)
????????信息的處理
????????數(shù)據(jù)收集:看似簡單的難題
????????數(shù)據(jù)存儲的壓力和數(shù)據(jù)表示的難題
????????并行計算和實時處理:并非增加及其那么簡單
????????數(shù)據(jù)挖掘:機器智能的關鍵
????????數(shù)據(jù)安全的技術(shù)
????????保護隱私:靠大數(shù)據(jù)長期掙錢的必要條件
????????小結(jié)
第六章 未來智能化產(chǎn)業(yè)
????????未來的農(nóng)業(yè)
????????未來的體育
????????未來的制造業(yè)
????????未來的醫(yī)療
????????未來的律師業(yè)
????????未來的記者和編輯
????????小結(jié)
第七章 智能革命和未來社會
????????智能化社會
????????精細化社會
????????無隱私的社會
????????機器搶掉人的飯碗
????????爭當2%的人
????????小結(jié)
主題:個人的精進。
序一:
由摩爾定律所驅(qū)動的計算機處理能力也在持續(xù)增長查牌,現(xiàn)在每年新増的數(shù)據(jù)量與計算機處理能力都是以前無法相比的事期,但數(shù)據(jù)量與計算機處理能力之比并沒有因為年份而有數(shù)量級的大變化。問題是為什么現(xiàn)在才出現(xiàn)大數(shù)據(jù)熱呢纸颜?
吳軍先生的《智能時代》一書給出了答案兽泣。該書回顧了科學研究發(fā)展的四個范式,即描述自然現(xiàn)象的實驗科學懂衩、以牛頓定律和麥克斯韋方程等為代表的理論科學撞叨、模擬復雜現(xiàn)象的計算科學和今天的數(shù)據(jù)密集型科學金踪。
即便在實驗科學和理論科學及計算科學范式時期,數(shù)據(jù)仍然起了重要作用牵敷。作者在介紹科學發(fā)展史時用實例說明了數(shù)據(jù)在科學發(fā)現(xiàn)中的位置胡岔,在牛頓和麥克斯韋時代,他們所導出的簡潔的公式給出的確定性的規(guī)律是由大量觀察數(shù)據(jù)所驗證的枷餐。
現(xiàn)在我們面對的是更復雜的自然和社會現(xiàn)象靶瘸,多維度和多變量導致很大的不確定性,雖然還不能用解析式來說明因果關系毛肋,但如果從足夠多的數(shù)據(jù)中發(fā)現(xiàn) 相關性 也能把握事物發(fā)展的軌跡怨咪,這就是數(shù)據(jù)密集型科學產(chǎn)生的背景。
計算機的計算與存儲能力是人遠遠不及的润匙,唯一不足是智能诗眨,但人的智能也不是與生俱來,只是學習的結(jié)果孕讳。機器智能可以通過深度學習得到匠楚,從而將大數(shù)據(jù)挖掘問題轉(zhuǎn)化為可計算問題來處理。大數(shù)據(jù)挖掘的需求加速了機器智能技術(shù)的成熟厂财,可以說芋簿,大數(shù)據(jù)與機器智能相伴而生,促進物聯(lián)網(wǎng)從感知到認知并智能決策的升華璃饱,催生了智能化時代与斤。
這是一個計算無所不在、軟件定義一切荚恶、數(shù)據(jù)驅(qū)動發(fā)展的新時代撩穿。相比以蒸汽機的發(fā)明為標志以機械化為特征的第一次工業(yè)革命,以電的發(fā)明為標志以電氣化為特征的第二次工業(yè)革命裆甩,現(xiàn)在以大數(shù)據(jù)應用為標志之一和以智能化為特征的新一輪產(chǎn)業(yè)革命到來了冗锁,它對人類文明和社會進步及經(jīng)濟發(fā)展的影響將不亞于前兩次工業(yè)革命。
指出技術(shù)時代的變遷總是會引起現(xiàn)有產(chǎn)業(yè)格局的重大調(diào)整嗤栓,要抓住智能時代的機遇并認真對待挑戰(zhàn)冻河,力爭在新一輪產(chǎn)業(yè)變革浪潮中占領先機。
數(shù)據(jù)密集型科學產(chǎn)生的背景茉帅。
序二:
最近幾年叨叙,人類在一些科技前沿領域取得了重大的突破,這些領域包括:人工智能堪澎、基因技術(shù)擂错、納米技術(shù)等。
大數(shù)據(jù)是解決不確定性的良藥
“用不確定的眼光看待世界樱蛤,再用信息來消除這種不確定性”钮呀,是大數(shù)據(jù)解決智能問題的本質(zhì)剑鞍。
吳軍博士在書中提到了世界的不確定性來自兩個方面,一是影響世界的變量太多以至于無法用數(shù)學模型來描述爽醋;二是來自客觀世界本身:不確定性是我們所在宇宙的特性蚁署。因此,用機械論已經(jīng)完全無法對未來進行預測蚂四。
香農(nóng)光戈,這位不世出的天才,則通過借用熱力學中“熵”的概念遂赠,引入“信息熵”久妆,用信息論將世界的不確定性與信息聯(lián)系在了一起。這個建立在不確定性上的理論跷睦,正是今天人類研究大數(shù)據(jù)與機器智能的基石筷弦。
而在每一次技術(shù)革命中,只有率先采用新技術(shù)送讲,才能立于不敗之地奸笤。在智能革命中,現(xiàn)有產(chǎn)業(yè)采用了新技術(shù)后哼鬓,將會全面升級,成為新產(chǎn)業(yè)边灭,這將給我們帶來無限的機會异希。
智能革命帶來前所未有的不連續(xù)性挑戰(zhàn):
本書的一個重要觀點是:機器智能革命的發(fā)生來自大數(shù)據(jù)量的積累達到質(zhì)變的奇點。從這個角度來看绒瘦,機器的學習同人類的學習并沒有什么本質(zhì)的不同称簿。幾千年以來,我們?nèi)祟惖闹R都建立在歸納法之上惰帽,歸納法隱含的假設是“未來將繼續(xù)和過去一樣”憨降,換句話說應該叫連續(xù)性假設。但即將到來的這個“智能時代”该酗,可以說人類將遭遇前所未有的“不連續(xù)性”授药。如何在新的時代里生存,跨越底層認知的不連續(xù)性呜魄,是前進的第一步悔叽。
如何在智能時代開始跨越思維的不連續(xù)性?尋找答案,此書也許是最恰當?shù)囊槐尽?/p>
大數(shù)據(jù)是解決不確定性的良藥
前言:
計算機之所以能戰(zhàn)勝人類爵嗅,是因為機器獲得智能的方式和人類不同照皆,它不是靠邏輯推理壁袄,而是靠大數(shù)據(jù)和智能算法。
具體到下棋的策略饺鹃,AlphaGo里面有兩個關鍵的技術(shù)。
第一個關鍵技術(shù)是把棋盤上當前的狀態(tài)變成一個 獲勝概率的數(shù)學模型 氯质,這個模型里面沒有任何人工的規(guī)則,而是完全靠前面所說的數(shù)據(jù)訓練出來的。
第二個關鍵技術(shù)是啟發(fā)式搜索算法——蒙特卡羅樹搜索算法(Monte Carlo Tree Search)奋单,它能將搜索的空間限制在非常有限的范圍內(nèi),保證計算機能夠快速找到好的下法虑鼎。
下圍棋這個看似智能型的問題辱匿,從本質(zhì)上講,是一個大數(shù)據(jù)和算法的問題炫彩。
當然匾七,Google開發(fā)AlphaGo的最終目的,并非要證明計算機下棋比人強江兢,而是要開發(fā)一種機器學習的工具昨忆,讓計算機能夠解決智能型問題。AlphaGo和李世石對弈杉允,實際上是對當今機器智能水平的一個測試邑贴。AlphaGo的勝利標志著人類在機器智能方面達到了一個嶄新的水平,因此它是人類的勝利叔磷;
AlphaGo無論是在訓練模型時拢驾,還是在下棋時所采用的算法都是幾十年前大家就已經(jīng)知道的機器學習和博弈樹搜索算法,Google所做的工作是讓這些算法能夠在上萬臺甚至上百萬臺服務器上并行運行改基,這就使得計算機解決智能問題的能力有了本質(zhì)的提高繁疤。
今天,計算機已經(jīng)開始完成很多過去必須用人的智力才能夠完成的任務秕狰,比如:醫(yī)療診斷稠腊,閱讀和處理文件,自動回答問題鸣哀,撰寫新聞稿架忌,駕駛汽車,等等我衬√痉牛可以講,AlphaGo的獲勝低飒,宣告了機器智能時代的到來许昨。
AlphaGo的靈魂是計算機科學家為它編寫的程序。機器不會控制人類褥赊,但是制造智能機器的人可以糕档。而科技在人類進步中總是扮演著最活躍最革命的角色,它的發(fā)展是無法阻止的,我們能做的就是面對現(xiàn)實速那,抓住智能革命的機遇俐银,而不是回避它、否定它和阻止它端仰。未來的社會捶惜,屬于那些具有創(chuàng)意的人,包括計算機科學家荔烧,而不屬于掌握某種技能做重復性工作的人吱七。
在AlphaGo取得人機大戰(zhàn)勝利之際,我們出版這本書鹤竭,希望能讓大家更多地了解大數(shù)據(jù)的本質(zhì)踊餐、它的作用、它和機器智能的關系臀稚、機器智能的原理和發(fā)展歷程吝岭,以及它們對未來產(chǎn)業(yè)和社會的影響。
希望能讓大家更多地了解大數(shù)據(jù)的本質(zhì)吧寺、它的作用窜管、它和機器智能的關系、機器智能的原理和發(fā)展歷程稚机,以及它們對未來產(chǎn)業(yè)和社會的影響幕帆。
第一章??????? 數(shù)據(jù)——人類建造文明的基石
如果我們把資本和機械動能作為大航海時代以來全球近代化的推動力的話,那么數(shù)據(jù)將成為下一次技術(shù)革命和社會變革的核心動力赖条。
1蜓肆,現(xiàn)象,數(shù)據(jù)和知識
在計算機出現(xiàn)之前谋币,一般書籍上的文字內(nèi)容并不被看成是數(shù)據(jù),而今天症概,這種以語言和文字形式存在的內(nèi)容是全世界各種信息處理中最重要的數(shù)據(jù)蕾额,也是全世界通信領域和信息科技產(chǎn)業(yè)的核心數(shù)據(jù)——包括我們的信件、電話和電子郵件內(nèi)容彼城、電視和廣播節(jié)目诅蝶、互聯(lián)網(wǎng)網(wǎng)頁,以及各種社交產(chǎn)品中由用戶產(chǎn)生的內(nèi)容(User Generated Content募壕,簡稱UGC)调炬。這些數(shù)據(jù)的共同特點是以語音和文字為載體。因此舱馅,研究人員為了更好地研究和處理它們缰泡,還建立了專門針對語音和文字的數(shù)據(jù)庫,即所謂的語料庫(Corpus)代嗤。在語料庫中棘钞,數(shù)據(jù)主要是語音和文字的內(nèi)容缠借,反而沒有多少數(shù)字的內(nèi)容。
在西方很多物理學家看來宜猜,上帝在創(chuàng)造這個宇宙時泼返,將很多信息埋藏在了黑暗之中,他們的工作就是找到這些信息姨拥,并且用數(shù)據(jù)把它們描述清楚绅喉。
如何處理數(shù)據(jù),過濾掉沒有用的噪聲和刪除有害的數(shù)據(jù)叫乌,從而獲取數(shù)據(jù)背后的信息柴罐,就成為技術(shù)甚至是一種藝術(shù)。只有善用數(shù)據(jù)综芥,我們才能夠得到意想不到的驚喜丽蝎,即數(shù)據(jù)背后的信息。
從這個墓室的尺寸膀藐,我們分析出4600年前的古埃及人已經(jīng)知道了勾股定理屠阻,進而可以知道那個時期古埃及文明大致發(fā)展到了什么水平,這就是從數(shù)據(jù)得到信息很好的例子额各。
處理信息和數(shù)據(jù)可以說是人類所特有的本事国觉,而這個本事的大小和現(xiàn)代智人的社會發(fā)展有關。
2虾啦,數(shù)據(jù)的作用:文明的基石
從觀察中總結(jié)出數(shù)據(jù)麻诀,是人類和動物的重要區(qū)別,后者雖具有觀察能力傲醉,卻無法總結(jié)出數(shù)據(jù)蝇闭,但是人類有這個能力。而得到數(shù)據(jù)和使用數(shù)據(jù)的能力硬毕,是衡量文明發(fā)展水平的標準之一呻引。
事實證明,以天狼星和太陽同時出現(xiàn)作為參照系比以太陽作為參照系更準確些吐咳。這實際上也說明了好的模型要和數(shù)據(jù)相吻合的道理逻悠,因此古埃及人已經(jīng)有了從數(shù)據(jù)中總結(jié)數(shù)學模型的基本能力。
相關性 是讓數(shù)據(jù)發(fā)揮出作用的魔棒韭脊。
3童谒,相關性:使用數(shù)據(jù)的鑰匙
很多時候,我們無法直接獲得信息(比如疫情傳播情況)沪羔,但是我們可以將相關聯(lián)的信息(比如各地搜索情況)量化饥伊,然后通過數(shù)學模型,間接地得到所要的信息。而各種數(shù)學模型的基礎都離不開概率論和統(tǒng)計學撵渡。
4融柬,?統(tǒng)計學:點石成金的魔棒
不過我們這里要強調(diào)統(tǒng)計學中數(shù)據(jù)采集上的兩個要點——量和質(zhì)。
我想大部分讀者都會同意這樣一個觀點趋距,在統(tǒng)計樣本數(shù)量不充分的情況下粒氧,統(tǒng)計數(shù)字毫無意義。至于需要多少數(shù)據(jù)統(tǒng)計結(jié)果(在我們這個問題里是概率的估計)才是準確的节腐,這就需要進行定量分析了外盯。
統(tǒng)計除了要求數(shù)據(jù)量必須充分以外,還要求采樣的數(shù)據(jù)具有代表性翼雀。
5饱苟,數(shù)學模型:數(shù)據(jù)驅(qū)動方法的基礎
在大多數(shù)復雜的應用中,需要通過數(shù)據(jù)建立起一個數(shù)學模型狼渊,以便在實際應用中使用箱熬。要建立數(shù)學模型就要解決兩個問題,首先是采用什么樣的模型狈邑,其次是模型的參數(shù)是多少城须。
在過去,無論在理論上還是工程上米苹,大家都把主要的精力放在尋找模型上糕伐。有了模型之后,第二步就是要找到模型的參數(shù)蘸嘶,以便讓模型至少和以前觀察到的數(shù)據(jù)相吻合良瞧。這一點在過去的被重視程度遠不如找模型。但是今天它又有了一個比較時髦而高深的詞——機器學習训唱。
鑒于完美的模型未必存在褥蚯,即使存在,找到它也非常不容易况增,而且費時間遵岩,因此就有人考慮是否能通過用很多簡單不完美的模型湊在一起,起到完美模型的效果呢巡通?。舍哄。宴凉。從理論上講,只要找到足夠多的具有代表性的樣本(數(shù)據(jù))表悬,就可以運用數(shù)學找到—個模型或者一組模型的組合弥锄,使得它和真實情況非常接近。
在工程上,采用多而簡單的模型常常比一個精確的模型成本更低籽暇,也被使用得更普遍温治。
回到數(shù)學模型上,其實只要數(shù)據(jù)量足夠戒悠,就可以用若干個簡單的模型取代一個復雜的模型熬荆。這種方法被稱為數(shù)據(jù)驅(qū)動方法,因為它是先有大量的數(shù)據(jù)绸狐,而不是預設的模型卤恳,然后用很多簡單的模型去契合數(shù)據(jù)(Fit Data)。
當然寒矿,數(shù)據(jù)驅(qū)動方法要想成功突琳,除了數(shù)據(jù)量大之外,還要有一個前提符相,那就是樣本必須非常具有代表性拆融,這在任何統(tǒng)計學教科書里就是一句話,但是在現(xiàn)實生活中要做到是非常難的啊终。
數(shù)據(jù)驅(qū)動方法最大的優(yōu)勢在于镜豹,它可以在最大程度上得益于計算機技術(shù)的進步。盡管數(shù)據(jù)驅(qū)動方法在一開始數(shù)據(jù)量不足孕索、計算能力不夠時逛艰,可能顯得有些粗糙,但是隨著時間的推移搞旭,摩爾定律保證了計算能力和數(shù)據(jù)量以一個指數(shù)級增長的速度遞增散怖,數(shù)據(jù)驅(qū)動方法可以非常準確。 相比之下肄渗,很多其他方法的改進需要靠理論的突破镇眷,因此改進起來周期非常長。在過去的30年里翎嫡,計算機變得越來越聰明欠动,這并非是因為我們對特定問題的認識有了多大的提高,而是因為在很大程度上我們靠的是數(shù)據(jù)量的增加惑申。
可以用來說明數(shù)據(jù)驅(qū)動方法對機器智能產(chǎn)生作用的最佳案例具伍,恐怕要數(shù)2016年在計算機行業(yè)最熱門的事件——Google的AlphaGo計算機戰(zhàn)勝天才圍棋選手李世石了。
小結(jié)
數(shù)據(jù)的范疇遠比我們通常想象的要廣得多圈驼。人類認識自然的過程人芽,科學實踐的過程,以及在經(jīng)濟绩脆、社會領域的行為萤厅,總是伴隨著數(shù)據(jù)的使用橄抹。從某種程度上講,獲得和利用數(shù)據(jù)的水平反映出文明的水平惕味。在電子計算機誕生楼誓、人類進入信息時代之后,數(shù)據(jù)的作用越來越明顯名挥,數(shù)據(jù)驅(qū)動方法開始被普遍采用疟羹。如果我們把資本和機械動能作為大航海時代以來全球近代化的推動力,那么數(shù)據(jù)將成為下一次技術(shù)革命和社會變革的核心動力躺同。接下來阁猜,我們將在這樣一個高度上來理解;
小結(jié):
1蹋艺,從某種程度上講剃袍,獲得和利用數(shù)據(jù)的水平反映出文明的水平。
2捎谨,數(shù)據(jù)將成為下一次技術(shù)革命和社會變革的核心動力民效。
第二章 大數(shù)據(jù)和機器智能
主要內(nèi)容:從技術(shù)的層面分析大數(shù)據(jù)為什么如此重要,尤其是在機器智能方面的應用涛救,機器智能的革命將導致計算機在越來越多的領域超過人類畏邢,并最終讓我們的社會發(fā)生天翻地覆的變化。
在有大數(shù)據(jù)之前检吆,計算機并不擅長于解決需要人類智能的問題舒萎,但是今天這些問題換個思路就可以解決了,其核心就是變智能問題為數(shù)據(jù)問題蹭沛。由此臂寝,全世界開始了新的一輪技術(shù)革命智能革命。
當我們有可能獲得大量的摊灭、具有代表性的數(shù)據(jù)之后咆贬,能夠獲得什么好處呢?大家很快就想到把一些模型描述得更準確,或者對一些規(guī)律認識得更深刻帚呼。比如當開普勒從他的老師手上接過大量的天文數(shù)據(jù)之后掏缎,他終于找到了準確描述行星圍繞太陽運動軌跡的模型——橢圓模型。類似的情況在今天不斷地發(fā)生煤杀。但是眷蜈,這還遠遠不足以讓我們興奮,因為那還只是一個量的改變沈自,不足以產(chǎn)生顛覆這個世界的創(chuàng)新端蛆。
大量數(shù)據(jù)的使用,最大的意義在于它能讓計算機完成一些過去只有人類才能做到的事情酥泛,這最終將帶來一場智能革命今豆。
科學家和工程師們發(fā)現(xiàn),采用大數(shù)據(jù)的方法能夠使計算機的智能水平產(chǎn)生飛躍柔袁,這樣在很多領域計算機將獲得比人類智能更高的智能呆躲。可以說我們正在經(jīng)歷一場由大數(shù)據(jù)帶來的技術(shù)革命捶索,其最典型的特征就是計算機智能水平的提高插掂,因此我們不妨把這場革命稱為智能革命。
當計算機的智能水平趕上甚至超過人類時腥例,我們的社會就要發(fā)生天翻地覆的變化辅甥,這才是大數(shù)據(jù)的可怕之處。
那么為什么大數(shù)據(jù)會最終導致這樣的結(jié)果燎竖,大數(shù)據(jù)和機器智能是什么關系呢?
6璃弄,什么是機器智能
在ENIAC誕生后,各行各業(yè)的人构回,當然也包括科學家們都在問自己夏块,機器能否產(chǎn)生智能?
真正科學地定義什么是機器智能的還是電子計算機的奠基人阿蘭·圖靈(Alan Turing纤掸,1912~1954)博士脐供。1950年,圖靈在《思想》(Mind)雜志上發(fā)表了一篇題為《計算的機器和智能》的論文借跪。在論文中政己,圖靈既沒有講計算機怎樣才能獲得智能,也沒有提出什么解決復雜問題的智能方法掏愁,而只是提出了一種驗證機器有無智能的判別方法歇由。
計算機科學家們認為,如果計算機實現(xiàn)了下面幾件事情中的一件托猩,就可以認為它有圖靈所說的那種智能:
????????1.語音識別
????????2.機器翻譯
????????3.文本的自動摘要或者寫作
????????4.戰(zhàn)勝人類的國際象棋冠軍
????????5.自動回答問題
7印蓖,鳥飛派:人工智能1.0
“達特茅斯夏季人工智能研究會議”(約翰·麥卡錫、馬文·明斯基京腥、納撒尼爾·羅切斯特赦肃、克勞德·香農(nóng)、赫伯特·西蒙公浪、艾倫.紐維爾)他宛,這10位年輕的學者討論的是當時計算機科學尚未解決,甚至尚未開展研究的問題欠气,包括人工智能厅各、自然語言處理和神經(jīng)網(wǎng)絡等。人工智能這個說法便是在這次會議上提出的预柒。
參加達特茅斯會議的10個人队塘,除了香農(nóng)袁梗,當時大多都沒有什么名氣。但是沒關系憔古,這些年輕人籍籍無名的時間不會太久遮怜,后來所有這些人都成了計算機科學領域或者認知科學領域的泰斗,包括4位圖靈獎獲得者(麥卡錫鸿市、明斯基锯梁、西蒙和紐維爾),而香農(nóng)作為信息論的發(fā)明人焰情,他的名字被用來冠名通信領域的最高獎——香農(nóng)獎陌凳。
雖然達特茅斯會議本身沒有產(chǎn)生什么了不起的思想,10個最聰明的大腦一個暑假的思考甚至比不上今天一位一流的博士畢業(yè)生内舟,但是它的意義超過10個圖靈獎合敦,因為它提出了問題。好幾個未來非常熱門的研究領域的研究工作谒获,其中包括人工智能和機器學習蛤肌,就始于那次會議之后。
今天幾乎所有的科學家都不堅持“機器要像人一樣思考才能獲得智能”批狱,但是很多的門外漢在談到人工智能時依然想象著“機器在像我們那樣思考”裸准,這讓他們既興奮又擔心。事實上赔硫,當我們回到圖靈博士描述機器智能的原點時就能發(fā)現(xiàn)炒俱,機器智能最重要的是能夠解決人腦所能解決的問題,而不在于是否需要采用和人一樣的方法爪膊。
事實上我們知道权悟,懷特兄弟發(fā)明飛機靠的是空氣動力學而不是仿生學。在這里推盛,我們不要笑話前輩來自直覺的天真想法峦阁,這是人類認識的普遍規(guī)律。
The pen was in the box(鋼筆在盒子里)耘成,這句話很好理解榔昔,如果讓計算機理解它,做一個簡單的語法分析即可瘪菌。但是另一句語法相同的話:The box was in the pen. 就讓人頗為費解了撒会。原來,在英語中师妙,pen(鋼筆)還有另外一個不太常用的意思——小孩玩耍的圍欄诵肛。在這里,理解成這個意思整個句子就通順了默穴。如果用同樣的語法分析,這兩句話會得到相同的語法分析樹,而僅僅根據(jù)這兩句話本身末盔,甚至通篇文章,是無法判定pen在哪一句話中應該作為圍欄溜歪,在哪一句話中應該是鋼筆的意思。
怎么實現(xiàn)智能機器:變智能問題為數(shù)據(jù)問題
2012年许蓖,情況發(fā)生了變化,一個名叫內(nèi)德·斯維爾(Nade Silver)的年輕人调衰,利用大數(shù)據(jù)膊爪,成功地預測了全部50+1個州的選舉結(jié)果。這讓包括蓋洛普公司在內(nèi)的所有人都大吃一驚嚎莉。斯維爾是怎樣解決這個難題的呢米酬?其實他的思路很簡單,如果有辦法在投票前了解到每一個人會投哪個候選人的票趋箩,那么準確預測每一個州的選舉結(jié)果就變得可能了赃额。
雖然斯維爾還做不到在大選前得到每一個投票人的想法,但是他統(tǒng)計的數(shù)據(jù)已經(jīng)非常全面了叫确,遠不是民意調(diào)查公司所能比擬的跳芳。另一個重要的因素是,斯維爾的數(shù)據(jù)反映了選民在沒有壓力的情況下真實的想法竹勉,準確性很高飞盆。兩點結(jié)合到一起,斯維爾獲得了對選民想法的全面了解次乓,或者說在某種程度上具有了數(shù)據(jù)的完備性吓歇,因此他能夠準確預測2012年美國大選結(jié)果也就不奇怪了。
選民在沒有壓力的情況下真實的想法票腰,準確性很高城看。
大數(shù)據(jù)的時效性其實不是必需的,但是有了時效性可以做到很多過去做不到的事情杏慰,城市的智能交通管理便是一個例子测柠。
我們常常可以看到論文的標題包含”large Scaled…”“Vast Data…”“Large Amount…”等詞組逃默,但是很少用Big鹃愤。
那么big,large和vast到底有什么差別呢完域。large和vast在程度上略有差別软吐,后者可以看成是very large的意思。而big和它們的差別在于吟税,big更強調(diào)的是相對小的大凹耙,是抽象意義上的大姿现,而large和vast常常用于形容體量的大小。
仔細推敲英語中big data這種說法肖抱,我們不得不承認這個提法非常準確备典,它最重要的是傳遞了一種信息——大數(shù)據(jù)是一種思維方式的改變。現(xiàn)在的數(shù)據(jù)量相比過去大了很多意述,量變帶來了質(zhì)變提佣,思維方式、做事情的方法就應該和以往有所不同荤崇。這其實是幫助我們理解大數(shù)據(jù)概念的一把鑰匙拌屏。
今天這些問題換個思路就可以解決了,其核心就是變智能問題為數(shù)據(jù)問題术荤。由此倚喂,全世界開始了新的一輪技術(shù)革命——智能革命。
大數(shù)據(jù)是一種思維方式的改變瓣戚。其核心就是變智能問題為數(shù)據(jù)問題端圈。
變智能問題為數(shù)據(jù)問題
第一次讓全世界感到計算機智能水平有了質(zhì)的飛躍是在1996年,那一年計算機第一次戰(zhàn)勝人類的國際象棋世界冠軍子库。不過相比2016年AlphaGo戰(zhàn)勝李世石舱权,那一次的比賽更加一波三折、驚心動魄刚照。深藍刑巧、AlphaGo在具體的算法上和略有差異,但是它們博弈的原理是相同的无畔。
深藍獲勝的原因:
1,看過了當時世界上所有名家的棋局浑彰;并且計算速度快恭理;
2,不受情緒的影響(這一點人類是做不到的)郭变;
數(shù)據(jù)密集型科學解決不確定問題颜价!
在計算機自動問答研究領域,科學家們已經(jīng)研究了多年诉濒。通常我們把問題歸結(jié)為7類:”是什么”(What)周伦、”什么時候”(When)、”什么地點”(Where)未荒、”哪一個”(Which)专挪、”是誰”(Who)、”為什么”(Why)和”怎么做”(How)。由于它們都是以W或者H開頭的寨腔,這7個疑問詞又被稱為WH單詞(WH words)速侈,各種問題也被稱為WH語句。在這7類問題中迫卢,容易回答的是詢問事實倚搬,包括”是什么”(What)、”什么時候乾蛤,每界,(When)、”什么地點”(Where)家卖、”哪一個”(Which)和”是誰”(Who)盆犁,比如:”中國的國家主席是誰?”難回答的是詢問原因的”為什么”(Why)問題篡九,以及詢問過程的”怎么做”(How)問題。全世界的自然語言處理專家和機器智能專家對這兩類問題的機器自動問答研究了很多年醋奠,直到2012年榛臼,都沒有找到好的方法。窜司。沛善。。當時Google的云計算平臺和大數(shù)據(jù)平臺已經(jīng)搭建得非常完善了塞祈,自然語言處理的基礎工作(比如所有網(wǎng)頁中主要語言每一句話都做了句法分析)都已經(jīng)完成金刁,對前五類簡單問題的回答在林德康博士的領導下已經(jīng)做得非常完善了。议薪。尤蛮。不過,根據(jù)我對Google基礎條件和數(shù)據(jù)準備情況的考察斯议,發(fā)現(xiàn)如果換一個思路來解決計算機回答復雜問題的難題产捞,就有可能另辟蹊徑解決或者至少部分解決這個難題。當我把這個想法告訴辛格博士時哼御,他的第一反應是”如果其他公司和研究所做不到坯临,我們是否有一些別人沒有的條件,使得我們能做到”恋昼,我回答他說看靠,是數(shù)據(jù)。接下來我向他介紹說液肌,可以將這個智能問題變成一個大數(shù)據(jù)的問題挟炬。
我們是否有一些別人沒有的條件,使得我們能做到;
七類問題辟宗;
這次技術(shù)革命的特點是機器的智能化爵赵,因此我們稱之為智能革命也毫不為過。
我們對大數(shù)據(jù)重要性的認識不應該停留在統(tǒng)計泊脐、改進產(chǎn)品和銷售空幻,或者提供決策的支持上,而應該看到它(和摩爾定律容客、數(shù)學模型一起)導致了機器智能的產(chǎn)生秕铛。而機器一旦產(chǎn)生和人類類似的智能,就將對人類社會產(chǎn)生重大的影響缩挑。毫不夸張地講但两,決定今后20年經(jīng)濟發(fā)展的是大數(shù)據(jù)和由之而來的智能革命。
決定今后20年經(jīng)濟發(fā)展的是大數(shù)據(jù)和由之而來的智能革命供置。
第三章? 思維的革命
在這一章谨湘,我們著重分析大數(shù)據(jù)重要性的另一個方面,即在方法論的層面芥丧,大數(shù)據(jù)是一種全新的思維方式紧阔。按照大數(shù)據(jù)的思維方式,我們做事情的方式與方法需要從根本上改變续担。
在無法確定因果關系時擅耽,數(shù)據(jù)為我們提供了解決問題的新方法,數(shù)據(jù)中所包含的信息可以幫助我們消除不確定性物遇,而數(shù)據(jù)之間的相關性在某種程度上可以取代原來的因果關系乖仇,幫助我們得到我們想知道的答案,這便是大數(shù)據(jù)思維的核心询兴。
幫助我們得到我們想知道的答案乃沙,這便是大數(shù)據(jù)思維的核心。
要說清楚大數(shù)據(jù)思維的重要性诗舰,需要先回顧一下自17世紀以來一直指導我們?nèi)粘W鍪滦袨榈南惹白钪匾囊环N思維方式——機械思維崔涂。今天說起機械思維,很多人馬上想到的是死板始衅、僵化冷蚂,覺得非常落伍,甚至”機械”本身都算不上什么好詞汛闸。但是在兩個世紀之前蝙茶,這可是一個時髦的詞,就如同今天我們說互聯(lián)網(wǎng)思維诸老、大數(shù)據(jù)思維很時髦一樣隆夯。可以毫不夸張地講,在過去的三個多世紀里蹄衷,機械思維可以算得上是人類總結(jié)出的最重要的思維方式忧额,也是現(xiàn)代文明的基礎。愧口。睦番。如果我們要想在”道”的層面了解大數(shù)據(jù),了解一種新的思維方式的重要性耍属,而不僅僅是將自己的追求停留在”術(shù)”的層面托嚣,那么我們就需要了解人類認識世界方法的演變和發(fā)展過程。
人類認知世界的演變和發(fā)展過程厚骗;
歐洲之所以能夠在科學上領先于世界其他地方示启,在很大程度上是依靠從古希臘建立起來的思辨的思想和邏輯推理的能力,依靠它們可以從實踐中總結(jié)出最基本的公理领舰,然后通過因果邏輯構(gòu)建起整個科學的大廈夫嗓。其中最有代表性的是歐幾里得的幾何學和托勒密的地心說。
歐幾里得最大的成就不是發(fā)現(xiàn)了那個幾何定理冲秽,而是在人類所積累起來的幾何學和數(shù)學知識的基礎上啤月,創(chuàng)立了基于公理化體系的幾何學。劳跃。。當時世界上其他任何文明都沒有建立起公理化體系的知識結(jié)構(gòu)浙垫,因此對世界的了解免不了支離破碎刨仑。在歐幾里得公理化的幾何學中,他首先總結(jié)出5條簡單得不能再簡單而且相互獨立的公設(Five Axioms)39夹姥,也就是說任何一條公理都無法從另外4條中推導出來杉武,而且這5條公理本身是不證自明的。接下來幾何學的一切定理都由定義和簡單得無法證明的5條公理直接(僅以公理和定義為前提)或者間接地(除了公理和定義辙售,還可以使用已經(jīng)證明的定理)演繹得出轻抱。
歐幾里得將他的公理化體系幾何學寫成了一本書,名為《幾何原本》旦部,這也是對世界影響力最大的一本書祈搜。歐幾里得的這種基于邏輯推理的公理化系統(tǒng)不僅為幾何學、數(shù)學和自然科學后來的發(fā)展奠定了基礎士八,而且對西方人的整個思維方法都有極大的影響容燕。。婚度。甚至在法學界蘸秘,整個羅馬法都是建立在類似于歐幾里得公理系統(tǒng)這樣的基礎上的,當然羅馬法里面的公理不是幾何學的,而是自然法40——所有的法律都可以從自然法中演繹出來醋虏。
在歐幾里得之后大約5個世紀寻咒,古希臘羅馬時代最偉大的天文學家托勒密將歐幾里得的這種方法論應用到天文學上,建立起一套完整颈嚼、嚴格而且相當精確的描述天體運動規(guī)律的理論體系毛秘,即地心說。粘舟。熔脂。其實,寫書表達思想是一件頗為主觀的事情柑肴,最重要的不是避免犯錯誤霞揉,而是不可缺乏思想。在我看來晰骑,托勒密在近代之前是當之無愧的最偉大的天文學家适秩,沒有之一。除了地心說硕舆,托勒密的貢獻還包括:發(fā)明了球坐標(我們今天還在用)秽荞,定義了包括赤道和零度經(jīng)線在內(nèi)的經(jīng)緯線(今天的地圖就是這么劃的),提出了黃道抚官,發(fā)明了弧度制扬跋,等等。這些貢獻隨便拎出一條凌节,都足以讓托勒密名垂青史钦听。。倍奢。和歐幾里得一樣朴上,托勒密不僅是一個構(gòu)建大系統(tǒng)的人,也是一個善于總結(jié)方法論的人卒煞。托勒密的方法論可以被概括為”通過觀察獲得數(shù)學模型的雛形痪宰,然后利用數(shù)據(jù)來細化模型。
托勒密的成就首先得益于過去上百年來的天文觀察數(shù)據(jù)畔裕,其次受益于歐幾里得和畢達哥拉斯的學說衣撬。托勒密將各種天文現(xiàn)象的共性,用最基本的扮饶、無法再簡化的原型(Meta Model)來描述淮韭。至于原型應該是什么,托勒密認為是圓贴届,因為畢達哥拉斯說圓是最完美的圖形靠粪。托勒密僅僅通過圓這種曲線蜡吧,以及不同大小的圓相互嵌套,把當時人們所知的天體運動的規(guī)律描述得清清楚楚占键。至于他提出的為什么是地心說而不是日心說昔善,原因很簡單,因為這最符合人們看到的現(xiàn)象——日月星辰都是從東邊升起畔乙,西邊落下君仆。
托勒密的思想影響了西方世界一千多年,這倒不完全是因為他的地心說牲距,而是他這種思維方式和方法論返咱。事實上后來的哥白尼和伽利略依然沒有擺脫托勒密的思維方式,盡管他們相信日心說牍鞠。哥白尼只是發(fā)現(xiàn)如果把托勒密坐標系的中心從地球移到太陽咖摹,就可以讓天體運動的模型簡單一些,但是他依然需要采用托勒密多個圓相互嵌套的模型难述。伽利略在科學上比哥白尼進步了很多萤晴,事實上真正讓人們相信日心說的是伽利略,而不是哥白尼(或者布魯諾)41胁后。但是店读,即便是伽利略,其研究方法和托勒密也如出一轍攀芯。
如果我們把他們的方法論做一個簡單的概括屯断,其核心思想有如下兩點:首先,需要有一個簡單的元模型侣诺,這個模型可能是假設出來的殖演,然后再用這個元模型構(gòu)建復雜的模型;其次紧武,整個模型要和歷史數(shù)據(jù)相吻合。這在今天動態(tài)規(guī)劃管理學上還被廣泛地使用敏储,其核心思想和托勒密的方法論是一致的阻星。
不過,托勒密的方法論有兩大缺陷已添。首先整體模型很復雜妥箕,原因是元模型用了再簡單不過的圓,這么復雜的模型依靠手工計算就難以準確更舞。托勒密方法論的第二缺陷是致命的畦幢,那就是確定性假設。它假定模型一旦產(chǎn)生缆蝉,就是確定的和不會改變的宇葱。機械論延續(xù)了這種先驗假設瘦真。托勒密的地心說模型和過去的數(shù)據(jù)吻合得天衣無縫,但是對未來的預測還是有微小的誤差的黍瞧,而這個誤差無法被修正诸尽。。印颤。當然這些瑕疵無損托勒密的偉大您机。
思維方式和方法遠不如方法論對科學的發(fā)展至關重要,東方的文明長期以來在技術(shù)上領先于西方年局,但是在科學體系的建立上遠遠落后于西方际看,關鍵是輸在方法論上。
最終矢否,發(fā)展科學方法的任務留給了笛卡兒和牛頓仲闽。笛卡兒的貢獻在于提出了科學的方法論,即大膽假設兴喂,小心求證蔼囊,這個方法論在我們今天的工作中還在使用。不過對近代社會思想貢獻最大的還是著名科學家和思想家牛頓衣迷。畏鼓。。西方人對牛頓評價之高是強調(diào)官本位的中國人難以想象的壶谒。云矫。。因為在歐美人看來汗菜,牛頓不僅是一位杰出的科學家让禀,而且是人類歷史上最重要的思想家之一。牛頓甚至被一些歷史學家認為是人類歷史上第二具有影響力的人物陨界,不僅排在愛因斯坦等所有的科學家之前巡揍,而且超過了耶穌和孔子。牛頓通過他在數(shù)學菌瘪、物理學腮敌、天文學和光學等諸多領域開創(chuàng)性的成績,總結(jié)出一種全新的方法論俏扩,不僅開創(chuàng)了科學的時代糜工、理性的時代,而且開啟了西方的近代社會录淡。
牛頓最直接的貢獻捌木,在于他用簡單而優(yōu)美的數(shù)學公式破解了自然之謎。牛頓在他的巨著《自然哲學之數(shù)學原理》(簡稱《原理》)一書中嫉戚,用幾個簡明的公式(力學三定律和萬有引力定律)破解了宇宙中萬物運動的規(guī)律刨裆,用微積分的概念把數(shù)學從靜止的變量拓展為連續(xù)變化函數(shù)澈圈。在他的《光學》一書中,他把看上去虛幻的光分解為單個原色崔拥。
牛頓通過自己的偉大成就宣告了科學時代的來臨极舔,作為思想家,他讓人們相信世界萬物的運動變化規(guī)律是可以被認識的链瓦。他告訴人們:世界萬物是運動的拆魏,而且這些運動遵循著確定性的規(guī)律,這些規(guī)律又是可以被認識的慈俯。牛頓的這些發(fā)現(xiàn)渤刃,給人類帶來了從未有過的自信。在牛頓之前贴膘,人類對自己能否認識自然是缺乏信心的卖子,那些我們今天看似不需要解釋的自然現(xiàn)象,比如蘋果為什么會落地刑峡,日月星辰為什么升起又落下洋闽,在當時卻是無法被人們認識的,因此人類對自然恐懼而迷信突梦。直到牛頓出現(xiàn)诫舅,人們才開始擺脫這種在大自然面前被動的狀態(tài),能夠主動地應用科學來把握未來宫患。與牛頓同時代的大科學家哈雷利用牛頓提出的原理刊懈,計算出了一顆彗星圍繞太陽運轉(zhuǎn)的周期,以及彗星每一次造訪地球的時間娃闲,這顆彗星后來就用他的名字命名了虚汛。后人利用牛頓的理論,能夠精確地預測出1000年后出現(xiàn)日食和月食的時間皇帮,這在過去是無法想象的卷哩。這也同時讓確定性這個詞深深地印入了人類的思想中。
因此属拾,從牛頓的時代開始将谊,科學家們都在致力于通過幾個公式來描述我們的世界,并且應用它們預測未知捌年。在牛頓之后瓢娜,英國的焦耳也通過一個簡單的公式描述了能量守恒原理县耽,而他們的另一位同胞麥克斯韋則通過幾個簡單的方程式描述了我們看不見摸不著的電磁世界换团。這些科學原理簡單的形式脑融,使得它們很容易地被應用到發(fā)明中。
從歐幾里得到托勒密再到牛頓托酸,在思想方法上可以說是一脈相承而又不斷發(fā)展的褒颈。牛頓不僅把歐幾里得通過邏輯推理建立起一個科學體系的方法論從數(shù)學擴展到自然科學領域,而且把托勒密用機械運動模型描述天體的規(guī)律励堡,擴展到對世界任何規(guī)律的描述谷丸。后來人們將牛頓的方法論概括為機械思維,其核心思想可以概括成這樣幾句話:
第一应结,世界變化的規(guī)律是確定的刨疼,這一點從托勒密到牛頓大家都認可。
第二鹅龄,因為有確定性做保障揩慕,因此規(guī)律不僅是可以被認識的,而且可以用簡單的公式或者語言描述清楚扮休。這一點在牛頓之前迎卤,大部分人并不認可,而是簡單地把規(guī)律歸結(jié)為神的作用玷坠。
第三蜗搔,這些規(guī)律應該是放之四海而皆準的,可以應用到各種未知領域指導實踐八堡,這種認識是在牛頓之后才有的樟凄。
這些其實是機械思維中積極的本質(zhì)。
從古希臘建立起來的思辨的思想和邏輯推理的能力秕重,依靠它們可以從實踐中總結(jié)出最基本的公理不同,然后通過因果邏輯構(gòu)建起整個科學的大廈。溶耘。二拐。最有代表性的是歐幾里得的幾何學和托勒密的地心說。凳兵。百新。他們都是構(gòu)建大系統(tǒng)的人,也是善于總結(jié)方法論的人庐扫,創(chuàng)建數(shù)學模型饭望,逐步優(yōu)化;
最重要的不是避免犯錯誤形庭,而是不可缺乏思想铅辞。
托勒密的思想影響了西方世界一千多年,這倒不完全是因為他的地心說萨醒,而是他這種思維方式和方法論斟珊。(后人提出日心說也是依據(jù)這種思維方式提出的)。
托勒密方法論:1富纸,創(chuàng)建簡單的元模型囤踩,進而構(gòu)建復雜的模型旨椒;2,整個模型和歷史數(shù)據(jù)相吻合堵漱;
笛卡爾方法論:大膽假設综慎,小心求證;
牛頓的方法論:機械思維勤庐;
牛頓:總結(jié)出一種全新的方法論示惊,不僅開創(chuàng)了科學的時代、理性的時代愉镰,而且開啟了西方的近代社會涝涤。牛頓最直接的貢獻,在于他用簡單而優(yōu)美的數(shù)學公式破解了自然之謎岛杀。牛頓通過自己的偉大成就宣告了科學時代的來臨阔拳,讓人們相信世界萬物的運動變化規(guī)律是可以被認識的。
歐幾里得幾何學的五條公設(Five Axioms):
1.由任意一點到另外任意一點可以畫直線类嗤。
2.一條有限直線可以繼續(xù)延長糊肠。
3.以任意點為心及任意的距離60可以畫圓。
4.凡直角都彼此相等遗锣。
5.平面內(nèi)一條直線和另外兩條直線相交货裹,若在某一側(cè)的兩個內(nèi)角的和小于二直角的和,則這二直線經(jīng)無限延長后在這一側(cè)相交精偿。61
歐幾里得幾何學的五條公理(Five Notions):
1.等于同量62的量彼此相等弧圆。
2.等量加等量,其和仍相等笔咽。
3.等量減等量搔预,其差仍相等。
4.彼此能重合的物體是全等63的叶组。
5.整體大于部分拯田。
工業(yè)革命,機械思維的結(jié)果
在牛頓和瓦特之前甩十,一項技術(shù)的進步需要非常長的時間來積累經(jīng)驗船庇,或者用今天的話講就是獲得數(shù)據(jù)、信息和知識侣监,這個過程常常要持續(xù)經(jīng)過很多代人鸭轮。
瓦特和他之前的工匠都不同,他是通過科學原理直接改進蒸汽機橄霉,而不是靠長期經(jīng)驗的積累窃爷。
瓦特的合伙人博爾頓對通用性的重要性有著先見之明,他明確地指出,他和瓦特所做的事情是為工業(yè)提供動力吞鸭,而不簡簡單單是一種機器。這也是機械思維的重要特征——所有問題有一個通用的解決方法覆糟。刻剥。。正是因為瓦特蒸汽機的這個特性滩字,才使得工業(yè)革命后有了”蒸汽機+現(xiàn)有產(chǎn)業(yè)=新產(chǎn)業(yè)”的模式造虏。。麦箍。瓦特的成功不僅是技術(shù)的勝利漓藕,更重要的是他掌握了新的方法論——機械思維。
后人這樣評價牛頓和瓦特這兩位英國的杰出人物:牛頓找到了開啟工業(yè)革命大門的鑰匙挟裂,而瓦特拿著這把鑰匙開啟了工業(yè)革命的大門享钞。
機械的廣泛使用和機械的思維方式直接導致了人類迄今為止最為偉大的事件——工業(yè)革命。在工業(yè)革命之前的兩千年里诀蓉,世界各地的人們的生活水平其實沒有太大的提高栗竖。已故著名歷史學家安格斯·麥迪森(Angus Maddison,1926~2010)對全球各個文明在不同歷史時期所做的經(jīng)濟學研究發(fā)現(xiàn)渠啤,世界人均財富從公元元年左右到18世紀工業(yè)革命前是沒有提高的43狐肢。但是,到了工業(yè)革命之后沥曹,情況就大不相同了份名。馬克思曾經(jīng)講過:”資產(chǎn)階級在其不到100年的階級統(tǒng)治中所創(chuàng)造的生產(chǎn)力,比過去一切時代創(chuàng)造的全部生產(chǎn)力還要多妓美,還要大僵腺。”44相比工業(yè)革命壶栋,任何王侯將相所謂的豐功偉績都顯得微不足道想邦。。委刘。工業(yè)革命帶來的不僅是財富丧没,也大大延長了人類的壽命。锡移。呕童。由此可見,一種新的思維方式對人類文明進步的重要性淆珊。
機械思維對世界的影響力并沒有隨著工業(yè)革命的結(jié)束而結(jié)束夺饲,從牛頓時代開始接下來的3個世紀里,人類越來越習慣于用機械的方式描述一切,這就如同在托勒密的時代人們習慣于把一切運動歸結(jié)為圓周運動一樣往声。機械思維從此滲透到社會生活的方方面面擂找,人們相信能夠用機械解決一切問題,包括很多過去無法解決的問題浩销。
瑞士的能工巧匠們將機械的威力發(fā)揮到了極致贯涎,他們制造的那些精致而昂貴的機械表不僅可以指示時間,而且可以準確地預測上百年的太陽歷慢洋、陰歷和主要星辰的運動塘雳,甚至可以通過機械振動演奏音樂。
機械思維更廣泛的影響力是作為一種準則指導人們的行為普筹,其核心思想可以概括成確定性(或者可預測性)和因果關系败明。
積累:數(shù)據(jù)、信息和知識太防;
機械的廣泛使用和機械的思維方式直接導致了人類迄今為止最為偉大的事件——工業(yè)革命妻顶。
牛頓找到了開啟工業(yè)革命大門的鑰匙,而瓦特拿著這把鑰匙開啟了工業(yè)革命的大門蜒车。
相比工業(yè)革命盈包,任何王侯將相所謂的豐功偉績都顯得微不足道。
牛頓之后的3個世紀里醇王,人們相信能夠用機械解決一切問題呢燥,包括很多過去無法解決的問題。
要理解機械思維深遠的影響力寓娩,就必須談談愛因斯坦叛氨。大家都知道,愛因斯坦是現(xiàn)代物理學的集大成者棘伴,他不僅在物理學上突破了牛頓理論寞埠,而且在物理學幾乎每個領域都有所建樹,但是他的思維方式其實和牛頓是一致的焊夸。牛頓的物理學理論是建立在確定性基礎仁连,即所謂的絕對時空45之上的,他發(fā)現(xiàn)萬有引力定律則是尋找因果關系的結(jié)果阱穗。牛頓發(fā)現(xiàn)行星圍繞太陽運動這個結(jié)果饭冬,然后找到了萬有引力這個原因。愛因斯坦的研究方式是類似的揪阶,他的理論也是建立在一種確定性——光速恒定的基礎之上的昌抠,基于這種假設,利用邏輯推理鲁僚,就可以推導出整個狹義相對論炊苫。就連愛因斯坦自己也說裁厅,如果不是他,也會有人在很短的時間內(nèi)發(fā)現(xiàn)狹義相對論侨艾,因為狹義相對論就是光速恒定的必然結(jié)果执虹。類似地,如果將重力和加速度等價起來唠梨,利用因果邏輯袋励,就能推導出廣義相對論。愛因斯坦的相對論在形式上和牛頓力學也有相似之處姻成,簡單而美妙,幾個公式就把整個理論描述清楚了愿棋。
要想讓結(jié)果被人們接受科展,就必須知道原因。這是從笛卡兒開始總結(jié)出科學方法以來全世界科學家們都必須遵守的原則糠雨。
機械思維的局限性更多來源于它否認不確定性和不可知性才睹。愛因斯坦有句名言——”上帝不擲色子”,這是他在和量子力學的發(fā)明人波爾等人爭論時講的話甘邀。今天我們知道琅攘,在這場爭論中,波爾等人是正確的松邪,愛因斯坦錯了坞琴,上帝也擲色子。著名物理學家張首晟教授喜歡用三個公式概括人類最高的文明成就:
愛因斯坦的質(zhì)能轉(zhuǎn)換公式E=mc2
量子力學中的測不準原理△t·△p>ε
熵的定義H=-∑iPilogPi
張教授把波爾和愛因斯坦的公式同時放上去了逗抑,反映出機械思維的兩面性——善于把握確定性而難以解決不確定性問題剧辐。
機械思維的局限性更多來源于它否認不確定性和不可知性。
在青霉素被發(fā)明和使用之前邮府,不論是東方人還是西方人荧关,一旦得了病,能否治好很大程度上只有聽天由命褂傀。我們今天無法想象天天生活在對疾病和死亡的恐懼中是怎樣的感覺忍啤,但是半個多世紀前人類就是生活在對未來不確定的陰影中。青霉素改變了這一切仙辟。同波。。青霉素和其他抗生素的發(fā)明叠国,實際上遵循了”分析找到原因参萄,根據(jù)原因得到結(jié)果”的思維方式,或者說知其然也知其所以然煎饼。這種方法帶來的好處是有目共睹的讹挎,工業(yè)革命后人類壽命的提高都是依靠這種方法校赤。相反,傳統(tǒng)醫(yī)學常常不遵循因果關系筒溃,是“不知其所以然”马篮,因此治病的效果也是時好時壞,然后醫(yī)生們用一些似是而非的語言解釋他們其實并沒有搞清楚的原因怜奖。
從牛頓開始浑测,人類社會的進步在很大程度上得益于機械思維,但是到了信息時代歪玲,它的局限性也越來越明顯迁央。首先,并非所有的規(guī)律都可以用簡單的原理描述滥崩;其次岖圈,像過去那樣找到因果關系已經(jīng)變得非常困難,因為簡單的因果關系規(guī)律性都被發(fā)現(xiàn)了钙皮。另外蜂科,隨著人類對世界認識得越來越清楚,人們發(fā)現(xiàn)世界本身存在著很大的不確定性短条,并非如過去想象的那樣一切都是可以確定的导匣。因此,在現(xiàn)代社會里茸时,人們開始考慮在承認不確定性的情況下如何取得科學上的突破贡定,或者把事情做得更好。這也就導致一種新的方法論誕生可都。
并非所有的規(guī)律都可以用簡單的原理描述厕氨。在現(xiàn)代社會里,人們開始考慮在承認不確定性的情況下如何取得科學上的突破汹粤,或者把事情做得更好命斧。
世界的不確定性
不確定的現(xiàn)象:很多時候?qū)<覀儗ξ磥砀鞣N趨勢的預測是錯的,這在金融領域尤其常見嘱兼。如果讀者有心統(tǒng)計一些經(jīng)濟學家們對未來的看法国葬,就會發(fā)現(xiàn)它們基本上是對錯各一半。這并不是因為他們?nèi)狈I(yè)知識芹壕,而是由于不確定性是這個世界的重要特征汇四,以至于我們按照傳統(tǒng)的方法——機械論的方法難以做出準確的預測。
世界的不確定性來自兩方面:
1踢涌,首先是當我們對這個世界的方方面面了解得越來越細致之后通孽,會發(fā)現(xiàn)影響世界的變量其實非常多,已經(jīng)無法通過簡單的辦法或者公式算出結(jié)果睁壁,因此我們寧愿采用一些針對隨機事件的方法來處理它們背苦,人為地把它們歸為不確定的一類互捌。
2,不確定性的第二個因素來自客觀世界本身行剂,它是宇宙的一個特性秕噪。在宏觀世界里,行星圍繞恒星運動的速度和位置是可以計算得很準確的厚宰,從而可以畫出它的運動軌跡腌巾。但是在微觀世界里,電子在圍繞原子核做高速運動時铲觉,我們不可能同時準確地測定出它在某一時刻的位置和運動速度澈蝙,當然也就不能描繪出它的運動軌跡了。這并非我們的儀器不夠準確撵幽,而是因為這是原子本身的特性灯荧。在量子力學中有一個測不準原理,也就是說并齐,像電子這樣的基本粒子的位置的測量誤差和動量的測量誤差的乘積不可能無限小漏麦。這與機械思維所認定的世界的確定性是相違背的客税。為什么會有這樣的現(xiàn)象存在呢况褪?因為我們測量活動本身影響了被測量的結(jié)果。
如果世界充滿了不確定性更耻,我們對未來世界的認識是否又回到了牛頓之前的不可知狀態(tài)?答案是否定的测垛。就拿微觀世界的電子運動來說,雖然我們無法確定電子的準確位置和速度秧均,但是能夠知道它在一定時間內(nèi)在核外空間各處出現(xiàn)的概率食侮,因此科學家們用一種密度模型來描述電子的運動。在這個模型里目胡,密度大的地方锯七,表明電子在那里出現(xiàn)的機會多,反之誉己,則表明電子出現(xiàn)的機會少眉尸。這個模型很像在原子核外有一層密度不等的”云”,因此也被形象地稱為”電子云”巨双。在現(xiàn)實生活中情況也是類似的噪猾,不論是因為數(shù)據(jù)量太大導致的不確定性,還是因為世界本身帶有的不確定性筑累,總之袱蜡,世界上很多事情是難以用確定的公式或者規(guī)則來表示的。但是慢宗,它們并非沒有規(guī)律可循坪蚁,通潮即可以用概率模型來描述。在概率論的基礎上迅细,香農(nóng)博士建立起一套完整的理論巫橄,將世界的不確定性和信息聯(lián)系了起來,這就是信息論茵典。信息論不僅僅是通信的理論湘换,也給了人們一種看待世界和處理問題的新思路。
不確定性的原因:1统阿,對世界的認知越深入彩倚,發(fā)現(xiàn)影響因素越多;2扶平,不確定性是宇宙的基本特性帆离;
在概率論的基礎上,香農(nóng)博士建立起一套完整的理論结澄,將世界的不確定性和信息聯(lián)系了起來哥谷,這就是信息論。
對于確定的世界麻献,可以使用確定的公式或規(guī)則來描述们妥;對于不確定性的世界的描述,不再是確定的公式或規(guī)則來描述勉吻。
概率論研究的是不確定性监婶,是區(qū)別于機械思維確定性的另一半世界,不確定性齿桃;
熵 ?—— ?一種新的世界觀
信息論最初是通信的理論惑惶。信息這個詞如今我們每天都能夠聽到,有時我們會用信息量大短纵、信息量小這類說法带污,但是到底有多少信息算是信息量大,其實很多人并沒有仔細地想過香到。我們進一步刨根問底鱼冀,信息是否能夠被量化地度量?(注意區(qū)分數(shù)據(jù)量和信息量)
那么如何度量信息呢养渴?這個問題其實是幾千年來很多人想知道卻無法回答的問題雷绢。直到1948年,克勞迪·香農(nóng)在他著名的論文《通信的數(shù)學原理》(A Mathematic Theory of Communication)中提出了”信息熵”的概念理卑,才解決了對信息的度量問題翘紊,并且量化地給出了信息的作用。同時藐唠,香農(nóng)還把信息和世界的不確定性帆疟,或者說無序狀態(tài)聯(lián)系到了一起鹉究。
在玻爾茲曼之前,制作蒸汽機的工程師們已經(jīng)發(fā)現(xiàn)了熱力學第二定律48踪宠,其中魯?shù)婪颉た藙谛匏梗≧udolf Clausius)提出了一種叫作”熵”的概念自赔,來描述一個系統(tǒng)中趨向于恒溫的程度。當這個系統(tǒng)完全達到恒溫時柳琢,就無法做功了绍妨,這時熵最大。但是在玻爾茲曼之前的工程師和科學家們都沒能解釋其中的原因柬脸。玻爾茲曼則把熵(宏觀特性Entropy)和封閉系統(tǒng)的無序狀態(tài)(每一個分子的微觀特性Ω)聯(lián)系起來他去,即:
E=k log(Ω)
其中k被稱為玻爾茲曼常數(shù)。玻爾茲曼等人還發(fā)現(xiàn)倒堕,在一個封閉的系統(tǒng)中灾测,熵永遠是朝著不斷增加的方向發(fā)展的,也就是說從微觀上講垦巴,這個系統(tǒng)越來越無序媳搪,從宏觀上看它趨于恒溫。
香農(nóng)在信息論中借用了熱力學里熵的概念骤宣,他用熵來描述一個信息系統(tǒng)的不確定性秦爆。接下來香農(nóng)指出,信息量與不確定性有關:假如我們需要搞清楚一件非常不確定的事涯雅,或是我們一無所知的事情鲜结,就需要了解大量的信息展运。相反活逆,如果我們對某件事已經(jīng)有了較多的了解,那么不需要太多的信息就能把它搞清楚拗胜。所以蔗候,從這個角度來看,可以認為埂软,信息量的度量就等于不確定性的多少锈遥,這樣香農(nóng)就把熵和信息量聯(lián)系起來了。他還指出要想消除系統(tǒng)內(nèi)的不確定性勘畔,就要引入信息所灸。
在科學上,香農(nóng)的貢獻在于第一次量化地度量信息炫七,并且用數(shù)學的方法將通信的原理解釋得一清二楚爬立。。万哪。雖然香農(nóng)提出信息論最初的目的只是建立通信的科學理論侠驯,但是抡秆,信息論的作用遠不止在科學和工程上——它也是一種全新的方法論。與機械思維是建立在一種確定性的基礎上所截然不同的是吟策,信息論完全是建立在不確定性基礎上儒士,而要想消除這種不確定性,就要引入信息檩坚。至于要引入多少信息着撩,則要看系統(tǒng)中的不確定性有多大。這種思路成為信息時代做事情的根本方法匾委。
信息時代的方法論:誰掌握了信息睹酌,誰就能夠獲取財富,這就如同在工業(yè)時代剩檀,誰掌握了資本誰就能獲取財富一樣憋沿。
當然,用不確定性這種眼光看待世界沪猴,再用信息消除不確定性辐啄,不僅能夠賺錢,而且能夠把很多智能型的問題轉(zhuǎn)化成信息處理的問題运嗜,具體說桨嫁,就是利用信息來消除不確定性的問題忧侧。比如下象棋,每一種情況都有幾種可能,卻難以決定最終的選擇捉撮,這就是不確定性的表現(xiàn)。
為此紧憾,在信息論里用互信息這個概念结笨,實現(xiàn)了對相關性的量化度量。
香農(nóng)除了給出對信息和互信息的量化度量之外尝艘,還給出了兩個相關信息處理和通信的最基本的定律演侯,即香農(nóng)第一定律和香農(nóng)第二定律。這兩個定律對于信息時代的作用堪比牛頓力學定律對機械時代的作用背亥。
香農(nóng)第一定律秒际,也稱為香農(nóng)信源編碼定律,它大致的含義是這樣的:假定有一個信息源狡汉,里面有N種信息娄徊,現(xiàn)在我們需要對這N種信息一一進行編碼,比如我們用0011表示第一種信息盾戴,10000111表示第二種……這些編碼當然不能重復寄锐,否則我們就無法根據(jù)編碼來斷定是哪一種信息了。雖然編碼可以有很多種方法,但是有的方法效率高锐峭,有的則效率低中鼠,或者說用了很長的編碼才能表示一個信息。香農(nóng)第一定律講的是沿癞,對于信源發(fā)出的所有信息設計一種編碼援雇,那么編碼的平均長度一定大于該信源的信息熵,但同時香農(nóng)還指出椎扬,一定存在一種編碼方式惫搏,使得編碼的平均長度無限接近于它的信息熵。蚕涤。筐赔。香農(nóng)第一定律不僅是現(xiàn)代通信的基礎,也代表了一種新的方法論揖铜。經(jīng)濟學上的吉爾德定律(Gilder’s Law)茴丰,即盡量多地采用便宜的資源,盡可能節(jié)省貴的資源天吓,與信息論中的霍夫曼編碼從本質(zhì)上講是相同的贿肩。在信息時代,由于摩爾定律的作用龄寞,計算機是便宜的資源汰规,而且越來越便宜,人力成本則會越來越高物邑,因此聰明的公司懂得利用計算機來取代人的工作溜哮,像Google或者Facebook這樣的公司,都是盡可能地將越來越多的事情交給機器去做色解,而不是雇用很多人茂嗓。
香農(nóng)第二定律,通俗地講就是信息的傳播速率不可能超過信道的容量冒签,這和我們的現(xiàn)實生活也是契合的在抛。我們經(jīng)歷了互聯(lián)網(wǎng)發(fā)展全過程的這一代人都有這樣一種體會钟病,互聯(lián)網(wǎng)發(fā)展的各個階段實際上是建立在不斷拓寬帶寬的基礎之上的萧恕。早期,我們使用電話調(diào)制解調(diào)器肠阱,然后開始使用DSL(數(shù)字用戶線路)票唆,再到后來使用寬帶電纜,最后到光纖屹徘,都是圍繞著不斷增加信道容量而進行的走趋,只有信道的容量增加了,傳輸率才能上去噪伊,我們才能從閱讀文字簿煌,到看圖片氮唯,到看視頻,再到看高清視頻姨伟,整個互聯(lián)網(wǎng)才能得到發(fā)展惩琉。在香農(nóng)提出他的第二定律之后,人類就開始有意識地不斷擴展帶寬夺荒。瞒渠。。香農(nóng)第二定律不僅描述了通信領域最根本的規(guī)律技扼,而且它是自然界本身所固有的規(guī)律伍玖,能夠解釋很多商業(yè)行為。比如我們常說做生意要靠人脈剿吻,其實這個人脈就是人與人交往的帶寬窍箍。如果人脈不夠,發(fā)出的信息和獲得的信息都有限丽旅,生意一定做不大∽醒啵現(xiàn)代通信手段的本質(zhì),就是以相對低廉的成本讓人們獲得人脈魔招,而媒體行業(yè)的不斷進步晰搀,本質(zhì)上是不斷地在為企業(yè)拓寬對外連接的帶寬,使得它們做生意越來越方便办斑。
關于信息論外恕,還有一個原理必須了解,那就是最大熵原理乡翅。這個原理的大意是說鳞疲,當我們要對未知的事件尋找一個概率模型時,這個模型應當滿足我們所有已經(jīng)看到的數(shù)據(jù)蠕蚜,但是對未知的情況不要做任何主觀假設尚洽。在很多領域,尤其是金融領域靶累,采用最大熵原理要比任何人為假定的理論更有效腺毫,因此它被廣泛地用于機器學習。最大熵原理實際上已經(jīng)不同于我們使用了幾百年的“大膽假設挣柬、小心求證”的方法論潮酒,因為它要求不引入主觀的假設。當然邪蛔,不做主觀假設的前提是取得了足夠多的數(shù)據(jù)急黎,否則最大熵模型只能給出一些平均值而已,而不能對任何細節(jié)進行描述和預測。
今天勃教,信息論已經(jīng)被廣泛地用于管理淤击,因為它為我們提供了信息時代的方法論。而熵這個詞故源,也成了信息論和不確定性的代名詞遭贸。也正是因為如此,張首晟教授和我都認為它代表了人類對我們的世界認知度的最高境界心软。
香農(nóng):信息論壕吹,是建立在不確定性基礎上的全新的方法論;
工業(yè)時代删铃,誰掌握了資本耳贬,誰就能獲取財富,信息時代猎唁,誰掌握了信息咒劲,誰就掌握了財富;
用不確定性看待世界诫隅,再用信息消除不確定性腐魂,將智能型的問題轉(zhuǎn)化為信息處理的問題;找到能消除不確定性的信息逐纬;僅此而已蛔屹!
《信息論》
盡量多地采用便宜的資源,盡可能節(jié)省貴的資源豁生。
低成本的獲取人脈兔毒;
香農(nóng)第一、第二定律甸箱;
最大熵原理:建立一個概率模型時育叁,只用符合當前的所有的數(shù)據(jù),而對未來不做主觀的假設芍殖;這就與笛卡爾的 “大膽假設豪嗽,小心求證”的方法論不同;
熵:信息論豌骏,不確定性的代名詞龟梦;
信息論,是信息時代的方法論肯适,它代表了人類對我們的世界認知度的最高境界变秦。
大數(shù)據(jù)的本質(zhì)
首先我們必須承認世界的不確定性,這樣我們就不會采用確定性的思維方式去面對一個不確定性的世界框舔。
大數(shù)據(jù)的三個特征,即數(shù)據(jù)量大、多維度和完備性刘绣,我們可以從信息論出發(fā)樱溉,對它們的重要性和必要性一一做出解釋。在這個基礎之上纬凤,我們就能夠講清楚大數(shù)據(jù)的本質(zhì)福贞。
信息論里一個重要的概念——交叉熵,這個概念并非由香農(nóng)提出的停士,而是由庫爾貝克等人提出的挖帘,因此在英文里更多地被稱為庫爾貝克~萊伯勒距離(Kullback~Leibler Divergence),它可以反映兩個信息源之間的一致性恋技,或者兩種概率模型之間的一致性拇舀。當兩個數(shù)據(jù)源完全一致時,它們的交叉熵等于零蜻底,當它們相差很大時骄崩,交叉熵也很大。
大數(shù)據(jù)的科學基礎是信息論薄辅,它的本質(zhì)就是利用信息消除不確定性要拂。雖然人類使用信息由來已久,但是到了大數(shù)據(jù)時代站楚,量變帶來質(zhì)變脱惰,以至于人們忽然發(fā)現(xiàn),采用信息論的思維方式可以讓過去很多難題迎刃而解窿春。
大數(shù)據(jù)的三個特征枪芒,即數(shù)據(jù)量大、多維度和完備性谁尸;
大數(shù)據(jù)的科學基礎是信息論舅踪;
交叉熵:反應信息源之間的一致性;
從因果關系到強相關性
現(xiàn)代醫(yī)學里新藥的研制良蛮,就是典型的利用因果關系解決問題的例子抽碌。。决瞳。我們在前面講到的青霉素的發(fā)明過程就非常具有代表性货徙。“在整個青霉素和其他抗生素的發(fā)明過程中皮胡,人類就是不斷地分析原因痴颊,然后尋找答案(結(jié)果)。當然屡贺,通過這種因果關系找到的答案非常讓人信服蠢棱。
其他新藥的研制過程和青霉素很類似锌杀,科學家們通常需要分析疾病產(chǎn)生的原因,尋找能夠消除這些原因的物質(zhì)泻仙,然后合成新藥糕再。這是一個非常漫長的過程,而且費用非常高玉转。在七八年前突想,研制一種處方藥已經(jīng)需要花費10年以上的時間,投入10億美元的科研經(jīng)費究抓,如今猾担,時間和費用成本都進一步提高;一些專家刺下,比如斯坦福醫(yī)學院院長米納(Lloyd Minor)教授則估計需要20年的時間绑嘹,20億美元的投入。這也就不奇怪為什么有效的新藥價格都非常昂貴怠李,因為如果不能在專利有效期內(nèi)54賺回20億美元的成本圾叼,就不可能有公司愿意投錢研制新藥了。
按照因果關系捺癞,研制一種新藥就需要如此長的時間夷蚊、如此高的成本。髓介。惕鼓。如今,有了大數(shù)據(jù)唐础,尋找特效藥的方法就和過去有所不同了箱歧。美國一共只有5000多種處方藥,人類會得的疾病大約有一萬種一膨。如果將每一種藥和每一種疾病進行配對呀邢,就會發(fā)現(xiàn)一些意外的驚喜。比如斯坦福大學醫(yī)學院發(fā)現(xiàn)豹绪,原來用于治療心臟病的某種藥物對治療某種胃病特別有效价淌。當然,為了證實這一點需要做相應的臨床試驗瞒津,但是這樣找到治療胃病的藥只需要花費3年時間蝉衣,成本也只有1億美元。這種方法巷蚪,實際上依靠的并非因果關系病毡,而是一種強關聯(lián)關系,即A藥對B病有效屁柏。至于為什么有效啦膜,接下來3年的研究工作實際上就是在反過來尋找原因有送。這種先有結(jié)果再反推原因的做法,和過去通過因果關系推導出結(jié)果的做法截然相反功戚。無疑娶眷,這樣的做法會比較快似嗤,當然啸臀,前提是有足夠多的數(shù)據(jù)支持。烁落。乘粒。但是在過去,由于數(shù)據(jù)量有限伤塌,而且常常不是多維度的灯萍,這樣的相關性很難找得到,即使偶爾找到了每聪,人們也未必接受旦棉,因為這和傳統(tǒng)的觀念不一樣。
我們在前面提到药薯,能通過因果關系找到答案绑洛,根據(jù)因果關系知道原因固然好,但是對于復雜的問題童本,其難度非常大真屯,除了靠物質(zhì)條件、人們的努力穷娱,還要靠運氣绑蔫。牛頓和愛因斯坦都是運氣很好的人。遺憾的是泵额,大部分時候我們并沒有靈感和運氣配深,因此很多問題得不到解決。在大數(shù)據(jù)時代嫁盲,我們能夠得益于一種新的思維方法——從大量的數(shù)據(jù)中直接找到答案篓叶,即使不知道原因。這一方面給了我們一個找捷徑的方法亡资,同時我們不會因為缺乏運氣而被問題難倒澜共;另一方面,這種找不出原因的答案我們是否敢接受呢锥腻?如果我們愿意接受嗦董,那么我們的思維方式已經(jīng)跳出了機械時代單純追求因果關系的做法,開始具有大數(shù)據(jù)思維了瘦黑。
通過因果關系找到答案固然好京革,但面對復雜的問題奇唤,找到因果關系非常難,大數(shù)據(jù)時代匹摇,提供一種新的思維方法---從大數(shù)據(jù)中找到答案咬扇,即使不知道原因;找到原因之后廊勃,干部昂接收懈贺,也是一個問題;
大數(shù)據(jù)公司Google
在一般人眼里坡垫,Google是一家高科技公司梭灿,不斷地研發(fā)新的技術(shù),并且成功地將一部分技術(shù)轉(zhuǎn)化成了產(chǎn)品冰悠。但是堡妒,它從根本上講其實是一家數(shù)據(jù)公司。著名的機器智能專家溉卓,前Google研究院院長諾威格博士對Google的這個本質(zhì)有深刻的認識皮迟。他在接受母校(加州大學伯克利分校)授予他的榮譽證書時,曾經(jīng)這樣講述他為什么要加入Google:2001年桑寨,當全球互聯(lián)網(wǎng)泡沫破碎后伏尼,大家都在逃離這個領域,很多人從互聯(lián)網(wǎng)行業(yè)回到了學術(shù)界西疤。人們問我為什么在這樣一個時候離開NASA(美國國家航空航天局)烦粒,加入Google這家不大的互聯(lián)網(wǎng)公司。我和他們講了大蕭條時期(1929~1933年)的一個故事代赁。在大蕭條時扰她,有些人買了銀行的股票,后來都發(fā)了財芭碍。事后人們問那些買了銀行股票的人為什么在銀行如此糟糕時敢買它們的股票徒役,那些投資人講,“因為全世界的錢都在它們那里窖壕∮俏穑”所以,加入Google的決定并不難做瞻讽,因為全世界的數(shù)據(jù)都在Google那里鸳吸。
今天,各個搜索引擎都有一個度量用戶點擊數(shù)據(jù)和搜索結(jié)果相關性的模型速勇,通常被稱為“點擊模型”晌砾。隨著數(shù)據(jù)量的積累,點擊模型對搜索結(jié)果排名的預測越來越準確烦磁,它的重要性也越來越大养匈。今天哼勇,它在搜索排序中至少占70%~80%的權(quán)重59,也就是說搜索算法中其他所有的因素加起來都不如它重要呕乎。換句話說积担,在今天的搜索引擎中,因果關系已經(jīng)沒有數(shù)據(jù)的相關性重要了猬仁。當然帝璧,點擊模型的準確性取決于數(shù)據(jù)量的大小。逐虚。聋溜。微軟的搜索引擎在很長的時間里做不過Google的主要原因并不在于算法本身谆膳,而是因為缺乏數(shù)據(jù)叭爱。同樣的道理,在中國漱病,搜狗等小規(guī)模的搜索引擎相對百度最大的劣勢也在于數(shù)據(jù)量上买雾。。杨帽。當整個搜索行業(yè)都意識到點擊數(shù)據(jù)的重要性后漓穿,這個市場上的競爭就從技術(shù)競爭變成了數(shù)據(jù)競爭。這時注盈,各公司的商業(yè)策略和產(chǎn)品策略就都圍繞著獲取數(shù)據(jù)晃危、建立相關性而開展了。后進入搜索市場的公司要想不坐以待斃老客,唯一的辦法就是快速獲得數(shù)據(jù)僚饭。。胧砰。搜索質(zhì)量的競爭就成了瀏覽器或者其他客戶端軟件市場占有率的競爭鳍鸵。雖然在外人看來這些互聯(lián)網(wǎng)公司競爭的是技術(shù),但更準確地講尉间,它們是在數(shù)據(jù)層面競爭偿乖。
在Google內(nèi),點擊模型的使用標志著工作方法從傳統(tǒng)的“遵循因果關系”哲嘲,逐步變成了“尋找相關性”贪薪。今天,Google至少有1/3~2/5的工程師每天的工作就是處理數(shù)據(jù)眠副。Google的關鍵詞廣告系統(tǒng)AdWords不僅是互聯(lián)網(wǎng)世界最賺錢的產(chǎn)品画切,對廣告商來講也是廣告效果最好的平臺。Google是如何做到兼顧自己的利益和廣告商的利益的呢侦啸?Google的銷售人員對外宣傳是技術(shù)好槽唾,這種說法當然沒有錯丧枪,但是更準確的說法是它從一開始就積累了大量的各種數(shù)據(jù),并且善于利用數(shù)據(jù)庞萍。Google在搜索結(jié)果頁投放廣告時拧烦,不僅要考慮廣告主的出價,還要考慮它與搜索的結(jié)果是否相關钝计,該廣告本身的質(zhì)量恋博,以及在歷史上用戶點擊這個廣告的比例。這樣一來私恬,那些不太可能產(chǎn)生點擊的廣告债沮,或者質(zhì)量不高的廣告,Google就展示得很少本鸣。對廣告主來講省了錢疫衩,對Google來講,把資源(有限而寶貴的搜索流量)留給了可能被點擊的廣告荣德,收入也有所增加闷煤。更重要的是,給用戶的體驗要比到處放廣告的網(wǎng)站要好很多涮瞻。值得一提的是鲤拿,Google的廣告系統(tǒng)每次播放什么廣告,不是由任何規(guī)則決定的署咽,而完全是利用數(shù)據(jù)近顷、挖掘相關性的結(jié)果。宁否。窒升。Google和很多互聯(lián)網(wǎng)公司之所以能夠取得成功,不僅僅是靠技術(shù)家淤,靠數(shù)據(jù)异剥,更是靠采用了大數(shù)據(jù)時代的方法論,或者說大數(shù)據(jù)思維絮重。
小規(guī)模的搜索引擎相對百度最大的劣勢也在于數(shù)據(jù)量上冤寿。
當整個搜索行業(yè)都意識到點擊數(shù)據(jù)的重要性后,這個市場上的競爭就從技術(shù)競爭變成了數(shù)據(jù)競爭青伤。
你所參與的競爭督怜,本質(zhì)上是什么競爭!
根據(jù)用戶使用的場景狠角,植入不同的廣告号杠,提高點擊率,平臺多賺錢,點擊率不高的廣告主多省錢姨蟋;
小結(jié)
很多時候,落后與先進的差距眼溶,不是購買一些機器或者引進一些技術(shù)就能夠彌補的悠砚,落后最可怕的地方是思維方式的落后。西方在近代走在了世界前列堂飞,很大程度上靠的是思維方式全面領先灌旧。
思維方式的差別是最致命的;
绰筛。