《數(shù)學(xué)之美》
作者是“得到”App專欄《吳軍的谷歌方法論》的主理人吳軍颈将。
我們每個(gè)人都是從小就開始學(xué)數(shù)學(xué)梢夯,但是除了少數(shù)學(xué)霸之外,多數(shù)人說起數(shù)學(xué)晴圾,恐怕都會(huì)覺得太難颂砸、太深?yuàn)W。而且很多時(shí)候死姚,似乎我們的工作也不需要那么多復(fù)雜的數(shù)學(xué)知識(shí)人乓。或許你還會(huì)發(fā)出一個(gè)疑問:我并不以數(shù)學(xué)為生都毒,那我真的需要理解數(shù)學(xué)嗎色罚?
不過有些事實(shí)我們無法回避,這個(gè)世界屬于科學(xué)范疇的各種知識(shí)账劲,它的底層邏輯戳护,幾乎都離不開數(shù)學(xué)。我們現(xiàn)代生活的方方面面瀑焦,無論是現(xiàn)實(shí)的物質(zhì)世界腌且,還是虛擬的網(wǎng)絡(luò)社會(huì),都建立在一個(gè)用數(shù)學(xué)知識(shí)為基礎(chǔ)的復(fù)雜結(jié)構(gòu)里榛瓮。
《數(shù)學(xué)之美》這本書最大的價(jià)值铺董,是告訴我們,數(shù)學(xué)是以什么方式定義了我們的世界禀晓,數(shù)學(xué)思維的魅力究竟在哪里精续。你可以不懂那么多復(fù)雜的公式,但如果你理解了數(shù)學(xué)背后的思維方式粹懒,有了感知和理解這個(gè)世界的能力重付,就會(huì)進(jìn)入一個(gè)新境界。
這里崎淳,我再簡要介紹一下本書的作者吳軍老師堪夭,他先后供職于谷歌和騰訊,是谷歌中日韓文搜索算法的主要設(shè)計(jì)者拣凹。他在谷歌期間領(lǐng)導(dǎo)參與了很多研發(fā)項(xiàng)目森爽,擅長用數(shù)學(xué)的方法來解決通信、信息領(lǐng)域的實(shí)際問題嚣镜,是著名的自然語言處理專家和搜索專家爬迟。李開復(fù)曾經(jīng)這樣評(píng)價(jià)這本書說,在吳軍的筆下菊匿,數(shù)學(xué)不是我們一般聯(lián)想到的枯燥深?yuàn)W的符號(hào)付呕,而是實(shí)實(shí)在在源于生活的有趣現(xiàn)象和延伸计福。這本書,是送給這個(gè)社會(huì)和年輕人最好的禮物徽职。
好象颖,接下來我就分三個(gè)重點(diǎn),來給你講講這本書的主要內(nèi)容姆钉。
第一说订,數(shù)學(xué)的用處都有什么?
第二潮瓶,數(shù)學(xué)為什么這么有用陶冷?
第三,為什么說數(shù)學(xué)之美就是簡單之美毯辅?
第一部分
我們先來看看第一個(gè)重點(diǎn):數(shù)學(xué)的用處都有什么埂伦?
我們現(xiàn)在每天都離不開的手機(jī)和電腦,其實(shí)本質(zhì)上也就是各種計(jì)算機(jī)思恐,要想讓它們輔助我們的生活工作沾谜,就避免不了讓它們處理人類的文字和語言,比如語音文字轉(zhuǎn)換胀莹、語言翻譯等等类早,那你知道計(jì)算機(jī)處理人類的文字、語言背后的原理是什么嗎嗜逻?
其實(shí)在很早以前,人們就已經(jīng)試著用數(shù)學(xué)來解決文字校驗(yàn)的問題了缭召。我們知道栈顷,猶太人信仰猶太教,猶太教的經(jīng)典是《圣經(jīng)》中的《舊約》嵌巷,里面記載著猶太人的歷史萄凤。可是搪哪,《圣經(jīng)》不是由一個(gè)人寫成的靡努,它的寫作過程經(jīng)歷了好幾個(gè)世紀(jì),所以之后的作者在補(bǔ)充《圣經(jīng)》時(shí)晓折,就會(huì)面臨一個(gè)問題惑朦,那就是怎么在抄寫的過程中不出現(xiàn)錯(cuò)誤?人的馬虎總是難以避免漓概,所以這本應(yīng)該是一個(gè)難題漾月。
但是聰明的猶太人發(fā)明了一種方法。他們?cè)诔瓕憽妒ソ?jīng)》時(shí)胃珍,會(huì)把每一個(gè)希伯來字母對(duì)應(yīng)一個(gè)數(shù)字梁肿,這樣蜓陌,每行或者每列文字加起來都對(duì)應(yīng)一個(gè)數(shù),這個(gè)數(shù)就是這一行或這一列的校驗(yàn)碼吩蔑。這樣一來钮热,抄完之后只要對(duì)比每行每列的校驗(yàn)碼正不正確就行了,如果發(fā)現(xiàn)校驗(yàn)碼有錯(cuò)烛芬,那通過行和列的校驗(yàn)碼隧期,也可以很快地定位到抄錯(cuò)的地方。這背后的原理蛀骇,和我們今天的各種校驗(yàn)也是相同的厌秒。
那人類的自然語言該怎么處理呢?在這個(gè)問題上擅憔,人們?cè)?jīng)走過很多彎路鸵闪。其實(shí)最開始的時(shí)候,科學(xué)家們按照仿生學(xué)的思路暑诸,堅(jiān)持認(rèn)為蚌讼,要讓計(jì)算機(jī)學(xué)會(huì)處理自然語言,就必須像人一樣个榕,先讓它理解自然語言篡石,讓它學(xué)會(huì)語法。但是后來人們發(fā)現(xiàn)西采,語法規(guī)則實(shí)在太多凰萨,根本沒有辦法窮盡。因?yàn)槲覀內(nèi)粘S玫淖匀徽Z言其實(shí)很復(fù)雜械馆,不同的語境胖眷,不同的上下文,不同的語序霹崎,都會(huì)產(chǎn)生完全不同的語義珊搀。根據(jù)計(jì)算,就算覆蓋我們平時(shí)常用語言的20%尾菇,都要寫幾萬條語法境析,這個(gè)工作量就已經(jīng)是天文數(shù)字了。而且寫到后面派诬,還會(huì)有自相矛盾的語法劳淆,為了區(qū)分,還要注明什么環(huán)境下用什么語法默赂,整個(gè)過程無比繁瑣憔儿。所以讓計(jì)算機(jī)學(xué)習(xí)語法這一條路,在上個(gè)世紀(jì)70年代就走到了盡頭放可。
就在人們一籌莫展的時(shí)候谒臼,數(shù)學(xué)的威力顯示了出來朝刊。數(shù)學(xué)的魅力就在于讓復(fù)雜的問題簡單化。美國著名的計(jì)算機(jī)科學(xué)家賈里尼克領(lǐng)導(dǎo)他的實(shí)驗(yàn)室蜈缤,借助數(shù)學(xué)中的統(tǒng)計(jì)學(xué)工具拾氓,把當(dāng)時(shí)語言識(shí)別的成功率從70%提升到90%,同時(shí)讓語言識(shí)別的規(guī)模底哥,從幾千個(gè)單詞上升到幾萬個(gè)單詞咙鞍,讓語言識(shí)別有了實(shí)際應(yīng)用的可能。聽到這兒你可能很疑惑趾徽,統(tǒng)計(jì)學(xué)和自然語言好像沒什么關(guān)系续滋,它怎么處理自然語言呢?其實(shí)賈里尼克的思路很簡單孵奶,他認(rèn)為疲酌,要判斷一個(gè)句子正不正確,就要看這個(gè)句子出現(xiàn)的可能性的大小了袁,這個(gè)可能性用概率來衡量朗恳。比如,我們假定第一個(gè)句子出現(xiàn)的概率是二分之一载绿,第二個(gè)句子出現(xiàn)的概率是千分之一粥诫,那第一個(gè)句子出現(xiàn)的可能性就比第二個(gè)句子大得多,那么從概率的角度來說崭庸,第一個(gè)句子就更有可能是正確的怀浆。
所以接下來我們需要做的事,就是判斷一個(gè)句子出現(xiàn)的可能性有多大怕享。這時(shí)就需要用到“馬爾科夫假設(shè)”揉稚,這個(gè)假設(shè)是說,假定一個(gè)句子里每個(gè)詞出現(xiàn)的概率熬粗,只和前一個(gè)詞有關(guān),就好比“漲陀嗑常”這個(gè)詞驻呐,最有可能出現(xiàn)在“股票”這個(gè)詞之后。那么芳来,只要給計(jì)算機(jī)量足夠大的機(jī)讀文本含末,也就是專業(yè)人士說的語料庫,計(jì)算機(jī)就能算出來即舌,在一個(gè)特定詞后面出現(xiàn)某個(gè)詞的概率佣盒。這樣,只要把一句話里所有詞出現(xiàn)的概率相乘顽聂,就是這個(gè)句子出現(xiàn)的概率肥惭。概率最大的句子盯仪,就是最有可能正確的句子。按照這個(gè)思路蜜葱,科學(xué)家們成功地讓計(jì)算機(jī)擁有了處理自然語言的能力全景。
你看,一個(gè)用幾萬條復(fù)雜語法解決不了的問題牵囤,用數(shù)學(xué)工具就輕松地解決了爸黄,而且效果還要好得多。那除了自然語言揭鳞,我們今天用手機(jī)炕贵、用電腦,最常做的一個(gè)動(dòng)作之一就是“搜索”野崇。很多人喜歡點(diǎn)網(wǎng)站上的分類標(biāo)簽称开,看自己特別感興趣的新聞。那計(jì)算機(jī)是怎么給這些新聞分類的呢舞骆?這背后的原理也就是數(shù)學(xué)钥弯。這就是我們最開始舉的那個(gè)例子:余弦定理能幫助新聞網(wǎng)站進(jìn)行新聞分類。
余弦定理大家中學(xué)都學(xué)過督禽,你可能忘了脆霎,我來跟你復(fù)習(xí)一下啊。它是一個(gè)揭示三角形邊角關(guān)系的重要數(shù)學(xué)定理狈惫,使用余弦定理睛蛛,就可以僅憑三角形兩個(gè)邊的向量,計(jì)算出這兩個(gè)邊的夾角胧谈。向量就是有特定長度和方向的量忆肾,可以表示為帶箭頭的線段。
具體該怎么做呢菱肖?一篇新聞里會(huì)有很多詞客冈,像“之乎者也的”這種虛詞,對(duì)判斷新聞的分類沒有太大的意義稳强。而像“股票”“利息”這種實(shí)詞场仲,是判斷新聞分類的重點(diǎn)詞⊥艘撸科學(xué)家精選了一個(gè)詞匯表渠缕,這里面收錄著64000個(gè)詞,每個(gè)詞都對(duì)應(yīng)一個(gè)編號(hào)褒繁。他們先把大量文字?jǐn)?shù)據(jù)輸入計(jì)算機(jī)亦鳞,算出每個(gè)詞出現(xiàn)的次數(shù)。
一般來說,出現(xiàn)次數(shù)越少的詞越有搜索價(jià)值燕差,比如“愛因斯坦”“數(shù)學(xué)之美”遭笋;而出現(xiàn)次數(shù)越多的詞,越?jīng)]有搜索價(jià)值谁不,比如“一個(gè)”“這里”等等坐梯。根據(jù)這個(gè)標(biāo)準(zhǔn),把詞匯表里的64000個(gè)詞都算出各自的權(quán)重刹帕,越特殊的詞權(quán)重越大吵血。然后,再往計(jì)算機(jī)里輸入要分類的新聞偷溺,計(jì)算出這64000個(gè)詞在這篇新聞里的分布蹋辅,如果某些詞沒有在這篇新聞里出現(xiàn),對(duì)應(yīng)的值就是零挫掏,如果出現(xiàn)侦另,對(duì)應(yīng)的值就是這個(gè)詞的權(quán)重。這樣尉共,這64000個(gè)數(shù)褒傅,就構(gòu)成了一個(gè)64000維的向量,我們就用這個(gè)向量來代表這篇新聞袄友,把它叫做這篇新聞的特征向量殿托。
不同類型的新聞,用詞上有不同的特點(diǎn)剧蚣,比如金融類新聞就經(jīng)常出現(xiàn)“股票”“銀行”這些詞支竹,所以不難判斷,同類新聞的特征向量會(huì)有相似性鸠按。這樣的話礼搁,只要算出不同新聞特征向量之間夾角的大小,就可以判斷出它們是不是同一類新聞目尖。這時(shí)就要用到余弦定理馒吴,來把兩則新聞的特征向量之間的夾角算出來∩科學(xué)家可以人工設(shè)定一個(gè)值饮戳,只要兩個(gè)向量之間的夾角小于這個(gè)值,這兩則新聞就可以判定成同一類新聞测蹲。你看,一個(gè)簡單的數(shù)學(xué)定理鬼吵,通過科學(xué)家們的巧妙應(yīng)用扣甲,再次舉重若輕地解決了一個(gè)難題。
來給你總結(jié)一下這部分的內(nèi)容×鹜冢科學(xué)家們使用了統(tǒng)計(jì)學(xué)的方法启泣,用概率的大小判斷一個(gè)句子的正確性,從而讓計(jì)算機(jī)獲得了處理自然語言的能力示辈。而在新聞分類領(lǐng)域里寥茫,科學(xué)家們用到了余弦定理,來判斷新聞的特征向量之間的夾角矾麻,從而讓計(jì)算機(jī)能夠確定新聞的類別纱耻。
那咱們來回答一下這個(gè)部分的問題“數(shù)學(xué)的用處都有什么”。吳軍在書中說技術(shù)分為“道”和“術(shù)”兩種险耀,做事的原理和原則是“道”弄喘,而做事的具體方法就是“術(shù)”。我覺得數(shù)學(xué)真正的作用甩牺,就是讓我們掌握“道”蘑志。因?yàn)閺臍v史的發(fā)展來看,所有的“術(shù)”都會(huì)從獨(dú)門秘籍到普及再到落伍贬派,就像吳軍說的只有掌握了“道”的人才能永遠(yuǎn)游刃有余急但。
第二部分
說完了數(shù)學(xué)的作用,可能有人還是覺得不太服氣:沒錯(cuò)搞乏,數(shù)學(xué)有時(shí)候確實(shí)有用波桩,但是人類也不是離不開數(shù)學(xué),我不懂?dāng)?shù)學(xué)也可以憑經(jīng)驗(yàn)來認(rèn)識(shí)世界查描,來解決問題突委。有這種觀點(diǎn)的人可能不在少數(shù),但吳軍在書里告訴我們冬三,很多問題光靠經(jīng)驗(yàn)累積是沒辦法解決的匀油,必須要有數(shù)學(xué)的幫助才能得到答案,這是為什么呢勾笆?第二個(gè)重點(diǎn)我就給你說說:數(shù)學(xué)為什么這么有用敌蚜?
和經(jīng)驗(yàn)相比,數(shù)學(xué)能幫助我們的窝爪,就是能讓我們找到一個(gè)正確的數(shù)學(xué)模型弛车。這有多重要呢?吳軍說蒲每,只有正確的數(shù)學(xué)模型纷跛,才能把一個(gè)大問題的計(jì)算復(fù)雜度降低,讓它變得簡單邀杏。而經(jīng)驗(yàn)給我們的模型贫奠,常常是錯(cuò)的唬血,那由它總結(jié)出來的結(jié)論,也就是錯(cuò)的唤崭。
比如人類從古時(shí)候起拷恨,就想弄清楚天上星星的運(yùn)動(dòng)規(guī)律,因?yàn)槲覀兩硖幍厍蛑闲簧觯怨湃藗冏铋_始很自然地把地球當(dāng)成了宇宙的中心腕侄。其他的星體,不管是太陽芦疏、月亮還是金木水火土這幾大行星冕杠,在古人的眼里都在圍繞地球旋轉(zhuǎn)。這種基本認(rèn)知就是我們今天常說的“地心說”眯分。但是實(shí)際上拌汇,除了月亮以外,其他所有星體實(shí)際上并不是繞著地球轉(zhuǎn)的弊决,所以這些星體的運(yùn)動(dòng)規(guī)律噪舀,在地球上看來就特別復(fù)雜。如果你讀過《達(dá)芬奇密碼》這本書就知道飘诗,金星大約每四年与倡,會(huì)在天上畫一個(gè)五角星。
這個(gè)軌跡就太復(fù)雜了昆稿,為了給星體找到一個(gè)符合觀測(cè)經(jīng)驗(yàn)的運(yùn)動(dòng)規(guī)律纺座,古代科學(xué)家們找了很多方法,其中溉潭,最有名的來自古羅馬天文學(xué)家托勒密净响。托勒密為了完善地心說,設(shè)計(jì)了一種大圓套小圓的運(yùn)動(dòng)方式喳瓣,極為精確地計(jì)算出了所有行星的運(yùn)動(dòng)軌跡馋贤。不過這個(gè)模型相當(dāng)復(fù)雜,他的這套理論一共用到了40到60個(gè)圓形畏陕,大圓里面套小圓配乓,你想想,就算今天有了計(jì)算機(jī)的幫助惠毁,我們都很難解出40個(gè)套在一起的圓方程犹芹。
你看行星的軌跡運(yùn)行得這么復(fù)雜,就是因?yàn)閿?shù)學(xué)模型找錯(cuò)了的原因鞠绰。托勒密的模型就算再精密腰埂,再符合當(dāng)時(shí)人們的經(jīng)驗(yàn)判斷,也不能說是正確的數(shù)學(xué)模型蜈膨。后來屿笼,波蘭天文學(xué)家哥白尼提出了日心說荒给,德國天文學(xué)家開普勒在他的基礎(chǔ)上,偶然發(fā)現(xiàn)刁卜,原來行星繞太陽轉(zhuǎn)不需要大圓套小圓,一個(gè)橢圓方程就搞定了曙咽。他還通過這個(gè)數(shù)學(xué)模型蛔趴,總結(jié)出了行星圍繞恒星運(yùn)轉(zhuǎn)的開普勒三定律,把星體的運(yùn)動(dòng)規(guī)律解釋得清清楚楚例朱。
而且這個(gè)正確的數(shù)學(xué)模型孝情,還在后來成功地幫科學(xué)家找到了海王星。當(dāng)時(shí)法國天文學(xué)家布瓦爾發(fā)現(xiàn)洒嗤,天王星的運(yùn)行軌道和橢圓模型算出來的不太一樣箫荡。后來科學(xué)家直接用數(shù)學(xué)工具,計(jì)算出了吸引天王星偏離軌道的海王星渔隶。你看這種未觀測(cè)先發(fā)現(xiàn)的成果羔挡,是不可能光憑日常經(jīng)驗(yàn)得到的。有些由經(jīng)驗(yàn)帶來的先入為主的觀念间唉,還會(huì)嚴(yán)重阻礙人們對(duì)世界本來面目的認(rèn)識(shí)過程绞灼。
其實(shí),歷史對(duì)人類在這方面的教訓(xùn)真不少呈野,吳軍還說了一個(gè)和我們生活息息相關(guān)的例子低矮。有二十年以上打字經(jīng)歷的朋友可能都知道,原來在電腦上打字可是一個(gè)技術(shù)活兒被冒。當(dāng)時(shí)比較流行的輸入法有五筆輸入法军掂、雙拼輸入法、還有全拼輸入法昨悼,等等蝗锥。可是到了今天幔戏,使用雙拼和五筆輸入法的人越來越少玛追,而使用全拼的人越來越多,這是為什么呢闲延?
這還是要從人們的固有經(jīng)驗(yàn)說起痊剖。人們一開始總以為,最好的漢字輸入法就是最簡單的輸入法垒玲,平均打一個(gè)字敲擊的鍵盤次數(shù)越少陆馁,那這個(gè)輸入法就越好,但歷史又一次證明合愈,這種經(jīng)驗(yàn)上的直覺并不可靠叮贩。比如拼音輸入法中的雙拼和全拼击狮,在雙拼輸入法中,每個(gè)聲母和韻母都只用一個(gè)鍵表示益老,而全拼輸入法則要求打出整個(gè)拼音彪蓬。
比如“ao”這個(gè)韻母,在雙拼中只需要按“k”這個(gè)鍵捺萌,而全拼則需要按“a”和“o”兩個(gè)鍵档冬。所以雙拼敲擊鍵盤的次數(shù)會(huì)天然地比全拼短,看起來更高效一些桃纯。但吳軍說酷誓,雙拼法看似減少了敲擊鍵盤的次數(shù),但輸入一點(diǎn)也不快态坦。為什么呢盐数?因?yàn)闈h語的聲母韻母加起來一共有50多個(gè),但是鍵盤上只有26個(gè)字母鍵伞梯,所以很多韻母就需要共享一個(gè)字母鍵玫氢,這就會(huì)導(dǎo)致,打字的人要從更多的候選漢字里找到自己想打的字谜诫;而且雙拼的方法不自然琐旁,比全拼多出來一道拆分聲母和韻母的過程,你需要背下來哪個(gè)韻母是哪個(gè)按鍵猜绣;最后灰殴,很多南方人分不清前后鼻音和卷平舌音,結(jié)果就導(dǎo)致翻了好幾頁都找不到自己想打的字掰邢,其實(shí)原因是一開始就打錯(cuò)了聲母或者韻母牺陶。
這一系列問題都證明,追求更簡單高效的雙拼輸入法辣之,實(shí)際效率并不高掰伸,五筆輸入法也是類似的情況。上世紀(jì)90年代時(shí)怀估,中國出現(xiàn)的輸入法種類一度多達(dá)上千種狮鸭,但這些輸入法大多和雙拼一樣,都把發(fā)力點(diǎn)放在了減少敲擊次數(shù)上多搀,都強(qiáng)調(diào)自己是最快的歧蕉。這個(gè)方向就走偏了,到了現(xiàn)在康铭,人們幾乎全都拋棄了這些輸入法惯退,這一批發(fā)明人可以說是全軍覆沒。
與此同時(shí)从藤,全拼輸入法得到不斷改進(jìn)催跪。所有漢字全拼的平均長度是2.98锁蠕,只要能很好地利用上下文的相關(guān)性,就能把全拼輸入法的平均敲擊次數(shù)控制在3次以內(nèi)懊蒸。那該怎么利用上下文的相關(guān)性呢荣倾?這里又有人繞過彎路。10年前骑丸,人們就是通過不斷增加詞庫逃呼,甚至把一整句唐詩當(dāng)成一個(gè)詞來解決這個(gè)問題。但是統(tǒng)計(jì)下來發(fā)現(xiàn)者娱,幫助不太大。因?yàn)闈h語里短字詞“一音多字”的情況太多苏揣,如果詞庫非常大黄鳍,打出來的候選詞太多,找到自己想要的那個(gè)還是很費(fèi)時(shí)間平匈。吳軍說框沟,增大詞庫,這也是根據(jù)經(jīng)驗(yàn)和直覺的應(yīng)對(duì)方法增炭,就和我們剛剛說的忍燥,“在大圓里套小圓,在小圓里套更小的圓”思路一樣隙姿。
那最好的解決辦法是什么呢梅垄?就是借助語言模型。這和第一個(gè)重點(diǎn)里說的输玷,計(jì)算機(jī)處理自然語言的思路比較像队丝,都是利用統(tǒng)計(jì)學(xué)的原理,來計(jì)算出一長串拼音轉(zhuǎn)化成文字的最有可能選項(xiàng)欲鹏,方便使用者直接打出一大段文字机久。和之前憑經(jīng)驗(yàn)行動(dòng)的解決方法相比,這就是更好的數(shù)學(xué)模型赔嚎。
總結(jié)下這部分的內(nèi)容膘盖。在這個(gè)重點(diǎn)里,我們討論了“數(shù)學(xué)為什么這么有用”這個(gè)問題尤误,答案是數(shù)學(xué)能幫助我們發(fā)現(xiàn)僅憑經(jīng)驗(yàn)無法發(fā)現(xiàn)的規(guī)律侠畔,找到僅憑經(jīng)驗(yàn)無法總結(jié)出來的辦法。比如發(fā)現(xiàn)行星圍繞恒星運(yùn)轉(zhuǎn)的事實(shí)损晤,比如大幅優(yōu)化全拼輸入法践图,使之成為最好用的輸入法等等〕凉荩可以說沒有數(shù)學(xué)码党,我們不可能擁有今天的世界觀和生活方式德崭。
第三部分
我們說完了數(shù)學(xué)的用處,和數(shù)學(xué)有用的原因揖盘,接下來讓我們一起回歸這本書的標(biāo)題眉厨,來看看吳軍認(rèn)為的“數(shù)學(xué)之美”所以第三個(gè)重點(diǎn)就是,為什么說數(shù)學(xué)之美就是簡單美兽狭?
數(shù)學(xué)公式憾股、數(shù)學(xué)計(jì)算、數(shù)學(xué)推導(dǎo)的過程可能實(shí)際應(yīng)用起來都很復(fù)雜箕慧,這也是為什么數(shù)學(xué)這么難學(xué)的原因服球。但是數(shù)學(xué)應(yīng)用背后所包含的數(shù)學(xué)思想,卻總是簡單的颠焦,這種簡單之美斩熊,就是吳軍一直說的數(shù)學(xué)之美。
計(jì)算機(jī)的原理其實(shí)就是一個(gè)例子伐庭,計(jì)算機(jī)的術(shù)很復(fù)雜粉渠,它一般由大量的精密電路搭建而成,但是計(jì)算機(jī)的道卻很簡單圾另,它本質(zhì)上的邏輯來自簡單的不能再簡單的布爾代數(shù)霸株。布爾代數(shù)的運(yùn)算元素只有0和1兩個(gè)數(shù)字,基本的運(yùn)算也只有三種集乔,第一種是“與”去件,也就是英文AND,第二種“或”扰路,也就是OR箫攀,第三種是“非”,也就是NOT很好理解幼衰。就是這么簡單的布爾代數(shù)靴跛,實(shí)際上就是數(shù)字電路的基礎(chǔ)。所有的數(shù)學(xué)和邏輯運(yùn)算渡嚣,比如加梢睛、減、乘识椰、除绝葡、乘方、開方腹鹉,等等藏畅,全部都能轉(zhuǎn)化成布爾代數(shù)的基本運(yùn)算。正是靠這一點(diǎn),人們才用以布爾代數(shù)原理為基礎(chǔ)的一個(gè)個(gè)電路愉阎,搭建起了現(xiàn)代電子計(jì)算機(jī)绞蹦。
再比如,我們剛才介紹的幾個(gè)例子榜旦,讓計(jì)算機(jī)處理自然語言幽七,一條路是成千上萬的復(fù)雜語法,另一條路是讓計(jì)算機(jī)算概率溅呢、找規(guī)律澡屡,前者科學(xué)家們努力了幾十年但沒什么收獲,后者輕輕松松就讓計(jì)算機(jī)處理語言文字的能力大幅提高咐旧,數(shù)學(xué)思想再次化繁為簡驶鹉,用簡單的思路解決了復(fù)雜的問題。還有我們每天都要用到的全拼輸入法铣墨,在數(shù)學(xué)的幫助下輸入效率大大提高室埋。而雙拼和五筆輸入法雖然符合人們對(duì)于快速輸入的直觀認(rèn)識(shí),但是實(shí)際應(yīng)用困難踏兜,效率反而不高,缺乏正確的數(shù)學(xué)方法八秃,最終結(jié)果就是被使用者逐漸拋棄碱妆。用吳軍的話來說,在現(xiàn)實(shí)生活中昔驱,真正能夠通用的工具疹尾,在形式上一定是簡單的。一架普通的照相機(jī)骤肛,不應(yīng)該要求它的使用者必須精通光圈和快門速度的設(shè)置纳本。
“簡單之美”說著容易,但其實(shí)腋颠,連谷歌這樣的大公司都曾經(jīng)犯過“大圓套小圓”的錯(cuò)誤繁成。吳軍說,他剛到谷歌的時(shí)候淑玫,發(fā)現(xiàn)一些早期的算法根本沒有系統(tǒng)的模型和理論基礎(chǔ)印颤,大部分軟件工程師都是靠直覺來解決問題的吻谋。這些錯(cuò)誤的模型,也許碰巧幾次會(huì)有效,就像“地心說”一樣赖欣,不是也用了幾千年嗎,但是錯(cuò)誤的模型一定會(huì)漸漸表現(xiàn)出來負(fù)面影響砌梆。最終不僅會(huì)偏離正確的結(jié)果濒憋,甚至?xí)押唵蔚氖虑楦銖?fù)雜,最終瀕臨崩潰但壮。
2006年后冀泻,谷歌幾乎重寫了所有項(xiàng)目的程序常侣,保證了工程的正確性。但是在其他公司腔长,甚至美國的一些掛著高科技頭銜的二流IT公司袭祟,“大圓套小圓”的情況還是很常見。這就像是一個(gè)人有了錢捞附,穿金戴銀巾乳,但是內(nèi)在的學(xué)問和修養(yǎng)還沒提高。吳軍說他寫這本書鸟召,也是希望讀者可以通過對(duì)IT規(guī)律的認(rèn)識(shí)胆绊,舉一反三地總結(jié)、學(xué)習(xí)和運(yùn)用自己生活中的規(guī)律性欧募,提升自己的境界压状。
這本書就三個(gè)重點(diǎn)來回顧一下
數(shù)學(xué)到底有什么用?在讓計(jì)算機(jī)處理自然語言時(shí)跟继,人們一開始想讓計(jì)算機(jī)學(xué)會(huì)人類的語法种冬,但后來發(fā)現(xiàn),要寫出來的語法不僅數(shù)量特別多舔糖,而且實(shí)際的識(shí)別率特別低娱两。后來科學(xué)家們?cè)跀?shù)學(xué)統(tǒng)計(jì)學(xué)工具的幫助下,讓計(jì)算機(jī)計(jì)算出句子的出現(xiàn)概率金吗,通過概率的大小來判斷正確與否十兢,從而解決了這個(gè)難題。在讓計(jì)算機(jī)進(jìn)行新聞分類時(shí)摇庙,科學(xué)家們也是另辟蹊徑旱物,利用新聞中的特征詞來構(gòu)建向量,再使用余弦定理完成了對(duì)新聞的分類卫袒。數(shù)學(xué)讓我們抓住做事的規(guī)律也就是“道”宵呛。
那數(shù)學(xué)為什么這么有用?其實(shí)夕凝,歸根到底是因?yàn)閿?shù)學(xué)能幫助我們發(fā)現(xiàn)僅憑經(jīng)驗(yàn)無法發(fā)現(xiàn)的規(guī)律烤蜕,找到僅憑經(jīng)驗(yàn)無法總結(jié)出來的辦法。比如我們是在數(shù)學(xué)的幫助下迹冤,才發(fā)現(xiàn)了行星圍繞恒星運(yùn)轉(zhuǎn)的真正規(guī)律讽营。而我們每天使用的全拼輸入法,也都是靠著數(shù)學(xué)的幫助泡徙,才讓輸入效率不斷提高橱鹏。
最后,為什么說數(shù)學(xué)之美就是簡單美?使用數(shù)學(xué)的方法莉兰,“術(shù)”可能比較復(fù)雜挑围,但是“道”卻總是簡單的。不管是計(jì)算機(jī)背后隱含的簡單的布爾代數(shù)原理糖荒,還是使用數(shù)學(xué)來解決各種問題時(shí)體現(xiàn)出的簡單思想杉辙,都向我們展示出數(shù)學(xué)之美就是簡單美。
看過本書之后捶朵,相信你對(duì)數(shù)學(xué)這個(gè)古老的學(xué)科蜘矢,又有了進(jìn)一步的認(rèn)識(shí)。吳軍在本書第二版的前言里說综看,早期的數(shù)學(xué)遠(yuǎn)不如今天這么神秘品腹,它和生活的聯(lián)系特別緊密。但和任何事物一樣红碑,數(shù)學(xué)也在不斷地演化舞吭,數(shù)學(xué)家們一方面對(duì)自然事實(shí)進(jìn)行總結(jié)和歸納,另一方面又不斷加上抽象思考析珊,最終讓數(shù)學(xué)變得高深起來羡鸥。經(jīng)過幾千年這種抽象演化,大家頭腦里能想象的數(shù)學(xué)好像就只剩下數(shù)字忠寻、符號(hào)惧浴、公式和定理了。
但吳軍通過這本書告訴我們锡溯,通過數(shù)學(xué)的實(shí)際應(yīng)用我們能認(rèn)識(shí)到赶舆,事物表面的樣子并不一定能反映出真實(shí)情況哑姚。很多時(shí)候祭饭,只有在深入了解的基礎(chǔ)上,我們才能獲得對(duì)某件事情的發(fā)言權(quán)叙量。就好比了解了數(shù)學(xué)的應(yīng)用之后倡蝙,才能摒棄“數(shù)學(xué)無用論”的觀念,才能發(fā)現(xiàn)真正的數(shù)學(xué)之美绞佩。
最后寺鸥,我也要專門為計(jì)算機(jī)專業(yè)的學(xué)生或者工程師來介紹一下,為了方便沒有相關(guān)知識(shí)背景的讀者閱讀品山,吳軍給每個(gè)專題都添加上了背景介紹胆建;同時(shí),在一些專題的最后肘交,他還給出了很多“延伸閱讀”笆载,這部分是專門給專業(yè)的讀者來看的。他提到了如何在最熱門的技術(shù)問題里,比如大數(shù)據(jù)凉驻、深度學(xué)習(xí)腻要、Google的人工智能中找到數(shù)學(xué)的解決方法,相關(guān)專業(yè)的用戶也可以延伸閱讀涝登。