圖 |? Zack Seckler 拍攝于非洲
最近讀了一本硬書:吳軍的《數(shù)學(xué)之美》筋岛,一共261頁卓练,從頭到尾逐句讀了下來隘蝎。大約兩個(gè)半休息天就讀完了。
這個(gè)情況很少見襟企。通常自己都不會(huì)一本書啃到頭嘱么,一般是同時(shí)讀幾本,不同內(nèi)容和風(fēng)格顽悼,互相穿插調(diào)劑一下曼振。更何況,《數(shù)學(xué)之美》還不是普通的的非虛構(gòu)類書籍蔚龙,它是一本講數(shù)學(xué)的書(這里請(qǐng)?jiān)试S作為一個(gè)對(duì)數(shù)學(xué)仍心有余悸的文科生冰评,著重強(qiáng)調(diào)一下這兩個(gè)字)雖然作者已盡力寫得通俗易懂,對(duì)多數(shù)人友好木羹,但還是少不了各種數(shù)學(xué)公式甲雅。
但是,不僅一口氣讀完了坑填,而且是一次非常愉悅的閱讀體驗(yàn)抛人。怎么說呢?
就個(gè)人的感受來說穷遂,閱讀帶來的愉悅感主要有兩種函匕,一是共情,就是書里寫出了自己的體會(huì)和感受蚪黑,因此獲得共鳴和被認(rèn)同之感盅惜。二是解惑,即在書里回答自己的疑惑忌穿,讓人恍然大悟之感抒寂。
《數(shù)學(xué)之美》這本書對(duì)我來說,就是第二種掠剑。它不僅解了很多問題的惑屈芜,而且在一些根本性的問題上帶給我一個(gè)全新的視角。
下面這一段是作者為本書寫的簡介,是這本書內(nèi)容的概貌井佑。
“本書的一個(gè)目的在于揭示信息和自然語言處理属铁,以及它們?cè)谕ㄐ藕突ヂ?lián)網(wǎng)各種應(yīng)用(語音識(shí)別、機(jī)器翻譯躬翁、搜索焦蘑、分類等)中的數(shù)學(xué)原理,從而幫助讀者認(rèn)識(shí)到:解決這些問題盒发,好的方法是什么例嘱。
毫無疑問,解決這些問題需要智能宁舰,而計(jì)算機(jī)本身并沒有智能拼卵,它有的只是巨大的計(jì)算能力。
只有找到描述這些問題的數(shù)學(xué)模型蛮艰,才能利用計(jì)算機(jī)解決這些需要智能的問題腋腮。這樣,計(jì)算機(jī)看上去也似乎聰明起來了壤蚜〉秃”
這段話說到這樣的幾個(gè)關(guān)鍵點(diǎn):信息、互聯(lián)網(wǎng)和數(shù)學(xué)的關(guān)系仍律、計(jì)算機(jī)并無智能、描述問題的數(shù)學(xué)模型... 太專業(yè)的問題也談不了实柠,僅以這幾個(gè)點(diǎn)為“抓手”水泉,說說自己的一點(diǎn)理解以及得到的啟示,也算是再做一次簡單回顧吧窒盐。(有不專業(yè)的地方草则,歡迎討論拍磚)
一 信息、互聯(lián)網(wǎng)和數(shù)學(xué)的關(guān)系
“數(shù)字蟹漓,和文字以及用文字記錄的自然語言一樣炕横,都是信息的載體,它們之間原本有著天然的聯(lián)系葡粒。語言和數(shù)學(xué)的產(chǎn)生都是都為了同一個(gè)目的——記錄和傳播信息份殿。”
這是扉頁上的一段話嗽交,看到這個(gè)句話就認(rèn)定這本書一定要讀卿嘲。原來語言和數(shù)學(xué)本質(zhì)上都是為了同一個(gè)目的,他們都在記錄和傳播一種東西:信息夫壁。記錄傳播信息的方式拾枣,可以0和1二進(jìn)制字符串,也可以十進(jìn)制的阿拉伯?dāng)?shù)字,也包括我們說的每個(gè)詞語和句子梅肤。
它們之間可以相互轉(zhuǎn)化司蔬,比如一個(gè)漢字“國”看似跟二進(jìn)制無關(guān),實(shí)則不然姨蝴。這樣要引出一個(gè)參照系俊啼,漢字總表中有7000字,我們要用二進(jìn)制表示“國”似扔,可以采取以下這種辦法:通過是否問題來確定“國”的位置吨些。你問,“國”在1-3500中嗎炒辉?在豪墅,記為1;那就接著問“國”在1-1750嗎黔寇?不在偶器,記為0;到此時(shí)你已經(jīng)在紙上寫下了“10”缝裤,已經(jīng)確認(rèn)“國”在1750-3500之間了屏轰,繼續(xù)問:在1750-2625之間嗎?…如此反復(fù)憋飞,到最后確定“國”的位置霎苗,你的紙上會(huì)留下一個(gè)13位的0和1的字符串,可能是這樣的:1000100101000榛做。就這樣文字就轉(zhuǎn)化成了計(jì)算機(jī)可識(shí)別和可計(jì)算的形式唁盏。
另外,這個(gè)字符串代表著“國”的信息量(信息熵)為13比特〖烀校現(xiàn)在才明白我們電腦里一份文檔大小的原理是這樣的厘擂。
總之,數(shù)字和文字本質(zhì)都是信息載體锰瘸,在此基礎(chǔ)上語言系統(tǒng)和數(shù)學(xué)模型可以進(jìn)行復(fù)雜的信息記錄和傳播刽严。除了文字,色彩避凝、聲音舞萄、圖像都是通過轉(zhuǎn)碼變成機(jī)器可識(shí)別和計(jì)算的編碼。
(看書的時(shí)候覺得已經(jīng)看懂了管削,動(dòng)筆寫了才發(fā)現(xiàn)并沒有鹏氧!又回去翻書才算理清了一下。這也說明要能跟別人講明白佩谣,才算是真的學(xué)明白了)
二 計(jì)算機(jī)本身并沒有智能
剛看到這句話時(shí)把还,有點(diǎn)詫異。心想,大家不是都在說 AI 人工智能嗎吊履?難道都是騙人的安皱?雖然現(xiàn)在機(jī)器人和小助手們還常常“說傻話”“做傻事”艇炎,但我們也不得不承認(rèn)酌伊,計(jì)算機(jī)確實(shí)在慢慢地變“聰明”,變得“更懂我”缀踪。這些都是表象嗎居砖?
對(duì),這些就是表象驴娃。計(jì)算機(jī)的每個(gè)行為奏候,每一個(gè)操作,都不是因?yàn)橛邢袢四X一樣的思維唇敞,而是算出來蔗草。沒錯(cuò),靠強(qiáng)大的計(jì)算能力疆柔,算出來的咒精。比如,你對(duì)你手機(jī)說話旷档,語音輸入法自動(dòng)在屏幕上打出文本模叙,而且出錯(cuò)率極低。事實(shí)上鞋屈,計(jì)算機(jī)并沒有學(xué)會(huì)中文或者某個(gè)方言的語言規(guī)則向楼,然后聽懂你的話,再幫你轉(zhuǎn)成文本谐区。事實(shí)上是計(jì)算機(jī)用統(tǒng)計(jì)的方法算出來,算出你說的某個(gè)字就是那個(gè)字的概率逻卖,然后通過文本反饋給你宋列。
從基于規(guī)則的方法到基于統(tǒng)計(jì)的方法的轉(zhuǎn)變,正是自然語言處理取得突破的原因评也×墩龋基于統(tǒng)計(jì)的方法,把數(shù)學(xué)模型和通信聯(lián)系在了一起盗迟。認(rèn)識(shí)到這種聯(lián)系坤邪,科學(xué)家花了幾十年的時(shí)間。
補(bǔ)充知識(shí):統(tǒng)計(jì)學(xué)是應(yīng)用數(shù)學(xué)的一個(gè)分支罚缕,主要通過利用概率論建立數(shù)學(xué)模型艇纺,收集所觀察系統(tǒng)的數(shù)據(jù),進(jìn)行量化的分析、總結(jié)黔衡,并進(jìn)而進(jìn)行推斷和預(yù)測蚓聘,為相關(guān)決策提供依據(jù)和參考。(百度百科)
除了自然語言處理以外盟劫,其他場景比如搜索排名夜牡、地圖路線、新聞分類等也是算出來侣签。到底怎么算出來的塘装?去看這本書吧,能解決你大部分的疑惑影所。
這也是為什么在第一點(diǎn)里說的蹦肴,將信息(知識(shí))轉(zhuǎn)碼成計(jì)算機(jī)可識(shí)別和可計(jì)算的形式是第一步。但還不夠型檀,要對(duì)一個(gè)復(fù)雜的問題進(jìn)行計(jì)算冗尤,還需要把這個(gè)問題描述成可計(jì)算的形式,這就是下面要說的數(shù)學(xué)模型胀溺。
三 描述問題的數(shù)學(xué)模型
對(duì)于“模型”裂七,一開始我的認(rèn)知還停留在實(shí)體的,像什么房子模型之類的上仓坞。后來才慢慢明白模型本質(zhì)是一套數(shù)學(xué)計(jì)算過程背零。這里說的數(shù)學(xué)模型,就是基于統(tǒng)計(jì)概率論的模型无埃。
“對(duì)于自然科學(xué)和工程學(xué)徙瓶,包括計(jì)算機(jī)科學(xué)和通信,數(shù)學(xué)是描述這些規(guī)律性最好的工具嫉称≌煺颍” 對(duì)于一個(gè)問題,或者一個(gè)規(guī)律织阅,用數(shù)學(xué)模型來描述是最好的壳繁。
在這個(gè)問題上,就要提到一個(gè)重要概念:馬爾可夫假設(shè)荔棉。這個(gè)假設(shè)就是闹炉,某個(gè)狀態(tài)的出現(xiàn)只與前一個(gè)狀態(tài)相關(guān)。這是一個(gè)偷懶但是有效的方法润樱。這是假設(shè)大大簡化問題渣触,因此可以把復(fù)雜的預(yù)測問題簡化成簡潔的概率計(jì)算。
具體的概率計(jì)算需要先進(jìn)行模型訓(xùn)練壹若,訓(xùn)練模型的前提就是數(shù)據(jù)嗅钻。這也是為什么傅盛說 “未來的公司本質(zhì)都是數(shù)據(jù)公司皂冰。市場競爭,一定會(huì)從技術(shù)競爭演變成數(shù)據(jù)競爭啊犬∽评蓿” 當(dāng)然,前兩天的 AlphaGO Zero 通自學(xué)習(xí)就掌握圍棋最高技能觉至,也許以后在某些領(lǐng)域剔应,機(jī)器并不需要大量數(shù)據(jù)也能夠?qū)崿F(xiàn)智能化,這個(gè)就不好說了语御。
對(duì)于“模型”的認(rèn)識(shí)峻贮,還有一種說法也許能幫我們外行加深認(rèn)知,雖不是從這本書里讀到的应闯。這個(gè)認(rèn)識(shí)就是:模型反映的是一種相關(guān)性纤控,而非因果性。頭腦里有了這樣底層認(rèn)知碉纺,才更好的理解模型本身以及其應(yīng)用場景船万。比如模型只能是預(yù)測,而非下判斷骨田。比如耿导,預(yù)測天氣的模型,并不能確定明天是否下雨态贤,它只會(huì)給你一個(gè)下雨或不下雨的概率舱呻,而且有時(shí)也并不準(zhǔn)確。
好了悠汽,以上就是我對(duì)這三個(gè)點(diǎn)的學(xué)習(xí)體會(huì)和理解箱吕。書上的內(nèi)容遠(yuǎn)遠(yuǎn)比這多得多,生動(dòng)得多柿冲。
另外茬高,這本書的用戶界面也是相當(dāng)友好的。比如很貼心地盡量讓主文通俗易懂假抄,而將更復(fù)雜的原理背后的數(shù)學(xué)推導(dǎo)放在延伸閱讀上怎栽,并且注明了所需的知識(shí)背景。
特別推薦給以下人士:
對(duì)人工智能慨亲、機(jī)器學(xué)習(xí)有同樣好奇的同學(xué);
內(nèi)心有陰影宝鼓,想療愈數(shù)學(xué)之痛刑棵,發(fā)現(xiàn)數(shù)學(xué)之類的同學(xué);
做人工智能產(chǎn)品相關(guān)的同學(xué)愚铡;
想理解理科思維的文科生同學(xué)等蛉签。
突然想到胡陪,以后有了孩子,應(yīng)該把這本書列在其必讀書書目上碍舍,越早讀懂越好柠座。蛤蛤,想得有點(diǎn)多了片橡。
匯報(bào):
記寫字計(jì)劃的第41篇妈经。寫了這么長,有一種完成一篇大稿的感覺呢捧书。
最后也要說吹泡,我們的興趣會(huì)受到自身背景以及所處環(huán)境和氛圍的影響。這本書之于我经瓷,有特殊吸引力的原因主要是:
我的語言學(xué)專業(yè)背景爆哑,同時(shí)又對(duì)計(jì)算機(jī)方面很感興趣,所以語音識(shí)別舆吮、語義分析揭朝、中文分詞、各種算法和模型...統(tǒng)統(tǒng)都有興趣去了解色冀。
在現(xiàn)在的工作中潭袱,也常常聽身邊的同事提起書里的這些概念。記得一位同事試著跟我解釋一個(gè)跟語義相關(guān)度的概念:詞向量呐伞,當(dāng)時(shí)沒聽懂敌卓。后來百度知乎一通也不是很懂,這本書正好就說到這個(gè)伶氢,解釋得很通透了趟径。
雖然這本書不一定是你的菜,但最重要還是跟你分享這次愉快的閱讀體驗(yàn)癣防。也祝你在閱讀中獲得快樂蜗巧!
手頭讀的這本是從辦公室的書架上拿的,發(fā)現(xiàn)還有吳軍老師親筆簽名蕾盯!