吳軍博士所著《數(shù)學(xué)之美》是一本介紹“數(shù)學(xué)原理在自然語(yǔ)言處理中的應(yīng)用”的科普書(shū),它更多關(guān)注“道”唐全,而非“術(shù)”或“器”启具,因此,盡管技術(shù)發(fā)展日新月異应媚,文章中的思維方法仍能帶給我非常大的啟發(fā)拳球。
現(xiàn)將啟發(fā)逐一整理出來(lái),稍后再做分類(lèi)與提煉珍特。(待刪)
1. 跨學(xué)科類(lèi)比的能力
將「文字和語(yǔ)言」與「數(shù)字和信息」對(duì)應(yīng)起來(lái)的突破性思路祝峻,是近代自然語(yǔ)言處理技術(shù)得以突飛猛進(jìn)的源頭,把文字和語(yǔ)言所要傳遞的信息轉(zhuǎn)變成數(shù)字并傳遞出去扎筒,這是跨學(xué)科類(lèi)比莱找、縱橫聯(lián)系的強(qiáng)大思考武器。
2. 從知識(shí)的歷史源頭去理解其本質(zhì)
隨著文明發(fā)展嗜桌,人類(lèi)靠大腦已經(jīng)記不住所有事件奥溺,文字和數(shù)字就應(yīng)運(yùn)而生,作為高效記錄信息的工具骨宠。因此浮定,文字和數(shù)字其實(shí)從本質(zhì)上看都是承載信息的介質(zhì)。
追溯某一事物的歷史层亿,可以發(fā)現(xiàn)它在人類(lèi)認(rèn)知中的典型樣貌桦卒,它本質(zhì) 比如數(shù)學(xué),是為了記錄物理測(cè)量而誕生的匿又,它的許多重要發(fā)展是為了解決生活中的實(shí)際問(wèn)題方灾。(數(shù)學(xué)有時(shí)超前于生活需要,鐘擺一般碌更,有時(shí)會(huì)滯后)
3. 聚類(lèi)會(huì)帶來(lái)歧義
不論在漢語(yǔ)還是古埃及語(yǔ)中裕偿,象形文字的數(shù)量增長(zhǎng)到 5000 個(gè)左右就不再繼續(xù)增加了,因?yàn)槿四X記不住那么多象形文字痛单,但人類(lèi)文明產(chǎn)生的新概念依舊在增加嘿棘,于是多個(gè)概念聚類(lèi)于同一符號(hào)(即字詞),文字表示哪個(gè)含義便需要借助上下文來(lái)理解了旭绒。歧義可以通過(guò)語(yǔ)境消解鸟妙,我們?cè)谧鼍垲?lèi)的時(shí)候也要注意焦人,提供消解歧義的手段。
4. 鑰匙:未知事物與已知事物的相同成分
猜測(cè)未知事物與已知事物相同的成分圆仔,從中可以找到規(guī)律,讓人借助規(guī)律理解未知事物的全部蔫劣。
不同文明進(jìn)行交流時(shí)坪郭,或許會(huì)用不同的文字記載同一件事,著就可能為我們破解無(wú)人能懂的語(yǔ)言提供一把鑰匙脉幢。電影中歪沃,圖靈破解德軍密碼好像就是通過(guò)德國(guó)空軍飛行員總是在電臺(tái)中問(wèn)候早安,因此就算每天都改換加密方案嫌松,還是能通過(guò)“早安”一詞來(lái)找到密碼的鑰匙沪曙。
5. 簡(jiǎn)潔才能夠長(zhǎng)久和廣泛
相比十進(jìn)制的 9x9 乘法表,瑪雅文明的二十進(jìn)制 19x19 乘法表太難記?了萎羔,瑪雅文字也非常復(fù)雜液走,每個(gè)部落都沒(méi)幾個(gè)人能掌握計(jì)數(shù)和文字的技能,這也許就是瑪雅文明發(fā)展極為緩慢的重要原因贾陷。選用什么樣的計(jì)數(shù)法缘眶,其實(shí)是數(shù)字編碼的問(wèn)題,一個(gè)編碼方法要兼顧簡(jiǎn)潔和普適性髓废,實(shí)在是很難的巷懈。比如,Roman languages 所代表的西方拼音文字慌洪,能夠通過(guò)幾十個(gè)字母就表示語(yǔ)言中的全部字詞顶燕,即是一種歷史篩選出的簡(jiǎn)潔且普適的編碼方法。