在羅馬體系的文字中,總體來講睬魂,常用字短终吼,生僻字長。而在意形文字中汉买,也是類似衔峰。這完全符合信息論中的最短編碼原理蛙粘。
在通信時垫卤,如果信道較寬,信息不必壓縮就可以傳遞出牧;而如果信道較窄穴肘,信息在傳遞時需要盡可能的壓縮溯职,然后在接收端進行解壓縮囤捻。
-
語言模型:
一個句子是否合理,就要看它的可能性大小如何坟漱〔矗可能性用概率來衡量慨代,演化成數(shù)學模型就是馬爾可夫二元模型,即假設一個詞出現(xiàn)的頻率只與他之前一個詞相關啸如。
N元模型即是假設一個詞由之前N-1個詞決定
馬爾可夫二元和N元模型
當N從1到到2時侍匙,再從2到3時,模型的效果上升顯著叮雳。而模型從3到4時想暗,效果的提升就不是很顯著妇汗,而資源的耗費卻非常快说莫,所以除非不惜資源做到極致杨箭,很少有人使用4元以上模型。 中文分詞:
一般使用查字典方法储狭,查字典方法互婿,從左往右掃描一遍,遇到字典里有的詞就標識出來晶密,遇到復合詞就找最長的詞匹配擒悬,遇到不認識的就分割成單字詞模她。
其中用統(tǒng)計學+查字典的形式稻艰,解決分詞歧義的問題。
在對中文分詞時侈净,一個問題就是詞語的顆粒度問題尊勿。不同的應用中,會有一種顆粒度比另一種好的情況畜侦。比如在機器翻譯中元扔,一般說顆粒度大,翻譯效果好旋膳。但在另外一些應用澎语,比如網(wǎng)頁搜索中,小的顆粒度比大的顆粒度反而要好验懊。因此顆粒度看場景使用擅羞。-
馬爾科夫鏈和隱含馬爾科夫鏈
如果沒有信息,任何公式或者數(shù)字的游戲都無法排除不確定性义图。信息的作用在于消除不確定性减俏,自然語言處理的大量問題就是找相關的信息。
網(wǎng)頁搜索:
網(wǎng)頁搜索的本質(zhì)是要從大量(幾十億個)網(wǎng)頁中碱工,找到和用戶輸入的搜索詞最相關的幾個網(wǎng)頁娃承。幾十億個可能性,如果只剩下幾個網(wǎng)頁怕篷,就幾乎沒有不確定性了历筝。網(wǎng)頁搜索的本質(zhì)是消除不確定性,如果提供的信息不夠廊谓,正確做法是挖掘新的隱含信息梳猪,或直接問問用戶。不正確的做法是在關鍵詞上玩數(shù)字和公式的游戲蹂析,由于沒有額外信息的引入舔示,很沒有效果碟婆。
搜索引擎的道:下載(網(wǎng)頁)→索引→排序
網(wǎng)絡爬蟲對網(wǎng)頁遍歷的次序不是簡單的BFS或者DFS,而是有一個相對復雜的下載優(yōu)先級排序的方法惕稻。管理這個優(yōu)先級排序的子系統(tǒng)一般稱為調(diào)度系統(tǒng)竖共。
對于一個特定的查詢,搜索結(jié)果的排名取決于兩組信息:關于網(wǎng)頁的質(zhì)量信息和這個查詢與每個網(wǎng)頁的相關性信息俺祠。-
有限狀態(tài)機
如果一條地址能從狀態(tài)機的開始狀態(tài)經(jīng)過狀態(tài)機的若干中間狀態(tài)公给,走到終止狀態(tài),那么這條抵制就有效蜘渣,否則無效淌铐。
圖論/動態(tài)規(guī)劃:找一個圖給定兩個點中最短路徑,可以將一個“尋找全程最短路線”的問題蔫缸,分解成一個個尋找局部最短路線的小問題腿准。 模型原則
一個正確的數(shù)學模型應當在形式上是簡單的
一個正確的模型一開始可能還不如一個精雕細琢過的錯誤模型來的精準,但是拾碌,如果認定大方向是正確的吐葱,就應該堅持下去
大量準確的數(shù)據(jù)對研發(fā)很重要
正確的模型也可能受噪音干擾,而顯得不正確校翔。這時不應該用一種湊合的修正方法來彌補弟跑,而是要找到噪音的根源,這也許能通往重大的發(fā)現(xiàn)防症。拼音輸入法的數(shù)學原理:
輸入法輸入漢字的快慢取決于對漢字編碼的平均長度孟辑,用通俗話來講,就是擊鍵次數(shù)乘以尋找這個鍵需要的事件蔫敲。
《數(shù)學之美》讀書筆記
最后編輯于 :
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
- 文/潘曉璐 我一進店門晚唇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人盗似,你說我怎么就攤上這事哩陕。” “怎么了?”我有些...
- 文/不壞的土叔 我叫張陵悍及,是天一觀的道長闽瓢。 經(jīng)常有香客問我,道長心赶,這世上最難降的妖魔是什么扣讼? 我笑而不...
- 正文 為了忘掉前任,我火速辦了婚禮缨叫,結(jié)果婚禮上椭符,老公的妹妹穿的比我還像新娘。我一直安慰自己耻姥,他們只是感情好销钝,可當我...
- 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著琐簇,像睡著了一般蒸健。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上鸽嫂,一...
- 文/蒼蘭香墨 我猛地睜開眼滤祖,長吁一口氣:“原來是場噩夢啊……” “哼筷狼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起匠童,我...
- 正文 年R本政府宣布航瞭,位于F島的核電站,受9級特大地震影響坦辟,放射性物質(zhì)發(fā)生泄漏沧奴。R本人自食惡果不足惜,卻給世界環(huán)境...
- 文/蒙蒙 一长窄、第九天 我趴在偏房一處隱蔽的房頂上張望滔吠。 院中可真熱鬧,春花似錦挠日、人聲如沸疮绷。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽冬骚。三九已至,卻和暖如春懂算,著一層夾襖步出監(jiān)牢的瞬間只冻,已是汗流浹背。 一陣腳步聲響...
推薦閱讀更多精彩內(nèi)容
- 很早之前看了幾篇博文萌衬,只留下模糊印象 。這次是在學習人工智能的基礎知識后再看它抱,其中研究自然語言的方法從基于規(guī)則轉(zhuǎn)變...
- 寫在之前 如需轉(zhuǎn)載秕豫,請注明出處。如有侵權或者其他問題观蓄,煩請告知混移。 第1章文字和語言 vs 數(shù)字和信息 文字和語言與...
- 1.1 統(tǒng)計語言模型 香農(nóng)(Claude Shannon)就提出了用數(shù)學的辦法處理自然語言。首先成功利用數(shù)學方法解...
- 1.整體來說蜘腌,這本書到底在談些什么沫屡? 談數(shù)學知識在計算機中的實際應用,還有精妙的數(shù)學方法撮珠。 2.作者細部說了什么沮脖,...
- 上次寫到了統(tǒng)計語言模型進行語言處理金矛,由于模型是建立在詞匯的基礎之上的,日韓中等國家的語言首先要進行分詞勺届。例如把句...