如果你看的比較困惑的話常熙,可以參考
Python 實現(xiàn)字符識別—Part1:關于PIL庫的使用
http://www.reibang.com/p/0a94d8ea2bf3
Python 實現(xiàn)字符識別—Part2:關于圖形格式的基礎知識和我的一個問題(歡迎大神來指點迷津)
http://www.reibang.com/p/252ff113d1d0
Python 實現(xiàn)字符識別—Part3:關于完成驗證碼識別的前置操作繁堡,字符的提取和圖像的分割
http://www.reibang.com/p/4ff1559c1cf6
Python 實現(xiàn)字符識別—Part4 : 關于空間向量搜索算法paper的介紹
http://www.reibang.com/p/b13b3905cc7d
Python 實現(xiàn)字符識別—Part5:關于使用空間向量搜索算法實現(xiàn)字符識別
http://www.reibang.com/p/1905bf78f0bd
完成了字符的切分之后驼侠,下面就到了字符的識別鲫骗。字符識別的方法有很多種织阳,機器學習咳短,深度學習填帽,神經(jīng)網(wǎng)絡等。
下面要寫得是通過特征向量來做的字符識別咙好,主要是通過《Basic Vector Space Search Engine Theory》(基本向量空間搜索引擎)這篇文章提出的方法篡腌。
文章的下載連接:http://ondoc.logand.com/d/2697/pdf
舉個例子,來簡單的概括一下這篇paper:
如果比較兩個html網(wǎng)頁的相似度(這應該是 谷歌提出的Page Rank算法系列里面的一個算法勾效,用來解決網(wǎng)頁相似度的問題)嘹悼。比如在做搜索引擎的時候,經(jīng)常會遇到爬蟲 爬到兩個不同的url层宫,指向同一個網(wǎng)頁杨伙。
在處理這些網(wǎng)頁的時候,很重要的一個算法就是去重萌腿。去除內(nèi)容相同的網(wǎng)頁限匣,或者是類似的網(wǎng)頁。這樣就需要一個提出一種機制來衡量 兩個網(wǎng)頁的相似度哮奇。這篇文章膛腐,簡單的概括就是講這個的。
舉個例子
網(wǎng)頁1 :
<html>
<h1> write the code ,change the world </h1>
</html>
網(wǎng)頁2:
<html>
<h1> copy the code ,paste the code </h1>
</html>
首先這個算法得出 term space (這個不知道怎么翻譯鼎俘,就不翻譯了)
- 去除網(wǎng)頁種的html標簽
- 合并相同的單詞哲身,比如‘running’,‘runer’贸伐,‘runs’ (縮小向量空間的大锌碧臁)
- 刪除stop word,比如‘the’ (因為這些詞并不會改變語義)
- 統(tǒng)計term space 出現(xiàn)的次數(shù)
那么這樣網(wǎng)頁1的term space 是 (write ,code,change,world),出現(xiàn)的次數(shù)是(1脯丝,1商膊,1,1)
網(wǎng)頁2的term space 是(copy ,code , paste)宠进,出現(xiàn)的次數(shù)是(1,2,1)
所以晕拆,
網(wǎng)頁1的向量是 v1=(1,1材蹬,1实幕,0,1堤器,0)
網(wǎng)頁2的向量是 v2=(0昆庇,0,2闸溃,1整吆,0,1)
這是時候辉川,網(wǎng)頁3來了表蝙,要比較和他網(wǎng)頁1和網(wǎng)頁2的相似度
網(wǎng)頁3的內(nèi)容是
<html>
<h1> copy the code ,paste</h1>
</html>
那么網(wǎng)頁3的向量是 Q=(0,0员串,1勇哗,1,0寸齐,1)
下面欲诺,通過這個公式來計算相似度:
網(wǎng)頁3和網(wǎng)頁1的計算結果是:0.28
網(wǎng)頁3和網(wǎng)頁2的計算結果是:0.943
所以,網(wǎng)頁3和網(wǎng)頁2相似度更高渺鹦。 這個就是 向量空間搜索的方法扰法。但是這個方法的有點是
不需要大量的訓練迭代;不會過擬合毅厚;可以查看測試集合和所有訓練集的擬合度塞颁;
缺點:慢。如果訓練集很大的話吸耿,比其他深度學習的方法要慢很多祠锣。
下一篇文章應該寫得是,關于向量空間搜索的算法在字符識別上面的應用咽安。
Python 實現(xiàn)字符識別—Part1
http://www.reibang.com/p/0a94d8ea2bf3
Python 實現(xiàn)字符識別—Part2
http://www.reibang.com/p/252ff113d1d0
Python 實現(xiàn)字符識別—Part3
http://www.reibang.com/p/4ff1559c1cf6
Python 實現(xiàn)字符識別—Part4
http://www.reibang.com/p/b13b3905cc7d
Python 實現(xiàn)字符識別—Part5
http://www.reibang.com/p/1905bf78f0bd