Python 實現(xiàn)字符識別—Part4

如果你看的比較困惑的話常熙,可以參考
Python 實現(xiàn)字符識別—Part1:關于PIL庫的使用
http://www.reibang.com/p/0a94d8ea2bf3
Python 實現(xiàn)字符識別—Part2:關于圖形格式的基礎知識和我的一個問題(歡迎大神來指點迷津)
http://www.reibang.com/p/252ff113d1d0
Python 實現(xiàn)字符識別—Part3:關于完成驗證碼識別的前置操作繁堡,字符的提取和圖像的分割
http://www.reibang.com/p/4ff1559c1cf6
Python 實現(xiàn)字符識別—Part4 : 關于空間向量搜索算法paper的介紹
http://www.reibang.com/p/b13b3905cc7d
Python 實現(xiàn)字符識別—Part5:關于使用空間向量搜索算法實現(xiàn)字符識別
http://www.reibang.com/p/1905bf78f0bd

完成了字符的切分之后驼侠,下面就到了字符的識別鲫骗。字符識別的方法有很多種织阳,機器學習咳短,深度學習填帽,神經(jīng)網(wǎng)絡等。

下面要寫得是通過特征向量來做的字符識別咙好,主要是通過《Basic Vector Space Search Engine Theory》(基本向量空間搜索引擎)這篇文章提出的方法篡腌。
文章的下載連接:http://ondoc.logand.com/d/2697/pdf

舉個例子,來簡單的概括一下這篇paper:

如果比較兩個html網(wǎng)頁的相似度(這應該是 谷歌提出的Page Rank算法系列里面的一個算法勾效,用來解決網(wǎng)頁相似度的問題)嘹悼。比如在做搜索引擎的時候,經(jīng)常會遇到爬蟲 爬到兩個不同的url层宫,指向同一個網(wǎng)頁杨伙。
在處理這些網(wǎng)頁的時候,很重要的一個算法就是去重萌腿。去除內(nèi)容相同的網(wǎng)頁限匣,或者是類似的網(wǎng)頁。這樣就需要一個提出一種機制來衡量 兩個網(wǎng)頁的相似度哮奇。這篇文章膛腐,簡單的概括就是講這個的。

舉個例子
網(wǎng)頁1 :

<html>
<h1> write the code ,change the world  </h1>
</html>

網(wǎng)頁2:

<html>
<h1> copy the code ,paste the code   </h1>
</html>

首先這個算法得出 term space (這個不知道怎么翻譯鼎俘,就不翻譯了)

  1. 去除網(wǎng)頁種的html標簽
  2. 合并相同的單詞哲身,比如‘running’,‘runer’贸伐,‘runs’ (縮小向量空間的大锌碧臁)
  3. 刪除stop word,比如‘the’ (因為這些詞并不會改變語義)
  4. 統(tǒng)計term space 出現(xiàn)的次數(shù)

那么這樣網(wǎng)頁1的term space 是 (write ,code,change,world),出現(xiàn)的次數(shù)是(1脯丝,1商膊,1,1)
網(wǎng)頁2的term space 是(copy ,code , paste)宠进,出現(xiàn)的次數(shù)是(1,2,1)

image.png

所以晕拆,
網(wǎng)頁1的向量是 v1=(1,1材蹬,1实幕,0,1堤器,0)
網(wǎng)頁2的向量是 v2=(0昆庇,0,2闸溃,1整吆,0,1)

這是時候辉川,網(wǎng)頁3來了表蝙,要比較和他網(wǎng)頁1和網(wǎng)頁2的相似度
網(wǎng)頁3的內(nèi)容是

<html>
<h1> copy the code ,paste</h1>
</html>

那么網(wǎng)頁3的向量是 Q=(0,0员串,1勇哗,1,0寸齐,1)

下面欲诺,通過這個公式來計算相似度:


image.png

網(wǎng)頁3和網(wǎng)頁1的計算結果是:0.28
網(wǎng)頁3和網(wǎng)頁2的計算結果是:0.943

所以,網(wǎng)頁3和網(wǎng)頁2相似度更高渺鹦。 這個就是 向量空間搜索的方法扰法。但是這個方法的有點是
不需要大量的訓練迭代;不會過擬合毅厚;可以查看測試集合和所有訓練集的擬合度塞颁;

缺點:慢。如果訓練集很大的話吸耿,比其他深度學習的方法要慢很多祠锣。
下一篇文章應該寫得是,關于向量空間搜索的算法在字符識別上面的應用咽安。

Python 實現(xiàn)字符識別—Part1
http://www.reibang.com/p/0a94d8ea2bf3
Python 實現(xiàn)字符識別—Part2
http://www.reibang.com/p/252ff113d1d0
Python 實現(xiàn)字符識別—Part3
http://www.reibang.com/p/4ff1559c1cf6
Python 實現(xiàn)字符識別—Part4
http://www.reibang.com/p/b13b3905cc7d
Python 實現(xiàn)字符識別—Part5
http://www.reibang.com/p/1905bf78f0bd

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末伴网,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子妆棒,更是在濱河造成了極大的恐慌澡腾,老刑警劉巖沸伏,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異动分,居然都是意外死亡毅糟,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門澜公,熙熙樓的掌柜王于貴愁眉苦臉地迎上來姆另,“玉大人,你說我怎么就攤上這事玛瘸⊥汕啵” “怎么了?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵糊渊,是天一觀的道長。 經(jīng)常有香客問我慧脱,道長渺绒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任菱鸥,我火速辦了婚禮宗兼,結果婚禮上,老公的妹妹穿的比我還像新娘氮采。我一直安慰自己殷绍,他們只是感情好,可當我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布鹊漠。 她就那樣靜靜地躺著主到,像睡著了一般。 火紅的嫁衣襯著肌膚如雪躯概。 梳的紋絲不亂的頭發(fā)上登钥,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天,我揣著相機與錄音娶靡,去河邊找鬼牧牢。 笑死,一個胖子當著我的面吹牛姿锭,可吹牛的內(nèi)容都是我干的塔鳍。 我是一名探鬼主播,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼呻此,長吁一口氣:“原來是場噩夢啊……” “哼轮纫!你這毒婦竟也來了?” 一聲冷哼從身側響起趾诗,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蜡感,失蹤者是張志新(化名)和其女友劉穎蹬蚁,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體郑兴,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡犀斋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了情连。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片叽粹。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖却舀,靈堂內(nèi)的尸體忽然破棺而出虫几,到底是詐尸還是另有隱情,我是刑警寧澤挽拔,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布辆脸,位于F島的核電站,受9級特大地震影響螃诅,放射性物質發(fā)生泄漏啡氢。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一术裸、第九天 我趴在偏房一處隱蔽的房頂上張望倘是。 院中可真熱鬧,春花似錦袭艺、人聲如沸搀崭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽瘤睹。三九已至,卻和暖如春袍镀,著一層夾襖步出監(jiān)牢的瞬間默蚌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工苇羡, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留绸吸,地道東北人。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓设江,卻偏偏與公主長得像锦茁,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子叉存,可洞房花燭夜當晚...
    茶點故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,135評論 25 707
  • 最近自己寫的簡書文章太多了码俩,導致很難找到之前寫的文章。 于是歼捏,我想整理一篇目錄稿存,使用搜索快捷鍵:ctrl+F笨篷,即可...
    張云錢閱讀 1,625評論 0 1
  • 這篇文章寫得是,關于向量空間搜索的算法在字符識別上面的應用瓣履。 如果你看的比較困惑的話率翅,可以參考Python 實現(xiàn)字...
    DayDayUpppppp閱讀 3,654評論 0 1
  • 導讀: 有一種藝術傳承千年,它千變?nèi)f化袖迎,形式多樣冕臭,色彩斑斕,有著獨特的藝術魅力燕锥。最奇特的就是扎結各種花辜贵,染色后即使...
    煙頭不上火閱讀 1,344評論 1 9
  • 楚二愛吃菜不愛吃肉。 楚二愛網(wǎng)淘不愛名牌归形。 楚二愛睡覺不愛出門托慨。 楚二愛喝水不愛酒飲。 楚二愛節(jié)儉不愛浪費暇榴。 恰逢...
    萌po閱讀 294評論 0 0