tesseract4.0_train

需求

原文地址
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00
參考地址:https://blog.csdn.net/panbiao1999/article/details/74638749

介紹:
tesseract4.0集成了基于神經(jīng)網(wǎng)絡(luò)的識別引擎浪腐,比之前的版本準(zhǔn)確率有顯著的提高诗鸭,
對于復(fù)雜語言的訓(xùn)練比傳統(tǒng)tesseract更快
神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要更多的數(shù)據(jù)而且訓(xùn)練速度也要慢很多,
針對拉丁系語言楔绞,已有的數(shù)據(jù)模型已經(jīng)訓(xùn)練了大約40萬文本行外构,大約4500種字體跪帝,
其他語種沒有這么多字體粱哼,但也經(jīng)過了大量文本行的訓(xùn)練顶别。
相比與傳統(tǒng)的訓(xùn)練需要幾分鐘到幾小時谷徙,tesseract4.0的訓(xùn)練需要幾天到幾周的時間。
即使4.0版本已經(jīng)有了大量的訓(xùn)練驯绎,但是為了解決特定的問題完慧,還是需要重新訓(xùn)練。
訓(xùn)練的幾種方法:
1.微調(diào):在已經(jīng)訓(xùn)練好的語言包的基礎(chǔ)上剩失,額外訓(xùn)練自己添加的數(shù)據(jù)屈尼。
              這種方式適合和原有語言包比較接近的册着,一些比較不常用的字體就不行了
2.替換top layer(或者任意多層layer):用新的數(shù)據(jù)重新訓(xùn)練top layer(或者任意多層)
               當(dāng)微調(diào)不能解決問題時,這種方法是最好的選擇脾歧。
              重新訓(xùn)練top layer 很可能對整個訓(xùn)練不會有太大的影響甲捏,保證真?zhèn)€訓(xùn)練的完整性
3.從頭開始訓(xùn)練:這是個令人望而生畏的任務(wù),除非你非常有信心鞭执,同時有充足的訓(xùn)練集
               否則的話司顿,你只能得到一個過擬合的神經(jīng)網(wǎng)絡(luò)(訓(xùn)練很大,但處理實際數(shù)據(jù)很差)

上面幾種聽起來不同兄纺,但實際的訓(xùn)練步驟是完全一致的大溜。
除了命令行執(zhí)行的命令之外,非常容易同時進(jìn)行上面幾種訓(xùn)練
PS:舊的識別引擎還保留估脆,但在將來版本會刪除
訓(xùn)練準(zhǔn)備:
了解神經(jīng)網(wǎng)絡(luò)對了訓(xùn)練參數(shù)的理解有幫助钦奋,對于tesseract4.0的訓(xùn)練可以不需要任何神經(jīng)網(wǎng)絡(luò)的背景知識
開始訓(xùn)練之前推薦閱讀
1.https://github.com/tesseract-ocr/tesseract/wiki/NeuralNetsInTesseract4.00
2.https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality (強(qiáng)烈建議閱讀)
需要安裝的lib
sudo apt-get install libicu-dev
sudo apt-get install libpango1.0-dev
sudo apt-get install libcairo2-dev
系統(tǒng)要求,推薦是linux(mac也許可以疙赠,window不確定)
4核CPU最好锨苏,足夠的內(nèi)存,不支持GPU

分析

過程

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末棺聊,一起剝皮案震驚了整個濱河市伞租,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌限佩,老刑警劉巖葵诈,帶你破解...
    沈念sama閱讀 212,029評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異祟同,居然都是意外死亡作喘,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,395評論 3 385
  • 文/潘曉璐 我一進(jìn)店門晕城,熙熙樓的掌柜王于貴愁眉苦臉地迎上來泞坦,“玉大人,你說我怎么就攤上這事砖顷》∷” “怎么了?”我有些...
    開封第一講書人閱讀 157,570評論 0 348
  • 文/不壞的土叔 我叫張陵滤蝠,是天一觀的道長豌熄。 經(jīng)常有香客問我,道長物咳,這世上最難降的妖魔是什么锣险? 我笑而不...
    開封第一講書人閱讀 56,535評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上芯肤,老公的妹妹穿的比我還像新娘巷折。我一直安慰自己,他們只是感情好崖咨,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,650評論 6 386
  • 文/花漫 我一把揭開白布锻拘。 她就那樣靜靜地躺著,像睡著了一般掩幢。 火紅的嫁衣襯著肌膚如雪逊拍。 梳的紋絲不亂的頭發(fā)上上鞠,一...
    開封第一講書人閱讀 49,850評論 1 290
  • 那天际邻,我揣著相機(jī)與錄音,去河邊找鬼芍阎。 笑死世曾,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的谴咸。 我是一名探鬼主播轮听,決...
    沈念sama閱讀 39,006評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼岭佳!你這毒婦竟也來了血巍?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,747評論 0 268
  • 序言:老撾萬榮一對情侶失蹤珊随,失蹤者是張志新(化名)和其女友劉穎述寡,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體叶洞,經(jīng)...
    沈念sama閱讀 44,207評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡鲫凶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,536評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了衩辟。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片螟炫。...
    茶點(diǎn)故事閱讀 38,683評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖艺晴,靈堂內(nèi)的尸體忽然破棺而出昼钻,到底是詐尸還是另有隱情,我是刑警寧澤封寞,帶...
    沈念sama閱讀 34,342評論 4 330
  • 正文 年R本政府宣布换吧,位于F島的核電站,受9級特大地震影響钥星,放射性物質(zhì)發(fā)生泄漏沾瓦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,964評論 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望贯莺。 院中可真熱鬧风喇,春花似錦、人聲如沸缕探。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,772評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽爹耗。三九已至耙考,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間潭兽,已是汗流浹背倦始。 一陣腳步聲響...
    開封第一講書人閱讀 32,004評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留山卦,地道東北人鞋邑。 一個月前我還...
    沈念sama閱讀 46,401評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像账蓉,于是被迫代替她去往敵國和親枚碗。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,566評論 2 349