官方鏈接:
官方訓練教程:https://github.com/tesseract-ocr/tessdoc/blob/master/TrainingTesseract-4.00.md
語言包地址:https://github.com/tesseract-ocr/tessdata_best
4.0 LSTM的訓練流程和3.0版本有點像丸凭,如下:
- 準備培訓文字(txt)厂画。
- 將文本轉換為 圖像和box文件止邮。
- 制作unicharset文件。
- 根據(jù)unicharset和可選的詞典數(shù)據(jù)制作入門級訓練數(shù)據(jù)莲趣。
- 運行tesseract以處理圖像和 box文件以創(chuàng)建訓練數(shù)據(jù)集劲适。
- 對訓練數(shù)據(jù)集進行訓練峭梳。
- 合并數(shù)據(jù)文件。
其區(qū)別在于:
1、 3.0版本訓練圖像文字拭嫁,需要知道每個要訓練的字在其圖像中的具體坐標,而4.0版本訓練僅需要知道這個字所在行的坐標即可(即不需要逐個字去調試坐標)抓于。
2噩凹、3.0版本訓練過程中的 .tr文件在4.0版本的訓練過程中被替換為.lstmf數(shù)據(jù)文件。(其他訓練教程里面如果出現(xiàn)了.tr文件毡咏,那就可以肯定他的教程是3.0版本)
3驮宴、 字體可以并且應該自由混合而不是分開。(這段話我看不懂)
4呕缭、 3.0版本的聚類步驟(mftraining堵泽,cntraining,shapeclustering)在4.0中被替換為一個緩慢的lstmtraining步驟恢总。(即3.0的多個合并步驟在4.0這里只需要一個步驟完成)
5迎罗、 4.0的訓練需要一氣呵成,如果訓練中斷片仿,重啟后很難自動結束纹安。
6、 4.0使用的語言模型、unicharset和3.0版本所使用的語言模型和unicharset不一樣(所以不要拿3.0的數(shù)據(jù)來4.0里面訓練)厢岂。
訓練前準備
寫了半天:發(fā)現(xiàn)知乎已經(jīng)有篇現(xiàn)成的了光督,大家可以參考
https://zhuanlan.zhihu.com/p/58366201?from_voters_page=true