個人博客
下載Tesseract
https://github.com/UB-Mannheim/tesseract/wiki
下載jTessBoxEditor
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/jTessBoxEditor-2.3.1.zip/download
安裝Tesseract
一路Next赔退,在選擇組件界面,全選所有組件
安裝jTessBoxEditor
解壓后芥喇,直接運行jTessBoxEditor.jar
制作訓練樣本
運行jTessBoxEditor工具灾杰,點擊Tools-Merge TIFF,選擇需要合并的tif文件瓶佳,保存文件名稱格式:[lang].[fontname].exp[num],如zh.song.exp0
生成Box文件
進入Tesseract安裝目錄
tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox
[lang].[fontname].exp[num].tif 即為上面生成的合并文件
[lang].[fontname].exp[num]為新生成的box文件武鲁,文件名為輸入文件名稱一致
校正box文件
將上面兩步生成的.tif和.box文件放在同一目錄下故源,jTessBoxEditor軟件中選擇Box Editor隙咸,open,選擇之前的tif文件,打開后可以校正結(jié)果后保存贝次。
創(chuàng)建 font_properties 文件
文件內(nèi)容:
<fontname> <italic> <bold> <fixed> <serif> <fraktur>
如
song 0 0 0 0 0
生成字符特征文件
新建bat文件
rem 產(chǎn)生字符特征文件
tesseract zh.song.exp0.tif zh.song.exp0.tif box.train
rem 計算字符集
unicharset_extractor zh.song.exp0.box
rem 聚集字符特征
mftraining -F font_properties -U unicharset -O zh.unicharset zh.song.exp0.tr
rem 生成字符形狀正炒扌耍化特征文件
cntraining zh.song.exp0.tr
rem 文件重命名
ren shapetable zh.shapetable
ren normproto zh.normproto
ren inttemp zh.inttemp
ren pffmtable zh.pffmtable
rem 生成tessdata文件
combine_tessdata zh.
pause
執(zhí)行bat文件,即可生成zh.traineddata蛔翅。