Tess4J字庫訓練
- 首先準備好你的圖片
- 使用VietOCR或者jTessBoxEditorFX生成tif文件
找到你的VietOCR或者jTessBoxEditorFX目錄子姜,雙擊
.bat
文件運行
強調(diào)一下文件格式
- 格式:
[語言].[名稱].exp[數(shù)字].tif
-
[語言]
必須是在Tesseract-OCR/tessdata
目錄下存在的帅刊,當它生成tif
文件會用這里面的語言包去識別,所以你要確保你的語言前綴是正確的养筒! -
[名稱]
是你自定義的名稱讲坎,整個訓練完成后這就是你自己的語言包前綴啦祭埂! -
[數(shù)字]
隨便帶一個1就行叶撒,沒什么用紊搪,不過你可以當作你的版本號做個標識。
-
然后繼續(xù)
- 生成
.box
文件
例如:tesseract .\eng.jxbocr.exp1.tif .\eng.jxbocr.exp1 -l jxbocr batch.nochop makebox
然后矯正你的字符:
矯正完畢后切記1目瘛J睦椤朋贬!要保存?ā!
點那個save
按鈕=跄肌0谕汀!
[00]生成
.tr
文件
格式:tesseract [fileName.tif] [fileName] nobatch box.train
例如:tesseract eng.jxbocr.exp1.tif eng.jxbocr.exp1 nobatch box.train
注意:第一個是要執(zhí)行的文件eng.jxbocr.exp1.tif
第二個是要生成的.tr
文件名稱糠亩,必須和要執(zhí)行的文件名稱保持一致虐骑,但是后綴不加,比如上面我的第二個參數(shù)eng.jxbocr.exp1
赎线。
[01]生成
unicharset
文件
格式:unicharset_extractor [文件名].box
例如:unicharset_extractor eng.jxbocr.exp1.box
[02]新建
font_properties.txt
文件
寫入:jxbocr 0 0 0 0 0
表示:使用默認的字體廷没,然后保存這個文本呢
注意:jxbocr
是你上面文件名eng.jxbocr.exp1.tif
的第二個字段
[03]生成
shapetable
文件
格式:shapeclustering -F font_properties.txt -U unicharset [文件名].tr
例如:shapeclustering -F font_properties.txt -U unicharset eng.jxbocr.exp1.tr
[04]生成
pffmtable
和inttemp
文件
格式:mftraining -F font_properties.txt -U unicharset -O unicharset [文件名].tr
例如:mftraining -F font_properties.txt -U unicharset -O unicharset eng.jxbocr.exp1.tr
[05]生成
normproto
文件
格式:cntraining [文件名].tr
例如:cntraining eng.jxbocr.exp1.tr
[05]加上統(tǒng)一的前綴
前綴就是你的文件eng.jxbocr.exp1
第二個字段jxbocr.
,然后就是這個樣子:
[06]生成
traineddata
文件
格式:combine_tessdata [第二字段]
例如:combine_tessdata jxbocr.
OK垂寥,訓練完成颠黎!把你的語言包放到Tesseract-OCR/tessdata
目錄下另锋,然后你可以測試識別一下,嘿嘿狭归。