tesseract-ocr安裝和使用
下載tesseract-ocr并安裝屎勘。node下使用node-tesseract模塊。
示例代碼:
const tesseract = require('node-tesseract');
tesseract.process('./img/1.jpg', {
l: 'x', // 語(yǔ)言
psm: 1 // 識(shí)別程度
}, (err, text)=>{
if(err){
console.error(err);
}else{
console.log(text);
}
});
tesseract-ocr語(yǔ)言庫(kù)的訓(xùn)練
1.準(zhǔn)備好驗(yàn)證碼圖片c.x.y居扒,圖片格式為tif或tiff概漱,合并驗(yàn)證碼圖片。
2.生成box文件
tesseract c.x.y.tif c.x.y -l eng -psm 7 batch.nochop makebox
3.修改box文件(使用jTessBoxEditor工具喜喂,使用java虛擬機(jī)運(yùn)行)
4.生成font_propertiesecho
echo fontyp 0 0 0 0 0 >font_properties
5.生成訓(xùn)練文件
tesseract c.x.y.tif c.x.y -l eng -psm 7 nobatch box.train
6.生成字符集文件
unicharset_extractor c.x.y.box
7.生成shape文件
shapeclustering -F font_properties -U unicharset -O c.unicharset c.x.y.tr
8.生成聚集字符特征文件
mftraining -F font_properties -U unicharset -O c.unicharset c.x.y.tr
9.生成字符正橙看荩化特征文件
cntraining c.x.y.tr
10.更名(normproto、inttemp玉吁、pffmtable照弥、unicharset、shapetable改名為x.擴(kuò)展名)
11.合并訓(xùn)練文件进副,生成fontyp.traineddata
combine_tessdata y.
Tesseract-OCR3.0語(yǔ)言庫(kù)訓(xùn)練步驟
利用jTessBoxEditor工具進(jìn)行Tesseract3.02.02樣本訓(xùn)練