Tess4J字庫訓練

Tess4J字庫訓練

  • 首先準備好你的圖片
  • 使用VietOCR或者jTessBoxEditorFX生成tif文件

找到你的VietOCR或者jTessBoxEditorFX目錄子姜,雙擊.bat文件運行

強調(diào)一下文件格式

  • 格式:[語言].[名稱].exp[數(shù)字].tif
    1. [語言]必須是在Tesseract-OCR/tessdata目錄下存在的帅刊,當它生成tif文件會用這里面的語言包去識別,所以你要確保你的語言前綴是正確的养筒!
    2. [名稱]是你自定義的名稱讲坎,整個訓練完成后這就是你自己的語言包前綴啦祭埂!
    3. [數(shù)字]隨便帶一個1就行叶撒,沒什么用紊搪,不過你可以當作你的版本號做個標識。

然后繼續(xù)

  • 生成.box文件

例如:tesseract .\eng.jxbocr.exp1.tif .\eng.jxbocr.exp1 -l jxbocr batch.nochop makebox

然后矯正你的字符:


矯正完畢后切記1目瘛J睦椤朋贬!要保存?ā!點那個save按鈕=跄肌0谕汀!

[00]生成.tr文件

格式:tesseract [fileName.tif] [fileName] nobatch box.train
例如:tesseract eng.jxbocr.exp1.tif eng.jxbocr.exp1 nobatch box.train

注意:第一個是要執(zhí)行的文件eng.jxbocr.exp1.tif第二個是要生成的.tr文件名稱糠亩,必須和要執(zhí)行的文件名稱保持一致虐骑,但是后綴不加,比如上面我的第二個參數(shù)eng.jxbocr.exp1赎线。

[01]生成unicharset文件

格式:unicharset_extractor [文件名].box
例如:unicharset_extractor eng.jxbocr.exp1.box

[02]新建font_properties.txt文件

寫入:jxbocr 0 0 0 0 0
表示:使用默認的字體廷没,然后保存這個文本呢
注意:jxbocr是你上面文件名eng.jxbocr.exp1.tif的第二個字段

[03]生成shapetable文件

格式:shapeclustering -F font_properties.txt -U unicharset [文件名].tr
例如:shapeclustering -F font_properties.txt -U unicharset eng.jxbocr.exp1.tr

[04]生成pffmtableinttemp文件

格式:mftraining -F font_properties.txt -U unicharset -O unicharset [文件名].tr
例如:mftraining -F font_properties.txt -U unicharset -O unicharset eng.jxbocr.exp1.tr

[05]生成normproto文件

格式:cntraining [文件名].tr
例如:cntraining eng.jxbocr.exp1.tr

[05]加上統(tǒng)一的前綴

前綴就是你的文件eng.jxbocr.exp1第二個字段jxbocr.,然后就是這個樣子:

[06]生成traineddata文件

格式:combine_tessdata [第二字段]
例如:combine_tessdata jxbocr.

OK垂寥,訓練完成颠黎!把你的語言包放到Tesseract-OCR/tessdata目錄下另锋,然后你可以測試識別一下,嘿嘿狭归。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末夭坪,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子过椎,更是在濱河造成了極大的恐慌室梅,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件疚宇,死亡現(xiàn)場離奇詭異亡鼠,居然都是意外死亡,警方通過查閱死者的電腦和手機敷待,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進店門拆宛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人讼撒,你說我怎么就攤上這事浑厚。” “怎么了根盒?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵钳幅,是天一觀的道長。 經(jīng)常有香客問我炎滞,道長敢艰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任册赛,我火速辦了婚禮钠导,結果婚禮上,老公的妹妹穿的比我還像新娘森瘪。我一直安慰自己牡属,他們只是感情好,可當我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布扼睬。 她就那樣靜靜地躺著逮栅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪窗宇。 梳的紋絲不亂的頭發(fā)上措伐,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天,我揣著相機與錄音军俊,去河邊找鬼侥加。 笑死,一個胖子當著我的面吹牛粪躬,可吹牛的內(nèi)容都是我干的担败。 我是一名探鬼主播矗蕊,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼氢架!你這毒婦竟也來了傻咖?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤岖研,失蹤者是張志新(化名)和其女友劉穎卿操,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體孙援,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡害淤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了拓售。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片窥摄。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖础淤,靈堂內(nèi)的尸體忽然破棺而出崭放,到底是詐尸還是另有隱情,我是刑警寧澤鸽凶,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布币砂,位于F島的核電站,受9級特大地震影響玻侥,放射性物質(zhì)發(fā)生泄漏决摧。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一凑兰、第九天 我趴在偏房一處隱蔽的房頂上張望掌桩。 院中可真熱鬧,春花似錦姑食、人聲如沸波岛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽盆色。三九已至灰蛙,卻和暖如春祟剔,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背摩梧。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工物延, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人仅父。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓叛薯,卻偏偏與公主長得像浑吟,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子耗溜,可洞房花燭夜當晚...
    茶點故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內(nèi)容