記錄我訓(xùn)練tesseract4.0時(shí)遇到的問題

一、創(chuàng)建培訓(xùn)數(shù)據(jù)


training/tesstrain.sh?

--fontlist 'font1' 'font2'?#要訓(xùn)練的字體名稱列表局冰。

--fonts_dir /path/to/fonts? ?#字體文件的路徑吊洼。

--lang LANG_CODE?

--linedata_only??#僅為訓(xùn)練生成訓(xùn)練數(shù)據(jù)训貌。

--noextract_font_properties?

--langdata_dir /path/to/langdata?# / langdata目錄的路徑。

?--tessdata_dir /path/to/tessdata??#指定現(xiàn)有的受訓(xùn)數(shù)據(jù)文件的位置冒窍,如果沒有指定會從TESSDATA_PREFIX定義的路徑中查找)

--output_dir ~/path/to/output?#輸出的訓(xùn)練數(shù)據(jù)文件的位置递沪。

--wordlist? /path/to/wordlist file#排序的語言的單詞列表?

--training_text /path/to/text file?#要用于訓(xùn)練的文本。(如果 沒有指定wordlist和trainingtext综液,tesseract會從langdata里查找)

還有一些其他的參數(shù)可以在這里看到款慨。

1.字體

在使用tesstrain.sh創(chuàng)建訓(xùn)練數(shù)據(jù)的時(shí)候,必須先安裝所需字體Cā樱调!

所需要的字體可以在字體 tesseract/training/language-specific.sh?文件中看到,比如想知道訓(xùn)練中文字典的時(shí)候需要哪些字體届良,在這個(gè)文件中找到以下的代碼(296行):

CHI_SIM_FONTS=( \

"AR PL UKai CN"\

"AR PL UMing Patched Light"\

"Arial Unicode MS"\

"Arial Unicode MS Bold"\

"WenQuanYi Zen Hei Medium"\

)

上面列出來的字體就是你系統(tǒng)中必須有的字體笆凌,不然在創(chuàng)建訓(xùn)練數(shù)據(jù)的時(shí)候會報(bào)無法加載字體的錯(cuò)誤。

想要知道自己的系統(tǒng)里已有的字體可以使用text2image --fonts_dir /usr/share/fonts --list_available_fonts命令來查看士葫。

上面的字體列表你可以刪除其中的任一字體乞而,也可以往里添加你想要的字體,如果添加了一種字體慢显,比如SIMSUN(簡體宋)爪模,還需要在langdata/font_properties文件中添加一行數(shù)據(jù):SIMSUN 0 0 0 0 0(如果langdata/font_properties文件中沒有關(guān)于SIMSUN的配置的話)

2.langdata文件

tesstrain.sh在培訓(xùn)過程中會使用到某些文件欠啤,比如 [lang] .training_text (要訓(xùn)練的文本,也可以通過--training_text /路徑/文件.txt指定)屋灌、[lang].wordlist等等都在langdata文件夾里洁段,下載地址:https://github.com/tesseract-ocr/langdata

每個(gè)文件具體的意義可以在這里查看。

(其實(shí)我并不知道這個(gè)文件夾下的那些文件到底是不是必須的共郭,官網(wǎng)上只說必須有[lang].training_text這個(gè)文件祠丝,其他文件有沒有不知道會不會有什么影響阿。除嘹。還有就是如果我自己指定了一個(gè)--training_text写半,那是不是連[lang].training_text都可以不要了。尉咕。)

3.訓(xùn)練文本太大

training/tesstrain_utils.sh文件中叠蝇,代碼215行:common_args+=" --outputbase=${outbase} --max_pages=3"

--max_pages=3 限制了在創(chuàng)建訓(xùn)練數(shù)據(jù)的時(shí)候最多只能生成3頁的文檔圖像,如果訓(xùn)練文本很大年缎,超過3頁的內(nèi)容就會沒了悔捶,可以自己修改這個(gè)值,例如修改為--max_pages=100单芜。

(似乎有一個(gè)設(shè)置圖像大小的參數(shù)蜕该,暫時(shí)想不起來了)

還有一次在訓(xùn)練的時(shí)候,成功的生成訓(xùn)練數(shù)據(jù)后開始訓(xùn)練的時(shí)候報(bào)了一個(gè)圖片尺寸太大什么的錯(cuò)誤缓溅,記不得了蛇损。。原因是訓(xùn)練的文本每行的文字太多坛怪,行寬太長淤齐,截成幾行就好了。袜匿。

4.字典

在創(chuàng)建訓(xùn)練數(shù)據(jù)的時(shí)候更啄,如果還沒有從官網(wǎng)上下載任何字典,那么會報(bào)一個(gè)

Failed loading language 'eng'

Tesseract couldn't load any languages!

Could not initialize tesseract.

的錯(cuò)誤(雖然我訓(xùn)練的是中文)居灯。祭务。似乎是eng.traineddata這個(gè)字典是默認(rèn)需要加載的。怪嫌。反正下一個(gè)就好了义锥。。

還有一個(gè) Failed loading language 'chi_sim_vert'

這岩灭。拌倍。。我看了一下。柱恤。数初。langdata/chi_sim/chi_sim.config這個(gè)文件打開,第一句:tessedit_load_sublangs chi_sim_vert

如果把這一句注釋掉了梗顺,就沒問題了泡孩。∷掳或者你再下一個(gè)chi_sim_vert.traineddata仑鸥。。

所以問題又來了矗漾。锈候。為什么要加載這個(gè)字典薄料。敞贡。

5.亂七八糟的提示

在創(chuàng)建訓(xùn)練文本的時(shí)候還會有很多不是很明白的提示,雖然看上去好像不影響(因?yàn)椴]有因?yàn)檫@些提示而停止創(chuàng)建)摄职,但心里很方誊役。。

比如:

Fontconfig error: line 1: no element found

Fontconfig error: Cannot load default config file

這個(gè)好像是最近剛跑出來的(之前沒注意過谷市。蛔垢。),不知道是為什么迫悠。鹏漆。

還有:

Setting unichar properties

Other case a of A is not in unicharset

Other case t of T is not in unicharset?

........

Setting script properties

Warning: properties incomplete for index 727 = +

Warning: properties incomplete for index 808 = =

Warning: properties incomplete for index 956 = ,

Config file is optional, continuing...

Null char=2

之類的创泄。艺玲。似乎沒有什么影響。鞠抑。

好了饭聚,創(chuàng)建數(shù)據(jù)這個(gè)步驟就到這里,進(jìn)行下一步搁拙。

二秒梳、Training From Scratch


開心,可以開始訓(xùn)練了;佟酪碘!

先是按照官網(wǎng)上的教程訓(xùn)練了英文,過程和結(jié)果與官網(wǎng)的差不多盐茎,然后就想試著去訓(xùn)練中文兴垦。

結(jié)果!Mノ亍;犀忱!中文的訓(xùn)練效果極差!7龉亍R趸恪!同樣的訓(xùn)練數(shù)據(jù)比官方的中文字典差的不知道哪里去了=诨薄2笫!

命令:

mkdir -p ~/tesstutorial/chisimoutput

training/lstmtraining --debug_interval 100 \?

(使用這個(gè)參數(shù)要先構(gòu)建ScrollView.jar工具)

--traineddata ~/tesstutorial/chisimtrain/chi_sim/chi_sim.traineddata \

--net_spec '[1,48,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1]' \

--model_output ~/tesstutorial/chisimoutput/base --learning_rate 20e-4 \

--train_listfile ~/tesstutorial/chisimtrain/chi_sim.training_files.txt \

--eval_listfile ~/tesstutorial/chisimeval/chi_sim.training_files.txt \

--max_iterations 5000 &>~/tesstutorial/chisimoutput/basetrain.log

迭代5000次后發(fā)現(xiàn)铜异,非常的差8缇蟆!揍庄!無敵的差E剌铩!蚂子!

因?yàn)橹形牡挠?xùn)練樣本字符比較多沃测,我想可能是訓(xùn)練的次數(shù)太少所以效果才太差,

所以我就把 --max_iterations 改成了--target_error_rate 0.01讓它繼續(xù)訓(xùn)練

然后在迭代了13萬次之后食茎,效果依舊非常的差蒂破。牲蜀。而且花費(fèi)的時(shí)間非常的多把沼。晴玖。所以我放棄了孔飒。鸦概。放棄了蒙挑。贰剥。棄了垢啼。抄伍。了艘刚。。

然后在tesseract群里面看見 有人說訓(xùn)練了250W次效果都比官方的差很多截珍,所以不要糾結(jié)的去開啟新的篇章吧攀甚。

三、Fine Tuning


Fine tuning 訓(xùn)練就是從現(xiàn)有的訓(xùn)練語言開始岗喉,訓(xùn)練特定的附加數(shù)據(jù)秋度。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市钱床,隨后出現(xiàn)的幾起案子荚斯,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,576評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件事期,死亡現(xiàn)場離奇詭異滥壕,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)兽泣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,515評論 3 399
  • 文/潘曉璐 我一進(jìn)店門绎橘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人唠倦,你說我怎么就攤上這事称鳞。” “怎么了稠鼻?”我有些...
    開封第一講書人閱讀 168,017評論 0 360
  • 文/不壞的土叔 我叫張陵冈止,是天一觀的道長。 經(jīng)常有香客問我候齿,道長熙暴,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,626評論 1 296
  • 正文 為了忘掉前任毛肋,我火速辦了婚禮怨咪,結(jié)果婚禮上屋剑,老公的妹妹穿的比我還像新娘润匙。我一直安慰自己,他們只是感情好唉匾,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,625評論 6 397
  • 文/花漫 我一把揭開白布孕讳。 她就那樣靜靜地躺著,像睡著了一般巍膘。 火紅的嫁衣襯著肌膚如雪厂财。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,255評論 1 308
  • 那天峡懈,我揣著相機(jī)與錄音璃饱,去河邊找鬼。 笑死肪康,一個(gè)胖子當(dāng)著我的面吹牛荚恶,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播磷支,決...
    沈念sama閱讀 40,825評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼谒撼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了雾狈?” 一聲冷哼從身側(cè)響起廓潜,我...
    開封第一講書人閱讀 39,729評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后辩蛋,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體呻畸,經(jīng)...
    沈念sama閱讀 46,271評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,363評論 3 340
  • 正文 我和宋清朗相戀三年悼院,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了擂错。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,498評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡樱蛤,死狀恐怖钮呀,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情昨凡,我是刑警寧澤爽醋,帶...
    沈念sama閱讀 36,183評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站便脊,受9級特大地震影響蚂四,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜哪痰,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,867評論 3 333
  • 文/蒙蒙 一遂赠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧晌杰,春花似錦跷睦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,338評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至爹殊,卻和暖如春蜕乡,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背梗夸。 一陣腳步聲響...
    開封第一講書人閱讀 33,458評論 1 272
  • 我被黑心中介騙來泰國打工层玲, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人反症。 一個(gè)月前我還...
    沈念sama閱讀 48,906評論 3 376
  • 正文 我出身青樓辛块,卻偏偏與公主長得像,于是被迫代替她去往敵國和親惰帽。 傳聞我的和親對象是個(gè)殘疾皇子憨降,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,507評論 2 359