





  • Tesseract-OCR引擎
  • jTessBoxEditor用來訓(xùn)練字庫(kù)
  • Tesseract-OCR在centos 7中安裝肌割,jTessBoxEditor安裝在win中


之所以選擇在centos 7下安裝Tesseract柄粹,因?yàn)樵诖酥鞍惭b過win版本弦讽,和在centos 6編譯和yum安裝過,但是在使用過程中都會(huì)提示缺少某一部分內(nèi)容。
在centos 7下選擇了yum安裝柏靶。
[root@docker01 yum.repos.d]# yum install epel-release
[root@docker01 yum.repos.d]# yum install tesseract


 Package                                             架構(gòu)                               版本                                                 源                                   大小
 tesseract                                           x86_64                             3.04.00-3.el7                                        epel                                 11 M
 cairo                                               x86_64                             1.14.2-1.el7                                         base                                711 k
 fontconfig                                          x86_64                             2.10.95-7.el7                                        base                                228 k
 fontpackages-filesystem                             noarch                             1.44-8.el7                                           base                                9.9 k
 giflib                                              x86_64                             4.1.6-9.el7                                          base                                 40 k
 graphite2                                           x86_64                             1.3.6-1.el7_2                                        updates                             112 k
 harfbuzz                                            x86_64                             0.9.36-1.el7                                         base                                156 k
 jbigkit-libs                                        x86_64                             2.0-11.el7                                           base                                 46 k
 leptonica                                           x86_64                             1.72-2.el7                                           epel                                928 k
 libICE                                              x86_64                             1.0.9-2.el7                                          base                                 65 k
 libSM                                               x86_64                             1.2.2-2.el7                                          base                                 39 k
 libX11                                              x86_64                             1.6.3-2.el7                                          base                                605 k
 libX11-common                                       noarch                             1.6.3-2.el7                                          base                                162 k
 libXau                                              x86_64                             1.0.8-2.1.el7                                        base                                 29 k
 libXdamage                                          x86_64                             1.1.4-4.1.el7                                        base                                 20 k
 libXext                                             x86_64                             1.3.3-3.el7                                          base                                 39 k
 libXfixes                                           x86_64                             5.0.1-2.1.el7                                        base                                 18 k
 libXft                                              x86_64                             2.3.2-2.el7                                          base                                 58 k
 libXrender                                          x86_64                             0.9.8-2.1.el7                                        base                                 25 k
 libXxf86vm                                          x86_64                             1.1.3-2.1.el7                                        base                                 17 k
 libicu                                              x86_64                             50.1.2-15.el7                                        base                                6.9 M
 libjpeg-turbo                                       x86_64                             1.2.90-5.el7                                         base                                134 k
 libpng                                              x86_64                             2:1.5.13-7.el7_2                                     updates                             213 k
 libthai                                             x86_64                             0.1.14-9.el7                                         base                                187 k
 libtiff                                             x86_64                             4.0.3-25.el7_2                                       updates                             169 k
 libwebp                                             x86_64                             0.3.0-3.el7                                          base                                170 k
 libxcb                                              x86_64                             1.11-4.el7                                           base                                189 k
 libxshmfence                                        x86_64                             1.2-1.el7                                            base                                7.2 k
 mesa-libEGL                                         x86_64                             10.6.5-3.20150824.el7                                base                                 74 k
 mesa-libGL                                          x86_64                             10.6.5-3.20150824.el7                                base                                184 k
 mesa-libgbm                                         x86_64                             10.6.5-3.20150824.el7                                base                                 40 k
 mesa-libglapi                                       x86_64                             10.6.5-3.20150824.el7                                base                                 39 k
 pango                                               x86_64                             1.36.8-2.el7                                         base                                287 k
 pixman                                              x86_64                             0.32.6-3.el7                                         base                                254 k


[root@docker01 tesseract]# tesseract

  tesseract imagename|stdin outputbase|stdout [options...] [configfile...]

OCR options:
  --tessdata-dir /path  specify the location of tessdata path
  --user-words /path/to/file    specify the location of user words file
  --user-patterns /path/to/file specify the location of user patterns file
  -l lang[+lang]        specify language(s) used for OCR
  -c configvar=value    set value for control parameter.
                        Multiple -c arguments are allowed.
  -psm pagesegmode      specify page segmentation mode.
These options must occur before any configfile.

pagesegmode values are:
  0 = Orientation and script detection (OSD) only.
  1 = Automatic page segmentation with OSD.
  2 = Automatic page segmentation, but no OSD, or OCR
  3 = Fully automatic page segmentation, but no OSD. (Default)
  4 = Assume a single column of text of variable sizes.
  5 = Assume a single uniform block of vertically aligned text.
  6 = Assume a single uniform block of text.
  7 = Treat the image as a single text line.
  8 = Treat the image as a single word.
  9 = Treat the image as a single word in a circle.
  10 = Treat the image as a single character.

Single options:
  -v --version: version info
  --list-langs: list available languages for tesseract engine. Can be used with --tessdata-dir.
  --print-parameters: print tesseract parameters to the stdout.


[root@docker01 tesseract]# tesseract --list-langs

List of available languages (2):


[root@docker01 tessdata]# pwd
[root@docker01 tessdata]# ll
總用量 37624
drwxr-xr-x 2 root root     4096 10月 25 22:51 configs
-rw-r--r-- 1 root root   171918 6月  25 2015 eng.cube.bigrams
-rw-r--r-- 1 root root       38 6月  25 2015 eng.cube.fold
-rw-r--r-- 1 root root      181 6月  25 2015 eng.cube.lm
-rw-r--r-- 1 root root   857304 6月  25 2015 eng.cube.nn
-rw-r--r-- 1 root root      254 6月  25 2015 eng.cube.params
-rw-r--r-- 1 root root 13020078 6月  25 2015 eng.cube.size
-rw-r--r-- 1 root root  2444187 6月  25 2015 eng.cube.word-freq
-rw-r--r-- 1 root root      996 6月  25 2015 eng.tesseract_cube.nn
-rw-r--r-- 1 root root 21876550 6月  25 2015 eng.traineddata
-rw-r--r-- 1 root root   124215 10月 25 23:08 normal.traineddata
-rw-r--r-- 1 root root      568 1月  26 2016 pdf.ttf
drwxr-xr-x 2 root root       92 10月 25 22:51 tessconfigs




jTessBoxEditor需要jre7(Java Runtime Environment)以上的版本支持盏求。






[root@docker01 test01]# ll
總用量 24
-rw-r--r-- 1 root root 1829 10月 24 16:05 0.gif
-rw-r--r-- 1 root root 1930 10月 24 16:05 1.gif
-rw-r--r-- 1 root root 1890 10月 24 16:05 2.gif
-rw-r--r-- 1 root root 1986 10月 24 16:05 3.gif
-rw-r--r-- 1 root root 1828 10月 24 16:05 4.gif
-rw-r--r-- 1 root root 1866 10月 24 16:06 5.gif


[root@docker01 test01]# tesseract 0.gif out.0 -l eng
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory


[root@docker01 test01]# ll
總用量 28
-rw-r--r-- 1 root root 1829 10月 24 16:05 0.gif
-rw-r--r-- 1 root root 1930 10月 24 16:05 1.gif
-rw-r--r-- 1 root root 1890 10月 24 16:05 2.gif
-rw-r--r-- 1 root root 1986 10月 24 16:05 3.gif
-rw-r--r-- 1 root root 1828 10月 24 16:05 4.gif
-rw-r--r-- 1 root root 1866 10月 24 16:06 5.gif
-rw-r--r-- 1 root root    6 10月 26 00:52 out.0.txt


[root@docker01 test01]# cat out.0.txt



[root@docker01 test01]# for i in {1..5};do tesseract $i.gif out.$i -l eng;done   
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory


[root@docker01 test01]# ll
總用量 48
-rw-r--r-- 1 root root 1829 10月 24 16:05 0.gif
-rw-r--r-- 1 root root 1930 10月 24 16:05 1.gif
-rw-r--r-- 1 root root 1890 10月 24 16:05 2.gif
-rw-r--r-- 1 root root 1986 10月 24 16:05 3.gif
-rw-r--r-- 1 root root 1828 10月 24 16:05 4.gif
-rw-r--r-- 1 root root 1866 10月 24 16:06 5.gif
-rw-r--r-- 1 root root    6 10月 26 00:52 out.0.txt
-rw-r--r-- 1 root root    9 10月 26 01:00 out.1.txt
-rw-r--r-- 1 root root    5 10月 26 01:00 out.2.txt
-rw-r--r-- 1 root root    6 10月 26 01:00 out.3.txt
-rw-r--r-- 1 root root    7 10月 26 01:00 out.4.txt
-rw-r--r-- 1 root root    5 10月 26 01:00 out.5.txt
[root@docker01 test01]# cat *.txt
nl 9c










mytest.tif文件上傳到centos 7 系統(tǒng)上

[root@docker01 04test]# ll

總用量 100
-rw-r--r-- 1 root root 99212 10月 26 15:42 mytest.tif


[root@docker01 04test]# tesseract  mytest.tif mytest batch.nochop makebox

Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Page 1
Page 2
Page 3
Empty page!!
Empty page!!
Empty page!!
Page 4
Page 5
Page 6
Page 7
Empty page!!
Empty page!!
Empty page!!
Page 8
Page 9
Page 10
Page 11
Page 12
Page 13
Page 14
Page 15
Page 16
Page 17
Empty page!!
Empty page!!
Empty page!!
Page 18
Page 19
Page 20
Page 21
Empty page!!
Empty page!!
Empty page!!
Warning in pixReadMemTiff: tiff page 21 not found


[root@docker01 04test]# ll

總用量 108
-rw-r--r-- 1 root root  1005 10月 26 23:52 mytest.box
-rw-r--r-- 1 root root 99212 10月 26 15:42 mytest.tif
-rw-r--r-- 1 root root   101 10月 26 23:52 mytest.txt



  • 普通情況





  • 表中無內(nèi)容


  • 識(shí)別一半


Run Tesseract for Training


把修正后的box文件傳回centos7系統(tǒng)中,刪除原來在centos 7系統(tǒng)中的box文件

[root@docker01 03test]# rm 200test.box

rm:是否刪除普通文件 "200test.box"先馆?y
[root@docker01 03test]# rz -by

rz waiting to receive.
Starting zmodem transfer.  Press Ctrl+C to cancel.
Transferring 200test.box...
  100%       9 KB       9 KB/sec    00:00:01       0 Errors
[root@docker01 03test]# tesseract 200test.tif 200test nobatch box.train


[root@docker01 03test]# ll

總用量 1756
-rw-r--r-- 1 root root  10210 10月 26 16:53 200test.box
-rw-r--r-- 1 root root 949532 10月 26 15:13 200test.tif
-rw-r--r-- 1 root root 830214 10月 27 00:58 200test.tr
-rw-r--r-- 1 root root    325 10月 27 00:58 200test.txt
Compute the Character Set


[root@docker01 03test]# unicharset_extractor 200test.box

Extracting unicharset from 200test.box
Wrote unicharset file ./unicharset.

新建文件“font_properties”发框。那么需要在目錄下新建一個(gè)名字為“font_properties”的文件,并且輸入文本 :
注意:這里 200test 必須與訓(xùn)練名中的名稱保持一致,填入下面內(nèi)容 ,這里全取值為0煤墙,表示字體不是粗體梅惯、斜體等等宪拥。

200test 0 0 0 0 0
[root@docker01 03test]# ll

總用量 1764
-rw-r--r-- 1 root root  10210 10月 26 16:53 200test.box
-rw-r--r-- 1 root root 949532 10月 26 15:13 200test.tif
-rw-r--r-- 1 root root 830214 10月 27 00:58 200test.tr
-rw-r--r-- 1 root root    325 10月 27 00:58 200test.txt
-rw-r--r-- 1 root root     18 10月 27 01:02 font_properties
-rw-r--r-- 1 root root   2301 10月 27 01:00 unicharset
[root@docker01 03test]# cat font_properties

200test 0 0 0 0 0


[root@docker01 03test]# mftraining -F font_properties  -U unicharset 200test.tr

Warning: No shape table file present: shapetable
Reading 200test.tr ...
Flat shape table summary: Number of shapes = 43 max unichars = 1 number with multiple unichars = 0
Warning: no protos/configs for Joined in CreateIntTemplates()
Warning: no protos/configs for |Broken|0|1 in CreateIntTemplates()


[root@docker01 03test]# cntraining 200test.tr

Reading 200test.tr ...
Clustering ...

Writing normproto ...

此時(shí),在目錄下應(yīng)該生成若干個(gè)文件了铣减,把unicharset, inttemp, normproto, pffmtable這四個(gè)文件加上前綴“200test.”她君。然后 合并訓(xùn)練文件

[root@docker01 03test]# ll

總用量 2100
-rw-r--r-- 1 root root  10210 10月 26 16:53 200test.box
-rw-r--r-- 1 root root 949532 10月 26 15:13 200test.tif
-rw-r--r-- 1 root root 830214 10月 27 00:58 200test.tr
-rw-r--r-- 1 root root    325 10月 27 00:58 200test.txt
-rw-r--r-- 1 root root     18 10月 27 01:02 font_properties
-rw-r--r-- 1 root root 323869 10月 27 01:03 inttemp
-rw-r--r-- 1 root root   5342 10月 27 01:04 normproto
-rw-r--r-- 1 root root    341 10月 27 01:03 pffmtable
-rw-r--r-- 1 root root    778 10月 27 01:03 shapetable
-rw-r--r-- 1 root root   2301 10月 27 01:00 unicharset


[root@docker01 03test]# ll

總用量 2100
-rw-r--r-- 1 root root  10210 10月 26 16:53 200test.box
-rw-r--r-- 1 root root 949532 10月 26 15:13 200test.tif
-rw-r--r-- 1 root root 830214 10月 27 00:58 200test.tr
-rw-r--r-- 1 root root    325 10月 27 00:58 200test.txt
-rw-r--r-- 1 root root     18 10月 27 01:02 font_properties
-rw-r--r-- 1 root root 323869 10月 27 01:03 test200.inttemp
-rw-r--r-- 1 root root   5342 10月 27 01:04 test200.normproto
-rw-r--r-- 1 root root    341 10月 27 01:03 test200.pffmtable
-rw-r--r-- 1 root root    778 10月 27 01:03 test200.shapetable
-rw-r--r-- 1 root root   2301 10月 27 01:00 test200.unicharse


[root@docker01 03test]# combine_tessdata test200.

Combining tessdata files
TessdataManager combined tesseract data files.
Offset for type  0 (test200.config                ) is -1
Offset for type  1 (test200.unicharset            ) is 140
Offset for type  2 (test200.unicharambigs         ) is -1
Offset for type  3 (test200.inttemp               ) is 2441
Offset for type  4 (test200.pffmtable             ) is 326310
Offset for type  5 (test200.normproto             ) is 326651
Offset for type  6 (test200.punc-dawg             ) is -1
Offset for type  7 (test200.word-dawg             ) is -1
Offset for type  8 (test200.number-dawg           ) is -1
Offset for type  9 (test200.freq-dawg             ) is -1
Offset for type 10 (test200.fixed-length-dawgs    ) is -1
Offset for type 11 (test200.cube-unicharset       ) is -1
Offset for type 12 (test200.cube-word-dawg        ) is -1
Offset for type 13 (test200.shapetable            ) is 331993
Offset for type 14 (test200.bigram-dawg           ) is -1
Offset for type 15 (test200.unambig-dawg          ) is -1
Offset for type 16 (test200.params-model          ) is -1
Output test200.traineddata created sucessfully.


[root@docker01 03test]# cp test200.traineddata /usr/share/tesseract/tessdata


[root@docker01 tesseract_test]# tesseract --list-langs
List of available languages (4):




[root@docker01 test01]# ll

總用量 44
-rw-r--r-- 1 root root 1829 10月 24 16:05 0.gif
-rw-r--r-- 1 root root 1930 10月 24 16:05 1.gif
-rw-r--r-- 1 root root 1890 10月 24 16:05 2.gif
-rw-r--r-- 1 root root 1986 10月 24 16:05 3.gif
-rw-r--r-- 1 root root 1828 10月 24 16:05 4.gif
-rw-r--r-- 1 root root 1866 10月 24 16:06 5.gif


[root@docker01 test01]# for i in {1..5};do tesseract $i.gif out.$i -l test200;done
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory


[root@docker01 test01]# ll
總用量 48
-rw-r--r-- 1 root root 1829 10月 24 16:05 0.gif
-rw-r--r-- 1 root root 1930 10月 24 16:05 1.gif
-rw-r--r-- 1 root root 1890 10月 24 16:05 2.gif
-rw-r--r-- 1 root root 1986 10月 24 16:05 3.gif
-rw-r--r-- 1 root root 1828 10月 24 16:05 4.gif
-rw-r--r-- 1 root root 1866 10月 24 16:06 5.gif
-rw-r--r-- 1 root root    6 10月 27 01:18 out.0.txt
-rw-r--r-- 1 root root    6 10月 27 01:18 out.1.txt
-rw-r--r-- 1 root root    6 10月 27 01:18 out.2.txt
-rw-r--r-- 1 root root    6 10月 27 01:18 out.3.txt
-rw-r--r-- 1 root root    7 10月 27 01:18 out.4.txt
-rw-r--r-- 1 root root    6 10月 27 01:18 out.5.txt


[root@docker01 test01]# cat out.*




nl 9c




  • 序言:七十年代末酿秸,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子魏烫,更是在濱河造成了極大的恐慌辣苏,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,734評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件哄褒,死亡現(xiàn)場(chǎng)離奇詭異稀蟋,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)呐赡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門退客,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人链嘀,你說我怎么就攤上這事萌狂。” “怎么了怀泊?”我有些...
    開封第一講書人閱讀 164,133評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵茫藏,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我霹琼,道長(zhǎng)务傲,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,532評(píng)論 1 293
  • 正文 為了忘掉前任枣申,我火速辦了婚禮售葡,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘糯而。我一直安慰自己天通,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評(píng)論 6 392
  • 文/花漫 我一把揭開白布熄驼。 她就那樣靜靜地躺著像寒,像睡著了一般烘豹。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上诺祸,一...
    開封第一講書人閱讀 51,462評(píng)論 1 302
  • 那天携悯,我揣著相機(jī)與錄音,去河邊找鬼筷笨。 笑死憔鬼,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的胃夏。 我是一名探鬼主播轴或,決...
    沈念sama閱讀 40,262評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼仰禀!你這毒婦竟也來了照雁?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,153評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤答恶,失蹤者是張志新(化名)和其女友劉穎饺蚊,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體悬嗓,經(jīng)...
    沈念sama閱讀 45,587評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡污呼,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了包竹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片燕酷。...
    茶點(diǎn)故事閱讀 39,919評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖映企,靈堂內(nèi)的尸體忽然破棺而出悟狱,到底是詐尸還是另有隱情,我是刑警寧澤堰氓,帶...
    沈念sama閱讀 35,635評(píng)論 5 345
  • 正文 年R本政府宣布挤渐,位于F島的核電站,受9級(jí)特大地震影響双絮,放射性物質(zhì)發(fā)生泄漏浴麻。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評(píng)論 3 329
  • 文/蒙蒙 一囤攀、第九天 我趴在偏房一處隱蔽的房頂上張望软免。 院中可真熱鬧,春花似錦焚挠、人聲如沸膏萧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽榛泛。三九已至蝌蹂,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間曹锨,已是汗流浹背孤个。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留沛简,地道東北人齐鲤。 一個(gè)月前我還...
    沈念sama閱讀 48,048評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像椒楣,于是被迫代替她去往敵國(guó)和親给郊。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評(píng)論 2 354
