Node-tesseract OCR Windows使用小結(jié)

1.首先安裝 Tesseract-OCR (windows )

??Github

? ?Wiki

2.設(shè)置環(huán)境變量

? ? 1)PATH 增加? tesseract 安裝目錄

? ? 2)新增系統(tǒng)變量 TESSDATA_PREFIX='安裝目錄文件夾下\tessdata'

3.nodejs 調(diào)用

?安裝wraper暮蹂,npm install node-tesseract


var tesseract = require('node-tesseract');

// Recognize text of any language in any format

tesseract.process(__dirname+'/test.png',function(err, text) {

? ? if(err) {

? ? ? ? ? ? console.error(err);

? ?} else {

? ? ? ? ? ? ?console.log(text);

? ? ? ? ? ? ? }

? ? ? ?});


4. 多語言

通過-l 選項跟衅,依次增加語言

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

var options = {

l: 'chi_sim+eng',

psm: 6,

};

tesseract.process(__dirname + '/test.jpg', options, function(err, text) {

if(err) {

console.error(err);

} else {

console.log('----------------------------W');

console.log(text);

}

});

-psm:Member name Value Description

PSM_OSD_ONLY 0 Orientation and script detection only.

PSM_AUTO_OSD 1 Automatic page segmentation with orientation and script detection. (OSD)

PSM_AUTO_ONLY 2 Automatic page segmentation, but no OSD, or OCR.

PSM_AUTO 3 Fully automatic page segmentation, but no OSD.

PSM_SINGLE_COLUMN 4 Assume a single column of text of variable sizes.

PSM_SINGLE_BLOCK_VERT_TEXT 5 Assume a single uniform block of vertically aligned text.

PSM_SINGLE_BLOCK 6 Assume a single uniform block of text. (Default.)

PSM_SINGLE_LINE 7 Treat the image as a single text line.

PSM_SINGLE_WORD 8 Treat the image as a single word.

PSM_CIRCLE_WORD 9 Treat the image as a single word in a circle.

PSM_SINGLE_CHAR 10 Treat the image as a single character.

PSM_SPARSE_TEXT 11 Find as much text as possible in no particular order.

PSM_SPARSE_TEXT_OSD 12 Sparse text with orientation and script det.

PSM_RAW_LINE 13 Treat the image as a single text line, bypassing hacks that are Tesseract-specific.

5.配合 GraphicsMagick 識別驗證碼的例子

? ?參考鏈接? ??gm

6.Localized OCR(識別特定區(qū)域)

有時候需要識別特定區(qū)域,可以通過UZN 文件配合 -psm 4參數(shù)實現(xiàn)

Tesseract can read in uzn files, and use them instead of doing its own segmentation, on two conditions:

The segmentation mode PSM_SINGLE_COLUMN must be used (Check manpage for details)

The uzn file must be named imageName.uzn, so for scan01.png the uzn file must be named scan01.uzn

兩個前提:

-psm 4

uzn 文件與圖片文件名稱相同

https://github.com/charlesw/tesseract/issues/66

例如萤捆,考慮有內(nèi)容如下的圖片test.png:

This is a text

? ? ? ? ? ? This is another test

? ? ? This is a last test

test.uzn:

50 65 100 15 Text

命令行輸入:

?"tesseract.exe test.png test -psm 4"

輸出結(jié)果:

This is another test


7. node-tesseract 增加hocr輸出

兩種方法:

1) 首先修改安裝目錄下? \lib\tesseract.js ,第22行處options增加hocr屬性

options: {

? ? ? ? ? ?'l': 'eng',

? ? ? ? ? 'psm': 3,

? ? ? ? ? 'config': null,

? ? ? ? ? 'binary': 'tesseract',

? ? ? ? ? 'hocr':null

},

70行增加:

if (options.hocr !== null) {

command.push('hocr');

}

如果想要輸出hocr格式喊积,參考:

var options = {

? ? ? ? ? l: 'chi_sim+eng',

? ? ? ? ? psm: 4,

? ? ? ? ? hocr:'hocr'

};

tesseract.process( '/test.png', options, function(err, text) {

? ? ? ? ? if(err) {

? ? ? ? ? ? ? ? ? ? console.error(err);

? ? ? ? } else {

????????????????console.log(text);

? ????????}

????????});

2)參考 Git?pull request赋兵,好像沒更新,需要修改到自己的 tesseract.js 文件中

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鳍徽,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子敢课,更是在濱河造成了極大的恐慌阶祭,老刑警劉巖绷杜,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異濒募,居然都是意外死亡鞭盟,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進店門瑰剃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來齿诉,“玉大人,你說我怎么就攤上這事晌姚≡辆纾” “怎么了?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵挥唠,是天一觀的道長抵恋。 經(jīng)常有香客問我,道長猛遍,這世上最難降的妖魔是什么馋记? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任号坡,我火速辦了婚禮懊烤,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘宽堆。我一直安慰自己腌紧,他們只是感情好,可當我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布畜隶。 她就那樣靜靜地躺著壁肋,像睡著了一般。 火紅的嫁衣襯著肌膚如雪籽慢。 梳的紋絲不亂的頭發(fā)上浸遗,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天,我揣著相機與錄音箱亿,去河邊找鬼跛锌。 笑死,一個胖子當著我的面吹牛届惋,可吹牛的內(nèi)容都是我干的髓帽。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼脑豹,長吁一口氣:“原來是場噩夢啊……” “哼郑藏!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起瘩欺,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤必盖,失蹤者是張志新(化名)和其女友劉穎拌牲,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體歌粥,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡们拙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了阁吝。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片砚婆。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖突勇,靈堂內(nèi)的尸體忽然破棺而出装盯,到底是詐尸還是另有隱情,我是刑警寧澤甲馋,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布埂奈,位于F島的核電站,受9級特大地震影響定躏,放射性物質(zhì)發(fā)生泄漏账磺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一痊远、第九天 我趴在偏房一處隱蔽的房頂上張望垮抗。 院中可真熱鬧,春花似錦碧聪、人聲如沸冒版。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽辞嗡。三九已至,卻和暖如春滞造,著一層夾襖步出監(jiān)牢的瞬間续室,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工谒养, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留挺狰,地道東北人。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓蝴光,卻偏偏與公主長得像她渴,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子蔑祟,可洞房花燭夜當晚...
    茶點故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內(nèi)容