Node-tesseract OCR Windows使用小結(jié)

1.首先安裝 Tesseract-OCR (windows )

2.設(shè)置環(huán)境變量

? ? 1)PATH 增加? tesseract 安裝目錄

? ? 2)新增系統(tǒng)變量 TESSDATA_PREFIX='安裝目錄文件夾下\tessdata'

3.nodejs 調(diào)用

?安裝wraper暮蹂，npm install node-tesseract

var tesseract = require('node-tesseract');

// Recognize text of any language in any format

tesseract.process(__dirname+'/test.png',function(err, text) {

? ? if(err) {

? ? ? ? ? ? console.error(err);

? ?} else {

? ? ? ? ? ? ?console.log(text);

? ? ? ? ? ? ? }

? ? ? ?});

4. 多語言

通過-l 選項跟衅，依次增加語言

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

var options = {

l: 'chi_sim+eng',

psm: 6,

};

tesseract.process(__dirname + '/test.jpg', options, function(err, text) {

if(err) {

console.error(err);

} else {

console.log('----------------------------W');

console.log(text);

}

});

-psm:Member name Value Description

PSM_OSD_ONLY 0 Orientation and script detection only.

PSM_AUTO_OSD 1 Automatic page segmentation with orientation and script detection. (OSD)

PSM_AUTO_ONLY 2 Automatic page segmentation, but no OSD, or OCR.

PSM_AUTO 3 Fully automatic page segmentation, but no OSD.

PSM_SINGLE_COLUMN 4 Assume a single column of text of variable sizes.

PSM_SINGLE_BLOCK_VERT_TEXT 5 Assume a single uniform block of vertically aligned text.

PSM_SINGLE_BLOCK 6 Assume a single uniform block of text. (Default.)

PSM_SINGLE_LINE 7 Treat the image as a single text line.

PSM_SINGLE_WORD 8 Treat the image as a single word.

PSM_CIRCLE_WORD 9 Treat the image as a single word in a circle.

PSM_SINGLE_CHAR 10 Treat the image as a single character.

PSM_SPARSE_TEXT 11 Find as much text as possible in no particular order.

PSM_SPARSE_TEXT_OSD 12 Sparse text with orientation and script det.

PSM_RAW_LINE 13 Treat the image as a single text line, bypassing hacks that are Tesseract-specific.

5.配合 GraphicsMagick 識別驗證碼的例子

? ?參考鏈接? ??gm

6.Localized OCR(識別特定區(qū)域）

有時候需要識別特定區(qū)域，可以通過UZN 文件配合 -psm 4參數(shù)實現(xiàn)

Tesseract can read in uzn files, and use them instead of doing its own segmentation, on two conditions:

The segmentation mode PSM_SINGLE_COLUMN must be used (Check manpage for details)

The uzn file must be named imageName.uzn, so for scan01.png the uzn file must be named scan01.uzn

兩個前提：

-psm 4

uzn 文件與圖片文件名稱相同

https://github.com/charlesw/tesseract/issues/66

例如萤捆，考慮有內(nèi)容如下的圖片test.png：

This is a text

? ? ? ? ? ? This is another test

? ? ? This is a last test

test.uzn:

50 65 100 15 Text

命令行輸入：

?"tesseract.exe test.png test -psm 4"

輸出結(jié)果：

This is another test

7. node-tesseract 增加hocr輸出

兩種方法：

1）首先修改安裝目錄下? \lib\tesseract.js ，第22行處options增加hocr屬性

options: {

? ? ? ? ? ?'l': 'eng',

? ? ? ? ? 'psm': 3,

? ? ? ? ? 'config': null,

? ? ? ? ? 'binary': 'tesseract',

? ? ? ? ? 'hocr':null

},

70行增加：

if (options.hocr !== null) {

command.push('hocr');

}

如果想要輸出hocr格式喊积，參考：

var options = {

? ? ? ? ? l: 'chi_sim+eng',

? ? ? ? ? psm: 4,

? ? ? ? ? hocr:'hocr'

};

tesseract.process( '/test.png', options, function(err, text) {

? ? ? ? ? if(err) {

? ? ? ? ? ? ? ? ? ? console.error(err);

? ? ? ? } else {

????????????????console.log(text);

? ????????}

????????});

2）參考 Git?pull request赋兵，好像沒更新，需要修改到自己的 tesseract.js 文件中

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末鳍徽，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子敢课，更是在濱河造成了極大的恐慌阶祭，老刑警劉巖绷杜，帶你破解...
沈念sama閱讀 219,270評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異濒募，居然都是意外死亡鞭盟，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,489評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門瑰剃，熙熙樓的掌柜王于貴愁眉苦臉地迎上來齿诉，“玉大人，你說我怎么就攤上這事晌姚≡辆纾” “怎么了？”我有些...
開封第一講書人閱讀 165,630評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵挥唠，是天一觀的道長抵恋。經(jīng)常有香客問我，道長猛遍，這世上最難降的妖魔是什么馋记？我笑而不...
開封第一講書人閱讀 58,906評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任号坡，我火速辦了婚禮懊烤，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘宽堆。我一直安慰自己腌紧，他們只是感情好，可當我...
茶點故事閱讀 67,928評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布畜隶。她就那樣靜靜地躺著壁肋，像睡著了一般。火紅的嫁衣襯著肌膚如雪籽慢。梳的紋絲不亂的頭發(fā)上浸遗，一...
開封第一講書人閱讀 51,718評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音箱亿，去河邊找鬼跛锌。笑死，一個胖子當著我的面吹牛届惋，可吹牛的內(nèi)容都是我干的髓帽。我是一名探鬼主播，決...
沈念sama閱讀 40,442評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼脑豹，長吁一口氣：“原來是場噩夢啊……” “哼郑藏！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起瘩欺，我...
開封第一講書人閱讀 39,345評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤必盖，失蹤者是張志新（化名）和其女友劉穎拌牲，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體歌粥，經(jīng)...
沈念sama閱讀 45,802評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡们拙，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,984評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了阁吝。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片砚婆。...
茶點故事閱讀 40,117評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖突勇，靈堂內(nèi)的尸體忽然破棺而出装盯，到底是詐尸還是另有隱情，我是刑警寧澤甲馋，帶...
沈念sama閱讀 35,810評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布埂奈，位于F島的核電站，受9級特大地震影響定躏，放射性物質(zhì)發(fā)生泄漏账磺。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,462評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一痊远、第九天我趴在偏房一處隱蔽的房頂上張望垮抗。院中可真熱鬧，春花似錦碧聪、人聲如沸冒版。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,011評論 0贊 22
一樁弒父案逞姿，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽辞嗡。三九已至，卻和暖如春滞造，著一層夾襖步出監(jiān)牢的瞬間续室，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,139評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工谒养，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留挺狰，地道東北人。一個月前我還...
沈念sama閱讀 48,377評論 3贊 373
代替公主和親
正文我出身青樓蝴光，卻偏偏與公主長得像她渴，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子蔑祟，可洞房花燭夜當晚...
茶點故事閱讀 45,060評論 2贊 355