【轉(zhuǎn)】Mac安裝使用tesseract-ocr

0.介紹

Tesseract是一個開源的OCR引擎盅藻，能識別100多種語言（中，英畅铭，韓，日硕噩，德假残，法...等等）炉擅，但是Tesseract對手寫的識別能力較差辉懒。

1.安裝

//先安裝依賴庫libpng, jpeg, libtiff, leptonica
brew install leptonica

//安裝tesseract的同時安裝訓(xùn)練工具
brew install --with-training-tools tesseract

//安裝tesseract的同時安裝所有語言，語言包比較大谍失，如果安裝的話時間較長耗帕，建議不安裝，按需選擇
brew install  --all-languages tesseract

//安裝tesseract袱贮，并安裝訓(xùn)練工具和語言
brew install --all-languages --with-training-tools tesseract 

//只安裝tesseract，不安裝訓(xùn)練工具
brew install  tesseract

2.下載語言庫

下載地址:https://github.com/tesseract-ocr/tessdata

根據(jù)自己的需求選擇所要的語言庫，在這里我們選擇的是簡體中文所以選擇的庫是：chi_sim.traineddata攒巍、eng.traineddata
將文件拷貝到到：/usr/local/Cellar/tesseract/3.04.01_2/share/tessdata目錄下嗽仪。

3.Tesseract使用
終端輸入命令:tesseract --help

一般使用:

//默認(rèn)使用eng文字庫， imgName是圖片的地址柒莉，result識別結(jié)果

tesseract imgName result

指定語言:

//指定使用簡體中文
tesseract -l chi_sim imgName result
//查看本地存在的語言庫
tesseract --list-langs

指定多語言:

//指定多語言闻坚，用+號相連
tesseract -l chi_sim+eng imgName result

有個地方需要特別注意，參數(shù)psm

//輸入命令兢孝，查看psm的參數(shù)
tesseract --help-psm

  0    Orientation and script detection (OSD) only.
  1    Automatic page segmentation with OSD.
  2    Automatic page segmentation, but no OSD, or OCR.
  3    Fully automatic page segmentation, but no OSD. (Default)
  4    Assume a single column of text of variable sizes.
  5    Assume a single uniform block of vertically aligned text.
  6    Assume a single uniform block of text.
  7    Treat the image as a single text line.
  8    Treat the image as a single word.
  9    Treat the image as a single word in a circle.
 10    Treat the image as a single character.

 翻譯（可能不是很準(zhǔn),最好看原文）：
 0 定向腳本監(jiān)測（OSD）
 1 使用OSD自動分頁
 2 自動分頁窿凤，但是不使用OSD或OCR（Optical Character Recognition，光學(xué)字符識別）
 3 全自動分頁跨蟹，但是沒有使用OSD（默認(rèn)）
 4 假設(shè)可變大小的一個文本列雳殊。
 5 假設(shè)垂直對齊文本的單個統(tǒng)一塊。
 6 假設(shè)一個統(tǒng)一的文本塊窗轩。
 7 將圖像視為單個文本行夯秃。
 8 將圖像視為單個詞。
 9 將圖像視為圓中的單個詞痢艺。
 10 將圖像視為單個字符仓洼。

根據(jù)情況選擇不同的psm值，這很重要堤舒，如果選擇到不恰當(dāng)?shù)闹禃?dǎo)致識別失敗色建。

原文鏈接

最后編輯于：2018.04.15 14:08:46

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市舌缤，隨后出現(xiàn)的幾起案子箕戳，更是在濱河造成了極大的恐慌，老刑警劉巖友驮，帶你破解...
沈念sama閱讀 211,561評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件漂羊，死亡現(xiàn)場離奇詭異，居然都是意外死亡卸留，警方通過查閱死者的電腦和手機走越，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,218評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來耻瑟，“玉大人旨指，你說我怎么就攤上這事≡” “怎么了谆构？”我有些...
開封第一講書人閱讀 157,162評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長框都。經(jīng)常有香客問我搬素，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,470評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任熬尺，我火速辦了婚禮，結(jié)果婚禮上粱哼，老公的妹妹穿的比我還像新娘。我一直安慰自己胯舷，他們只是感情好，可當(dāng)我...
茶點故事閱讀 65,550評論 6贊 385
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布桑嘶。她就那樣靜靜地躺著艺挪，像睡著了一般。火紅的嫁衣襯著肌膚如雪麻裳。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,806評論 1贊 290
城市分裂傳說
那天津坑，我揣著相機與錄音，去河邊找鬼眉反。笑死，一個胖子當(dāng)著我的面吹牛寸五，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播梳杏，決...
沈念sama閱讀 38,951評論 3贊 407
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼淹接，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了塑悼？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,712評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤霞势，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后支示，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,166評論 1贊 303
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡颂鸿，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,510評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年嘴纺，在試婚紗的時候發(fā)現(xiàn)自己被綠了浓冒。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,643評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡稳懒，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出墅冷，到底是詐尸還是另有隱情，我是刑警寧澤寞忿，帶...
沈念sama閱讀 34,306評論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布顶岸，位于F島的核電站，受9級特大地震影響辖佣，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜卷谈，卻給世界環(huán)境...
茶點故事閱讀 39,930評論 3贊 313
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望雏搂。院中可真熱鬧，春花似錦凸郑、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,745評論 0贊 21
一樁弒父案浊吏，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽救氯。三九已至，卻和暖如春着憨，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背甲抖。一陣腳步聲響...
開封第一講書人閱讀 31,983評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留挫剑，地道東北人。一個月前我還...
沈念sama閱讀 46,351評論 2贊 360
代替公主和親
正文我出身青樓樊破，卻偏偏與公主長得像唆铐，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子或链，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,509評論 2贊 348

【轉(zhuǎn)】Mac安裝使用tesseract-ocr

0.介紹

1.安裝

2.下載語言庫

推薦閱讀更多精彩內(nèi)容