OCR與Tesseract介紹
??將圖片翻譯成文字一般被稱為光學(xué)文字識別(Optical Character Recognition,OCR)【ⅲ可以實現(xiàn)OCR 的底層庫并不多漫雕,目前很多庫都是使用共同的幾個底層OCR 庫,或者是在上面進行定制拉庵。
??Tesseract 是一個OCR 庫灿椅,目前由Google 贊助(Google 也是一家以O(shè)CR 和機器學(xué)習(xí)技術(shù)聞名于世的公司)。Tesseract 是目前公認最優(yōu)秀钞支、最精確的開源OCR 系統(tǒng)茫蛹。
??除了極高的精確度,Tesseract 也具有很高的靈活性伸辟。它可以通過訓(xùn)練識別出任何字體(只要這些字體的風(fēng)格保持不變就可以)麻惶,也可以識別出任何Unicode 字符。
Tesseract的安裝與使用
??Tesseract的Windows安裝包下載地址為: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe 信夫,下載后雙擊直接安裝即可窃蹋。安裝完后,需要將Tesseract添加到系統(tǒng)變量中静稻。在CMD中輸入tesseract -v, 如顯示以下界面警没,則表示Tesseract安裝完成且添加到系統(tǒng)變量中。
??Linux 用戶可以通過apt-get 安裝:
$sudo apt-get tesseract-ocr
??用Tesseract可以識別格式規(guī)范的文字振湾,主要具有以下特點:
? 使用一個標準字體(不包含手寫體杀迹、草書,或者十分“花哨的”字體)
? 雖然被復(fù)印或拍照押搪,字體還是很清晰树酪,沒有多余的痕跡或污點
? 排列整齊,沒有歪歪斜斜的字
? 沒有超出圖片范圍大州,也沒有殘缺不全续语,或緊緊貼在圖片的邊緣
??下面將給出幾個tesseract識別圖片中文字的例子。
??首先是E://figures/other/poems.jpg, 輸入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt厦画, 則會將poems.jpg中的識別文字寫入到poems.txt中疮茄,如下圖:
??接著是稍微有點傾斜的文字圖片th.jpg,識別情況如下:
可以看到識別的情況不如剛才規(guī)范字體的好,但是也能識別圖片中的大部分字母根暑。
??最后是識別簡體中文力试,需要事先安裝簡體中文語言包,下載地址為:https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata ,再講chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目錄下排嫌。我們以圖片timg.jpg為例:
輸入命令:
tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim
識別結(jié)果如下:
只識別錯了一個字畸裳,識別率還是不錯的。
??最后加一句躏率,Tesseract對于彩色圖片的識別效果沒有黑白圖片的效果好躯畴。
pytesseract
??pytesseract是Tesseract關(guān)于Python的接口民鼓,可以使用pip install pytesseract安裝。安裝完后蓬抄,就可以使用Python調(diào)用Tesseract了丰嘉,不過,你還需要一個Python的圖片處理模塊嚷缭,可以安裝pillow.
??輸入以下代碼饮亏,可以實現(xiàn)同上述Tesseract命令一樣的效果:
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))
print(text)
運行結(jié)果如下:
參考文獻
- Python網(wǎng)絡(luò)數(shù)據(jù)采集 【美】 Ryan Mitchell 人民郵電出版社
- https://blog.csdn.net/dcrmg/article/details/78233459?locationNum=7&fps=1
- http://www.inimei.cn/archives/297.html
注意:本人現(xiàn)已開通兩個微信公眾號: 因為Python(微信號為:python_math)以及輕松學(xué)會Python爬蟲(微信號為:easy_web_scrape), 歡迎大家關(guān)注哦~~