本文章出自【碼同學(xué)軟件測(cè)試】
前言:
在Ui測(cè)試的時(shí)候,有時(shí)我們會(huì)遇到”元素以圖片的形式展示內(nèi)容”(最經(jīng)典的案例使驗(yàn)證碼).這時(shí)傳統(tǒng)的文檔解析方案就失效了.
碼同學(xué)公眾號(hào):自動(dòng)化軟件測(cè)試
碼同學(xué)抖音號(hào):小碼哥聊軟件測(cè)試
但是,Python中你可以輕易的使用ocr(光學(xué)字符識(shí)別)技術(shù).對(duì)圖片元素中的文字進(jìn)行提取.從而解決技術(shù)難題.具體需要以下3步:
①安裝Tesseract-ocr服務(wù)
②安裝pytesseract-python驅(qū)動(dòng)庫(kù)
③識(shí)別圖片
1.關(guān)于Tesseract
①Tesseract是一款由Google贊助的開(kāi)源OCR扎瓶。
②Tesseract 已經(jīng)有 30 年歷史蚂子,開(kāi)始它是惠普實(shí)驗(yàn)室的一款專利軟件,然后在 2005 年開(kāi)源遂铡,自 2006 年后由 Google 贊助進(jìn)行后續(xù)的開(kāi)發(fā)和維護(hù)截亦。
③在
1995 年 Tesseract 曾是世界前三的 OCR 引擎爬泥,而在現(xiàn)在的免費(fèi) OCR
引擎中,其識(shí)別精度也仍然是出類拔萃的崩瓤。因?yàn)槠涿赓M(fèi)與較好的效果袍啡,許多的個(gè)人開(kāi)發(fā)者以及一些較小的團(tuán)隊(duì)在使用著 Tesseract
,諸如驗(yàn)證碼識(shí)別却桶、車牌號(hào)識(shí)別等應(yīng)用中境输,不難見(jiàn)到 Tesseract 的身影。
④Tesseract(/‘tes?r?kt/) 這個(gè)詞的意思的本意是”超立方體”.不過(guò)這里用到的颖系,是一款以其命名的開(kāi)源 OCR(Optical Character Recognition, 光學(xué)字符識(shí)別) 軟件嗅剖。
*所謂 OCR 是圖像識(shí)別領(lǐng)域中的一個(gè)子領(lǐng)域,該領(lǐng)域?qū)W⒂趯?duì)圖片中的文字信息進(jìn)行識(shí)別并轉(zhuǎn)換成能被常規(guī)文本編輯器編輯的文本嘁扼。
安裝:
1.安裝Tesseract.exe
安裝包已經(jīng)上傳到網(wǎng)盤之中
鏈接:
https://pan.baidu.com/s/18-PSv8Jqhdy6I9Fo9JQfww?
提取碼:tn78
安裝過(guò)程中唯一要注意的是:
在勾選組件的時(shí)候勾選中文擴(kuò)展
之后一路點(diǎn)擊next即可
配置環(huán)境變量:
1.需要在path里配置
2.需要新建一個(gè)系統(tǒng)變量 TESSDATA_PREFIX
檢查tesseract服務(wù)是否安裝成功
tesseract -v
免費(fèi)領(lǐng)取?碼同學(xué)軟件測(cè)試?課程筆記+超多學(xué)習(xí)資料+完整視頻+最新面試題信粮,可以轉(zhuǎn)發(fā)文章?+?私信「碼同學(xué)666」獲取資料哦
2.關(guān)于pytesseract
pytesseract庫(kù)為我們提供了調(diào)用Tesseract的API,即只要系統(tǒng)中有Tesseract命令.就可以用python代碼來(lái)驅(qū)動(dòng)識(shí)別
安裝python的api庫(kù)
想要使用python去調(diào)用pytesseract,就需要安裝pytesseract庫(kù)趁啸。安裝命令如下:
pip install pytesseract
*已知bug:庫(kù)源代碼路徑硬編碼
安裝完成后强缘,還需要進(jìn)行一步設(shè)置。由于pytesseract庫(kù)的代碼里調(diào)用Tesseract服務(wù)的路徑寫的有點(diǎn)問(wèn)題(windows環(huán)境)不傅,所以這里手動(dòng)修改pytesseract.py
打開(kāi)原代碼旅掂,修改這里的調(diào)用路徑
3.在python代碼中調(diào)試
①準(zhǔn)備好一張用于識(shí)別的圖片(如下)
②編寫代碼(如圖)
效果如圖:
可以看到,圖片中的文字已經(jīng)被轉(zhuǎn)化為Python字符串變量了
END
免費(fèi)領(lǐng)取碼同學(xué)軟件測(cè)試課程筆記+超多學(xué)習(xí)資料+學(xué)習(xí)完整視頻,可以關(guān)注我們公眾號(hào)哦:自動(dòng)化軟件測(cè)試
本文著作權(quán)歸作者所有访娶,任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處商虐。