Tesseract ORC進行圖片驗證碼識別教程

原理:直接用python實現(xiàn)驗證碼識別有些困難买决,但是可以通過第三方軟件的輔助來實現(xiàn)咏窿,就是Tesseract ORC.下載地址:https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows

下載完成后安裝tips:

image.png
image.png

可以選擇多個包乞巧,包括數(shù)字,英語埠褪,中文萝挤,其他亂七八糟的就別選了钮科,下載訓練包要很久付材。

如果是默認安裝的泛范,安裝完成后Tesseract ORC位于C:\Program Files (x86)\Tesseract-OCR

進入環(huán)境變量配置需忿,分別將上述路徑配置到path環(huán)境變量和新建的系統(tǒng)變量TESSDATA_PREFIX

image.png

最后拖叙,進入命令行模式氓润,輸入tesseract –v能正確顯示版本信息,表示環(huán)境變量配置正確薯鳍,否則自行檢查環(huán)境變量旺芽。

命令行中進行識別的命令為:

tesseract img_path output_path –l eng –psm 7

其中img_path 為圖片保存路徑,output_path為識別后內(nèi)容保存txt文件路徑辐啄,不需要txt后綴

至此,外部軟件Tesseract ORC已經(jīng)安裝完畢运嗜,可以知道壶辜,當前是有輸入—驗證碼保存路徑,有輸出結(jié)果txt文件担租,那么只需要讀取txt文件內(nèi)容即可獲得圖片識別結(jié)果了砸民。

以下是一個封裝識別方法,在安裝好Tesseract ORC的情況下使用即可奋救。

安裝pytesseract庫及PIL庫(pip install即可)

pytesseract作用是提供接口處理圖片文字識別岭参。

PIL作用是打開圖片文件,并進行灰度尝艘、二值化處理演侯。

image.png

其中tesseract_cmd為Tesseract –ORC目錄,要根據(jù)安裝路徑配置

務必保證環(huán)境變量中有配置字符識別庫TESSDATA_PREFIX

方法傳入圖片路徑即可獲得驗證碼內(nèi)容(這種只能識別簡單的驗證碼背亥,如白底少干擾秒际,
image.png

類似這種還需要更加復雜的圖片顏色處理才能識別,或者下載特定字符訓練庫)

在UI****自動化中實現(xiàn)驗證碼識別:

兩種方法:1狡汉、通過解析驗證碼圖片URL使用requests庫下載圖片進行處理

2娄徊、通過截圖,獲取驗證碼所在位置截圖盾戴,保存后進行處理寄锐。

結(jié)語:識別圖片文字有時候需要對圖片的灰度、二值化處理比較多尖啡,這里不做展開橄仆,簡單的驗證碼使用這個方法就可以識別了。現(xiàn)在有些驗證碼比較喪心病狂決然是gif文件可婶,使用這個方法識別不了沿癞,還是找開發(fā)注釋比較靠譜。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末矛渴,一起剝皮案震驚了整個濱河市椎扬,隨后出現(xiàn)的幾起案子惫搏,更是在濱河造成了極大的恐慌,老刑警劉巖蚕涤,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件筐赔,死亡現(xiàn)場離奇詭異,居然都是意外死亡揖铜,警方通過查閱死者的電腦和手機茴丰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來天吓,“玉大人贿肩,你說我怎么就攤上這事×淠” “怎么了汰规?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長物邑。 經(jīng)常有香客問我溜哮,道長,這世上最難降的妖魔是什么色解? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任茂嗓,我火速辦了婚禮,結(jié)果婚禮上科阎,老公的妹妹穿的比我還像新娘述吸。我一直安慰自己,他們只是感情好锣笨,可當我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布刚梭。 她就那樣靜靜地躺著,像睡著了一般票唆。 火紅的嫁衣襯著肌膚如雪朴读。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天走趋,我揣著相機與錄音衅金,去河邊找鬼。 笑死簿煌,一個胖子當著我的面吹牛氮唯,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播姨伟,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼惩琉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了夺荒?” 一聲冷哼從身側(cè)響起瞒渠,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤良蒸,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后伍玖,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嫩痰,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年窍箍,在試婚紗的時候發(fā)現(xiàn)自己被綠了串纺。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡椰棘,死狀恐怖纺棺,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情邪狞,我是刑警寧澤五辽,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站外恕,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏乡翅。R本人自食惡果不足惜鳞疲,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蠕蚜。 院中可真熱鬧尚洽,春花似錦、人聲如沸靶累。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽挣柬。三九已至潮酒,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間邪蛔,已是汗流浹背急黎。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留侧到,地道東北人勃教。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像匠抗,于是被迫代替她去往敵國和親故源。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 1. 工具準備 Tesseract-OCR引擎該引擎由惠普公司開發(fā)汞贸,2005年開源绳军,之后由Google開發(fā)維護印机。可...
    lossfunc閱讀 1,474評論 1 4
  • 1删铃、通過CocoaPods安裝項目名稱項目信息 AFNetworking網(wǎng)絡(luò)請求組件 FMDB本地數(shù)據(jù)庫組件 SD...
    陽明先生_X自主閱讀 15,981評論 3 119
  • 目前耳贬,很多網(wǎng)站為了防止爬蟲肆意模擬瀏覽器登錄,采用增加驗證碼的方式來攔截爬蟲猎唁。驗證碼的形式有多種咒劲,最常見的就是圖片...
    猴哥愛讀書閱讀 19,839評論 7 15
  • 查看訂閱的公眾號是不是有點麻煩?在尋找合適的公眾號時會不會有些麻煩诫隅? 像使用Googlereader 那樣方便的在...
    英文秀閱讀 3,207評論 4 13
  • 對計算機存儲的數(shù)據(jù)執(zhí)行的最常見的操作就是排序和檢索腐魂。接下來我們要講解的算法都是依賴數(shù)組來存儲數(shù)據(jù)的,也就是js形式...
    海娩閱讀 553評論 0 4