python3.5 tesseract-ocr 驗(yàn)證碼識(shí)別錯(cuò)誤解決方案


在通過(guò)python3.5爬取大眾點(diǎn)評(píng)商戶(hù)數(shù)據(jù)和用戶(hù)數(shù)據(jù)的時(shí)候荡含,由于請(qǐng)求頻繁了罪,中間會(huì)出現(xiàn)高頻次的驗(yàn)證碼的輸入镶殷,使用了tesseract蜜托,然后就是各種問(wèn)題弟疆,對(duì)于在使用python3.5 的tesseract-ocr識(shí)別時(shí)候常見(jiàn)的兩個(gè)錯(cuò)誤總結(jié)一下,這兩個(gè)問(wèn)題解決的我心力憔悴啊盗冷。后來(lái)兄弟520號(hào)結(jié)婚我就回家了怠苔,回到公司的第一天然后解決好了,要寫(xiě)點(diǎn)把這個(gè)記錄下


1.FileNotFoundError:[WinError 2] 系統(tǒng)找不到指定的文件The system cannot find the file specified

解決方案:

方案1.看了很多網(wǎng)上的貼吧仪糖,將tesseract.exe添加到系統(tǒng)的環(huán)境變量path中


添加tesseract環(huán)境變量

;C:\Program Files (x86)\Tesseract-OCR; 分號(hào)不能少柑司,添加環(huán)境變量之后說(shuō)是重啟cmd或者pycharm,這個(gè)對(duì)我的是沒(méi)有任何效果锅劝。折騰的我都重啟電腦了攒驰,還是不行,然后采取其他方案故爵。

方案2: 修改pytesseract.py文件玻粪,指定tesseract.exe安裝路徑

打開(kāi)pytesseract的安裝目錄(這是我的目錄:C:\Users\Administrator\venv\Lib\site-packages\pytesseract)找到 pytesseract.py文件

pytesseract.py

打開(kāi)這個(gè)文件,找到

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY

注釋掉原本的

#tesseract_cmd='tesseract'

新增tesseract_cmd 為tesseract.exe的安裝路徑

tesseract_cmd= 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe‘

這樣系統(tǒng)找不到指定的文件這個(gè)錯(cuò)誤就可以解決了。



這是第二個(gè)錯(cuò)誤


2.解決上面的問(wèn)題后運(yùn)行代碼又出錯(cuò)

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file C:\\Program Files (x86)\\Tesseract-OCR;/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'eng\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')

方案1:在網(wǎng)上各種游蕩劲室,添加 TESSDATA_PREFIX的環(huán)境變量伦仍,我也添加了,還是不可以很洋,一直報(bào)上面的錯(cuò)誤


TESSDATA_PREFIX添加環(huán)境變量

雖然沒(méi)有解決問(wèn)題充蓝,但是是個(gè)經(jīng)驗(yàn),所以留下了喉磁。

方案2:配置中指定tessdata-dir

在代碼中添加

pytesseract.pytesseract.tesseract_cmd = 'c://Program Files (x86)//Tesseract-OCR//tesseract.exe'

tessdata_dir_config = '--tessdata-dir "c://Program Files (x86)//Tesseract-OCR//tessdata"'

然后在指定的image_to_string配置下

image_to_string(image, lang = 'eng', config=tessdata_dir_config)

這個(gè)方式非常有效



下面貼識(shí)別簡(jiǎn)單驗(yàn)證碼的代碼及結(jié)果:

需要識(shí)別的驗(yàn)證碼:

需要識(shí)別的驗(yàn)證碼

代碼:

#! -*- coding:utf-8 -*-

import pytesseract

from PILimport Image

pytesseract.pytesseract.tesseract_cmd ='c://Program Files (x86)//Tesseract-OCR//tesseract.exe'

tessdata_dir_config ='--tessdata-dir "c://Program Files (x86)//Tesseract-OCR//tessdata"'

def main():

#這個(gè)圖片路徑是自己定義的

image = Image.open('E:\pycharmWorkspace\image\yanzhengma.png')

code = pytesseract.image_to_string(image, lang ='eng', config=tessdata_dir_config)

print (code)

if __name__ =='__main__':

main()

識(shí)別結(jié)果:


驗(yàn)證碼識(shí)別結(jié)果

由于像素的影響谓苟,這個(gè)識(shí)別還不是很精確,會(huì)慢慢優(yōu)化提高識(shí)別精度协怒,大眾點(diǎn)評(píng)是一塊難啃的骨頭啊涝焙,這篇文章到此為止,干活孕暇!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末纱皆,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子芭商,更是在濱河造成了極大的恐慌,老刑警劉巖搀缠,帶你破解...
    沈念sama閱讀 211,884評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件铛楣,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡艺普,警方通過(guò)查閱死者的電腦和手機(jī)簸州,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,347評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)歧譬,“玉大人岸浑,你說(shuō)我怎么就攤上這事」宀剑” “怎么了矢洲?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,435評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)缩焦。 經(jīng)常有香客問(wèn)我读虏,道長(zhǎng),這世上最難降的妖魔是什么袁滥? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,509評(píng)論 1 284
  • 正文 為了忘掉前任盖桥,我火速辦了婚禮,結(jié)果婚禮上题翻,老公的妹妹穿的比我還像新娘揩徊。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,611評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布塑荒。 她就那樣靜靜地躺著熄赡,像睡著了一般。 火紅的嫁衣襯著肌膚如雪袜炕。 梳的紋絲不亂的頭發(fā)上本谜,一...
    開(kāi)封第一講書(shū)人閱讀 49,837評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音偎窘,去河邊找鬼乌助。 笑死,一個(gè)胖子當(dāng)著我的面吹牛陌知,可吹牛的內(nèi)容都是我干的他托。 我是一名探鬼主播,決...
    沈念sama閱讀 38,987評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼仆葡,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼赏参!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起沿盅,我...
    開(kāi)封第一講書(shū)人閱讀 37,730評(píng)論 0 267
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤把篓,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后腰涧,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體韧掩,經(jīng)...
    沈念sama閱讀 44,194評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,525評(píng)論 2 327
  • 正文 我和宋清朗相戀三年窖铡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了疗锐。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,664評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡费彼,死狀恐怖滑臊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情箍铲,我是刑警寧澤雇卷,帶...
    沈念sama閱讀 34,334評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站颠猴,受9級(jí)特大地震影響聋庵,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜芙粱,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,944評(píng)論 3 313
  • 文/蒙蒙 一祭玉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧春畔,春花似錦脱货、人聲如沸岛都。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,764評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)臼疫。三九已至,卻和暖如春扣孟,著一層夾襖步出監(jiān)牢的瞬間烫堤,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,997評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工凤价, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留鸽斟,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,389評(píng)論 2 360
  • 正文 我出身青樓利诺,卻偏偏與公主長(zhǎng)得像富蓄,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子慢逾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,554評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容

  • 1立倍、簡(jiǎn)介 ? a、Python-tesseract 是一個(gè)基于 google's Tesseract-OCR ...
    慢慢慢慢熱閱讀 7,370評(píng)論 1 5
  • 1. 為啥用侣滩? 當(dāng)一個(gè)網(wǎng)站的反扒機(jī)制做的很好口注,需要耗費(fèi)大量精力去研究,而且對(duì)數(shù)據(jù)爬取速度沒(méi)太緊的時(shí)間要求時(shí)君珠,可以通...
    依舊丶森閱讀 395評(píng)論 0 1
  • .bat腳本基本命令語(yǔ)法 目錄 批處理的常見(jiàn)命令(未列舉的命令還比較多寝志,請(qǐng)查閱幫助信息) 1、REM 和 :: 2...
    慶慶慶慶慶閱讀 8,070評(píng)論 1 19
  • 萬(wàn)里春風(fēng)遇舊顏葛躏, 兩廂愜意繞山還。 情燃晝夜飛鴿處悠菜, 宕逸今生半世緣舰攒。
    李三中閱讀 301評(píng)論 0 10
  • 我只是個(gè)普通人,普通到一天到晚除了上班就是睡覺(jué)悔醋。我也有夢(mèng)想摩窃,只是每個(gè)人都有實(shí)現(xiàn)夢(mèng)想的方法。我的方法很簡(jiǎn)單芬骄,那就是...
    北國(guó)愛(ài)人閱讀 220評(píng)論 0 0