爬蟲進階之圖形驗證碼識別技術

阻礙我們爬蟲的有時候正是在登錄或者請求一些數據時候的圖形驗證碼塘辅,因此這里我們講解一種能將圖片翻譯成文字的技術榛泛。將圖片翻譯成文字一般被成為光學文字識別(Optical Character Recognition)脚囊,簡寫為OCR共缕。實現OCR的庫不是很多徐紧,特別是開源的。因為這塊存在一定的技術壁壘(需要大量的數據宽档、算法尉姨、機器學習、深度學習知識等)吗冤,并且如果做好了具有很高的商業(yè)價值又厉。因此開源的比較少九府。這里介紹一個比較優(yōu)秀的圖像識別開源庫:Tesseract

Tesseract:

Tesseract是一個OCR庫,目前由谷歌贊助覆致。Tesseract是目前公認最優(yōu)秀侄旬、最準確的開源OCR庫。Tesseract具有很高的識別度煌妈,也具有很高的靈活性勾怒,他可以通過訓練識別任何字體。

安裝:

Windows系統(tǒng):

在以下鏈接下載可執(zhí)行文件声旺,然后一頓點擊下一步安裝即可(放在不需要權限的純英文路徑下):
https://github.com/tesseract-ocr/

Linux系統(tǒng):

可以在以下鏈接下載源碼自行編譯。
https://github.com/tesseract-ocr/tesseract/wiki/Compiling
或者在ubuntu下通過以下命令進行安裝:

sudo apt install tesseract-ocr

Mac系統(tǒng):

Homebrew即可方便安裝:

brew install tesseract

設置環(huán)境變量:

安裝完成后段只,如果想要在命令行中使用Tesseract腮猖,那么應該設置環(huán)境變量。MacLinux在安裝的時候就默認已經設置好了赞枕。在Windows下把tesseract.exe所在的路徑添加到PATH環(huán)境變量中澈缺。

還有一個環(huán)境變量需要設置的是,要把訓練的數據文件路徑也放到環(huán)境變量中炕婶。
在環(huán)境變量中姐赡,添加一個TESSDATA_PREFIX=C:\path_to_tesseractdata\teseractdata

在命令行中使用tesseract識別圖像:

如果想要在cmd下能夠使用tesseract命令柠掂,那么需要把tesseract.exe所在的目錄放到PATH環(huán)境變量中项滑。然后使用命令:tesseract 圖片路徑 文件路徑
示例:

tesseract a.png a

那么就會識別出a.png中的圖片涯贞,并且把文字寫入到a.txt中枪狂。如果不想寫入文件直接想顯示在終端,那么不要加文件名就可以了宋渔。

在代碼中使用tesseract識別圖像:

Python代碼中操作tesseract州疾。需要安裝一個庫,叫做pytesseract皇拣。通過pip的方式即可安裝:

pip install pytesseract

并且严蓖,需要讀取圖片,需要借助一個第三方庫叫做PIL氧急。通過pip list看下是否安裝颗胡。如果沒有安裝,通過pip的方式安裝:

pip install PIL

使用pytesseract將圖片上的文字轉換為文本文字的示例代碼如下:

# 導入pytesseract庫
import pytesseract
# 導入Image庫
from PIL import Image

# 指定tesseract.exe所在的路徑
pytesseract.pytesseract.tesseract_cmd = r'D:\ProgramApp\TesseractOCR\tesseract.exe'

# 打開圖片
image = Image.open("a.png")
# 調用image_to_string將圖片轉換為文字
text = pytesseract.image_to_string(image)
print(text)

pytesseract處理拉勾網圖形驗證碼:

import pytesseract
from urllib import request
from PIL import Image
import time

pytesseract.pytesseract.tesseract_cmd = r"D:\ProgramApp\TesseractOCR\tesseract.exe"

while True:
    captchaUrl = "https://passport.lagou.com/vcode/create?from=register&refresh=1513081451891"
    request.urlretrieve(captchaUrl,'captcha.png')
    image = Image.open('captcha.png')
    text = pytesseract.image_to_string(image,lang='eng')
    print(text)
    time.sleep(2)

上一篇:爬蟲進階之動態(tài)網頁(Ajax)數據抓取
下一篇:爬蟲框架之Scrapy入門篇

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末吩坝,一起剝皮案震驚了整個濱河市杭措,隨后出現的幾起案子,更是在濱河造成了極大的恐慌钾恢,老刑警劉巖手素,帶你破解...
    沈念sama閱讀 221,888評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鸳址,死亡現場離奇詭異,居然都是意外死亡泉懦,警方通過查閱死者的電腦和手機稿黍,發(fā)現死者居然都...
    沈念sama閱讀 94,677評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來崩哩,“玉大人巡球,你說我怎么就攤上這事〉肃冢” “怎么了酣栈?”我有些...
    開封第一講書人閱讀 168,386評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長汹押。 經常有香客問我矿筝,道長,這世上最難降的妖魔是什么棚贾? 我笑而不...
    開封第一講書人閱讀 59,726評論 1 297
  • 正文 為了忘掉前任窖维,我火速辦了婚禮,結果婚禮上妙痹,老公的妹妹穿的比我還像新娘铸史。我一直安慰自己,他們只是感情好怯伊,可當我...
    茶點故事閱讀 68,729評論 6 397
  • 文/花漫 我一把揭開白布琳轿。 她就那樣靜靜地躺著,像睡著了一般耿芹。 火紅的嫁衣襯著肌膚如雪利赋。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,337評論 1 310
  • 那天猩系,我揣著相機與錄音媚送,去河邊找鬼。 笑死寇甸,一個胖子當著我的面吹牛塘偎,可吹牛的內容都是我干的。 我是一名探鬼主播拿霉,決...
    沈念sama閱讀 40,902評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼吟秩,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了绽淘?” 一聲冷哼從身側響起涵防,我...
    開封第一講書人閱讀 39,807評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎沪铭,沒想到半個月后壮池,有當地人在樹林里發(fā)現了一具尸體偏瓤,經...
    沈念sama閱讀 46,349評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,439評論 3 340
  • 正文 我和宋清朗相戀三年椰憋,在試婚紗的時候發(fā)現自己被綠了厅克。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,567評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡橙依,死狀恐怖证舟,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情窗骑,我是刑警寧澤女责,帶...
    沈念sama閱讀 36,242評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站创译,受9級特大地震影響抵知,放射性物質發(fā)生泄漏。R本人自食惡果不足惜昔榴,卻給世界環(huán)境...
    茶點故事閱讀 41,933評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望碘橘。 院中可真熱鬧互订,春花似錦、人聲如沸痘拆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽纺蛆。三九已至吐葵,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間桥氏,已是汗流浹背温峭。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留字支,地道東北人凤藏。 一個月前我還...
    沈念sama閱讀 48,995評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像堕伪,于是被迫代替她去往敵國和親揖庄。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,585評論 2 359

推薦閱讀更多精彩內容