簡單的驗證碼識別

作為學了兩個多月python的小白集惋,深深地感受到“由此可得”的惡意孕似,所以文章力求詳細。

1.工具和環(huán)境

語言: python3.5

系統(tǒng):win7 64位

瀏覽器:chrome

2.安裝

2.1PIL安裝

打開命令提示符刮刑,輸入 pip install Pillow 喉祭,按Enter即可。

關(guān)于PIL模塊的教程雷绢,參考http://www.cnblogs.com/apexchu/p/4231041.html

2.2Tesseract安裝

下載地址:https://code.google.com/p/tesseract-ocr/downloads/list

如果沒有VPN泛烙,翻不了墻,直接網(wǎng)上搜EXE安裝包直接安裝即可翘紊。

注意在 “Language data” 那個選項里胶惰,默認是只勾選了英文的,如果需要進行其他語言的識別霞溪,記得勾選對應(yīng)的語言孵滞。

接著一路下一步就可以了。

安裝完了之后需要設(shè)置 環(huán)境變量鸯匹。

具體步驟是 右擊我的電腦--左擊屬性--高級系統(tǒng)設(shè)置--高級--環(huán)境變量--選中PATH--編輯



在變量值一欄的最后加入 剛才安裝的 Tesseract的路徑坊饶,以英文的分號“;”結(jié)尾。

2.3pytesser3

注意殴蓬,這里是pytesser3匿级,而不是pytesser。

目前網(wǎng)上的教程基本上都是只適用python2.x的pytesser染厅,因為這個我浪費了兩個多小時試了各種教程痘绎,最后才發(fā)現(xiàn)github上有個大神做了一個適用于python3.x的輪子,附上地址https://github.com/songluyi/pytesser3

安裝過程很簡單肖粮,在命令提示符輸入:pip install pytesser3孤页,按Enter。

3.驗證碼識別

3.1圖片降噪

所謂降噪就是將驗證碼上的干擾信息去除掉涩馆。比如背景行施,干擾線,干擾像素等等魂那,只剩下需要識別的文字蛾号,讓圖片變成2進制點陣最好。


驗證碼圖片7346.jpg


from PIL import Image

im = Image.open("7364.jpg")

im_gary = im.point(lambda x: 0 if x<143 else 255) #二值化處理

im_gary.show()


處理后的驗證碼:


二值化后的驗證碼

處理后背景上的噪點就沒有了涯雅。

3.2 利用pytesser模塊實現(xiàn)識別

from PIL import Image

import pytesser3

print (pytesser3.image_file_to_string('7364.jpg'))


代碼其實很簡單的鲜结,真正的難度是在安裝模塊上面。

如果運行代碼出現(xiàn)了下面這種情況:


那么請修改__init__.py里面第十二行tesseract_exe_name為你tesseract安裝路徑。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末精刷,一起剝皮案震驚了整個濱河市拗胜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌贬养,老刑警劉巖挤土,帶你破解...
    沈念sama閱讀 216,496評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件琴庵,死亡現(xiàn)場離奇詭異误算,居然都是意外死亡,警方通過查閱死者的電腦和手機迷殿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評論 3 392
  • 文/潘曉璐 我一進店門儿礼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人庆寺,你說我怎么就攤上這事蚊夫。” “怎么了?”我有些...
    開封第一講書人閱讀 162,632評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長条摸。 經(jīng)常有香客問我岸售,道長,這世上最難降的妖魔是什么猎提? 我笑而不...
    開封第一講書人閱讀 58,180評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上乍桂,老公的妹妹穿的比我還像新娘。我一直安慰自己效床,他們只是感情好睹酌,可當我...
    茶點故事閱讀 67,198評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著剩檀,像睡著了一般憋沿。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上沪猴,一...
    開封第一講書人閱讀 51,165評論 1 299
  • 那天卤妒,我揣著相機與錄音,去河邊找鬼字币。 笑死则披,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的洗出。 我是一名探鬼主播士复,決...
    沈念sama閱讀 40,052評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了阱洪?” 一聲冷哼從身側(cè)響起便贵,我...
    開封第一講書人閱讀 38,910評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎冗荸,沒想到半個月后承璃,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,324評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡蚌本,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,542評論 2 332
  • 正文 我和宋清朗相戀三年盔粹,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片程癌。...
    茶點故事閱讀 39,711評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡舷嗡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出嵌莉,到底是詐尸還是另有隱情进萄,我是刑警寧澤,帶...
    沈念sama閱讀 35,424評論 5 343
  • 正文 年R本政府宣布锐峭,位于F島的核電站中鼠,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏沿癞。R本人自食惡果不足惜援雇,卻給世界環(huán)境...
    茶點故事閱讀 41,017評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望抛寝。 院中可真熱鬧熊杨,春花似錦、人聲如沸盗舰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽钻趋。三九已至川陆,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蛮位,已是汗流浹背较沪。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留失仁,地道東北人尸曼。 一個月前我還...
    沈念sama閱讀 47,722評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像萄焦,于是被迫代替她去往敵國和親控轿。 傳聞我的和親對象是個殘疾皇子冤竹,可洞房花燭夜當晚...
    茶點故事閱讀 44,611評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 最近在爬取一個網(wǎng)站的時候,當爬取到一定數(shù)量的時候會遇到服務(wù)器的驗證碼驗證茬射,經(jīng)過對驗證碼的識別鹦蠕,發(fā)現(xiàn)驗證碼比較規(guī)范,...
    羅盤上的方向閱讀 642評論 9 8
  • 第一次接觸圖像解析,隨便上網(wǎng)搜羅了一些資料自己整理了一下就不要臉的寫了下來,有錯的地方還望指點. 先說說大致流程吧...
    哇噗哇噗蛇閱讀 1,200評論 0 49
  • 前言 相信大家利用 Python 寫的爬蟲應(yīng)該遇到過要輸入驗證碼的尷尬局面在抛,又或者寫了個自動填充表單的小程序钟病,結(jié)果...
    迦度藍洛閱讀 16,583評論 2 35
  • 原文地址:http://drops.wooyun.org/tips/141 0×00 簡介 驗證碼作為一種輔助安全...
    羅義的夏天閱讀 1,613評論 0 8
  • 越來覺得世上的道道絕非你一眼望去的那么簡單,千轉(zhuǎn)百回總要有一個道道刚梭,所以我不評判任何肠阱,但我知曉里面的酸甜苦辣,沒有...
    卦爻閱讀 236評論 1 0