爬蟲系列(三十六):嘗試對知乎驗證碼進行處理

許多流行的內(nèi)容管理系統(tǒng)即使加了驗證碼模塊柠硕,其眾所周知的注冊頁面也經(jīng)常會遭到網(wǎng)絡 機器人的垃圾注冊。

那么运提,這些網(wǎng)絡機器人究蝗柔,竟是怎么做的呢?既然我們已經(jīng)闻葵,可以成功地識別出保存在電腦上 的驗證碼了,那么如何才能實現(xiàn)一個全能的網(wǎng)絡機器人呢?

大多數(shù)網(wǎng)站生成的驗證碼圖片都具有以下屬性癣丧。

  • 它們是服務器端的程序動態(tài)生成的圖片槽畔。驗證碼圖片的 src 屬性可能和普通圖片不太一 樣,比如 <img src="WebForm.aspx?id=8AP85CQKE9TJ">坎缭,但是可以和其他圖片一樣進行 下載和處理竟痰。

  • 圖片的答案存儲在服務器端的數(shù)據(jù)庫里。

  • 很多驗證碼都有時間限制掏呼,如果你太長時間沒解決就會失效坏快。
    常用的處理方法就是,首先把驗證碼圖片下載到硬盤里憎夷,清理干凈莽鸿,然后-
    用 Tesseract 處理 圖片,最后返回符合網(wǎng)站要求的識別結果拾给。

      #!/usr/bin/env python
      # -*- coding:utf-8 -*-
    
      import requests
      import time
      import pytesseract
      from PIL import Image
      from bs4 import BeautifulSoup
    
      def captcha(data):
          with open('captcha.jpg','wb') as fp:
              fp.write(data)
          time.sleep(1)
          image = Image.open("captcha.jpg")
          text = pytesseract.image_to_string(image)
          print "機器識別后的驗證碼為:" + text
          command = raw_input("請輸入Y表示同意使用祥得,按其他鍵自行重新輸入:")
          if (command == "Y" or command == "y"):
              return text
          else:
              return raw_input('輸入驗證碼:')
    
      def zhihuLogin(username,password):
    
          # 構建一個保存Cookie值的session對象
          sessiona = requests.Session()
          headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0'}
    
          # 先獲取頁面信息,找到需要POST的數(shù)據(jù)(并且已記錄當前頁面的Cookie)
          html = sessiona.get('https://www.zhihu.com/#signin', headers=headers).content
    
          # 找到 name 屬性值為 _xsrf 的input標簽蒋得,取出value里的值
          _xsrf = BeautifulSoup(html ,'lxml').find('input', attrs={'name':'_xsrf'}).get('value')
    
          # 取出驗證碼级及,r后面的值是Unix時間戳,time.time()
          captcha_url = 'https://www.zhihu.com/captcha.gif?r=%d&type=login' % (time.time() * 1000)
          response = sessiona.get(captcha_url, headers = headers)
    
    
          data = {
              "_xsrf":_xsrf,
              "email":username,
              "password":password,
              "remember_me":True,
              "captcha": captcha(response.content)
          }
    
          response = sessiona.post('https://www.zhihu.com/login/email', data = data, headers=headers)
          print response.text
    
          response = sessiona.get('https://www.zhihu.com/people/maozhaojun/activities', headers=headers)
          print response.text
    
    
      if __name__ == "__main__":
          #username = raw_input("username")
          #password = raw_input("password")
          zhihuLogin('xxxx@qq.com','ALAxxxxIME')
    

值得注意的是,有兩種異常情況會導致這個程序運行失敗额衙。第一種情況是饮焦,如果 Tesseract 從驗證碼圖片中識別的結果不是四個字符(因為訓練樣本中驗證碼的所有有效答案都必須 是四個字符),結果不會被提交窍侧,程序失敗县踢。第二種情況是雖然識別的結果是四個字符, 被提交到了表單伟件,但是服務器對結果不認可硼啤,程序仍然失敗。

在實際運行過程中斧账,第一種 情況發(fā)生的可能性大約為 50%谴返,發(fā)生時程序不會向表單提交,程序直接結束并提示驗證碼 識別錯誤咧织。第二種異常情況發(fā)生的概率約為 20%亏镰,四個字符都對的概率約是 30%(每個字 母的識別正確率大約是 80%,如果是五個字符都識別拯爽,正確的總概率是 32.8%)索抓。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子逼肯,更是在濱河造成了極大的恐慌耸黑,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件篮幢,死亡現(xiàn)場離奇詭異大刊,居然都是意外死亡,警方通過查閱死者的電腦和手機三椿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門缺菌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人搜锰,你說我怎么就攤上這事伴郁。” “怎么了蛋叼?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵焊傅,是天一觀的道長。 經(jīng)常有香客問我狈涮,道長狐胎,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任歌馍,我火速辦了婚禮握巢,結果婚禮上,老公的妹妹穿的比我還像新娘松却。我一直安慰自己镜粤,他們只是感情好,可當我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布玻褪。 她就那樣靜靜地躺著,像睡著了一般公荧。 火紅的嫁衣襯著肌膚如雪带射。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天循狰,我揣著相機與錄音窟社,去河邊找鬼。 笑死绪钥,一個胖子當著我的面吹牛灿里,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播程腹,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼匣吊,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起色鸳,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤社痛,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后命雀,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蒜哀,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年吏砂,在試婚紗的時候發(fā)現(xiàn)自己被綠了撵儿。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡狐血,死狀恐怖淀歇,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情氛雪,我是刑警寧澤房匆,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站报亩,受9級特大地震影響浴鸿,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜弦追,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一岳链、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧劲件,春花似錦掸哑、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至牵辣,卻和暖如春摔癣,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背纬向。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工择浊, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人逾条。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓琢岩,卻偏偏與公主長得像,于是被迫代替她去往敵國和親师脂。 傳聞我的和親對象是個殘疾皇子担孔,可洞房花燭夜當晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容