爬蟲游戲第五關(guān)

接上篇幼苛,來到第五關(guān),地址:http://www.heibanke.com/lesson/crawler_ex04/
界面依舊熟悉,不過多了個(gè)驗(yàn)證碼

image.png

很明顯涎嚼,這關(guān)主要在考如何過驗(yàn)證碼,先隨便填幾個(gè)字符點(diǎn)擊提交挑秉,結(jié)果提示密碼錯(cuò)誤法梯,F(xiàn)12看看請(qǐng)求:
image.png

可以看到提交了5個(gè)參數(shù),多了captcha_0和captcha_1,captcha_1就是我剛剛填入的驗(yàn)證碼犀概,那么captcha_0是個(gè)什么東西立哑?看看源碼
image.png

看來這個(gè)captcha_0是后臺(tái)動(dòng)態(tài)生成的一個(gè)值,猜測(cè)是后臺(tái)用來匹配驗(yàn)證碼的阱冶,不過這對(duì)我們沒影響刁憋,直接取這個(gè)值提交就行了滥嘴。
整個(gè)頁(yè)面非常簡(jiǎn)單木蹬,重點(diǎn)在怎樣識(shí)別驗(yàn)證碼,能識(shí)別出驗(yàn)證碼的話若皱,密碼一個(gè)個(gè)試就行了(作者已經(jīng)提示密碼全部都是數(shù)字)镊叁。識(shí)別驗(yàn)證碼我使用了pillow+pytesseract,結(jié)果發(fā)現(xiàn)識(shí)別效率非常低走触,我也不知道為啥晦譬,可能我使用姿勢(shì)不對(duì)?考慮到作者不會(huì)搞太難的密碼互广,我干脆手動(dòng)輸入算了(考慮個(gè)屁敛腌,沒辦法的辦法了)。
代碼如下:

# -*- coding: utf-8 -*-
import pytesseract
from PIL import Image
import urllib.request as urllib
from io import BytesIO
from urllib import request
from urllib import parse
from bs4 import BeautifulSoup

def get_page(url, params):
    print('get url %s' % url)
    data = parse.urlencode(params).encode('utf-8')
    header = {
        'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                    r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
        'Connection': 'keep-alive',
        'Cookie':r'Hm_lvt_74e694103cf02b31b28db0a346da0b6b=1514366315; csrftoken=1yFgXVZtw2rACmTYDGABYKs9VWLWqbeH; sessionid=m4paft1uuvhm3thrwvdgwut2rvu8uz8d; Hm_lpvt_74e694103cf02b31b28db0a346da0b6b=1514428404',
        'Refer':'http://www.heibanke.com/lesson/crawler_ex02/'
    }
    req  = request.Request(url, data, headers=header)
    page = request.urlopen(req).read()
    page = page.decode('utf-8')
    return page
count = 0
url = "http://www.heibanke.com/lesson/crawler_ex04/"
token = '1yFgXVZtw2rACmTYDGABYKs9VWLWqbeH'
username = 'pkxutao'
# 構(gòu)造post參數(shù)
data = {
    'csrfmiddlewaretoken': token,
    'username': 'pkxutao',
    'password': -1
}
# result = get_page(url, data)
h3 = ''
# 這里的恭喜判斷其實(shí)多余惫皱,因?yàn)槔锩嬗袑?duì)是否正確的判斷
while "恭喜" not in h3:
    data['password'] = count
    result = get_page(url, data)
    soup = BeautifulSoup(result, "html.parser")
    # 先獲取到captcha_0
    temp = soup.find_all('input', id='id_captcha_0')
    if len(temp) == 0:
        # 說明密碼正確
        break
    captcha_0=temp[0]['value']
    data['captcha_0'] = captcha_0
    # 再獲取captcha_1,就是驗(yàn)證碼
    captcha=soup.find_all('img', class_='captcha')[0]['src']
    resp = urllib.urlopen('http://www.heibanke.com'+captcha)
    img = Image.open(BytesIO(resp.read()))
    # 展示驗(yàn)證碼
    img.show()
    code = input()
    print('輸入的驗(yàn)證碼為 %s' % code)
    # 這里準(zhǔn)備用pytesseract自動(dòng)識(shí)別像樊,但識(shí)別率實(shí)在太低,改為手動(dòng)
    # img=img.convert('L')
    # img.show()
    # code = pytesseract.image_to_string(img)
    # print('識(shí)別的驗(yàn)證碼為 %s' % code)
    data['captcha_1']=code
    # result = get_page(url, data)
    # soup = BeautifulSoup(result, "html.parser")
    h3 = soup.find_all("h3")[0].text
    print(h3)
    if h3 not in '驗(yàn)證碼輸入錯(cuò)誤':
        count += 1
print("闖關(guān)成功旅敷,密碼為%s" % count)

pytesseract識(shí)別驗(yàn)證碼的代碼被我注釋了生棍,想玩的話可以試試,最后爬到的密碼是22媳谁,到頁(yè)面登錄,bingo!但是涂滴。。晴音。柔纵。發(fā)現(xiàn)這是最后一關(guān)了,可惜了锤躁,這游戲還挺好玩的搁料。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子加缘,更是在濱河造成了極大的恐慌鸭叙,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,284評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拣宏,死亡現(xiàn)場(chǎng)離奇詭異沈贝,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)勋乾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門宋下,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人辑莫,你說我怎么就攤上這事学歧。” “怎么了各吨?”我有些...
    開封第一講書人閱讀 164,614評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵枝笨,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我揭蜒,道長(zhǎng)横浑,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,671評(píng)論 1 293
  • 正文 為了忘掉前任屉更,我火速辦了婚禮徙融,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘瑰谜。我一直安慰自己欺冀,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評(píng)論 6 392
  • 文/花漫 我一把揭開白布萨脑。 她就那樣靜靜地躺著隐轩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪砚哗。 梳的紋絲不亂的頭發(fā)上龙助,一...
    開封第一講書人閱讀 51,562評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音蛛芥,去河邊找鬼提鸟。 笑死,一個(gè)胖子當(dāng)著我的面吹牛仅淑,可吹牛的內(nèi)容都是我干的称勋。 我是一名探鬼主播,決...
    沈念sama閱讀 40,309評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼涯竟,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼赡鲜!你這毒婦竟也來了空厌?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,223評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤银酬,失蹤者是張志新(化名)和其女友劉穎嘲更,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體揩瞪,經(jīng)...
    沈念sama閱讀 45,668評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡赋朦,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了李破。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片宠哄。...
    茶點(diǎn)故事閱讀 39,981評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖嗤攻,靈堂內(nèi)的尸體忽然破棺而出毛嫉,到底是詐尸還是另有隱情,我是刑警寧澤妇菱,帶...
    沈念sama閱讀 35,705評(píng)論 5 347
  • 正文 年R本政府宣布承粤,位于F島的核電站,受9級(jí)特大地震影響恶耽,放射性物質(zhì)發(fā)生泄漏密任。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評(píng)論 3 330
  • 文/蒙蒙 一偷俭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧缰盏,春花似錦涌萤、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至济炎,卻和暖如春川抡,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背须尚。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工崖堤, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人耐床。 一個(gè)月前我還...
    沈念sama閱讀 48,146評(píng)論 3 370
  • 正文 我出身青樓密幔,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親撩轰。 傳聞我的和親對(duì)象是個(gè)殘疾皇子胯甩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 最近看到的一個(gè)關(guān)于Python爬蟲的闖關(guān)游戲昧廷,手癢,試他一試偎箫。 第一關(guān) 地址:http://www.heibank...
    whaike閱讀 2,358評(píng)論 6 16
  • 接第三關(guān)木柬,來到第四關(guān),地址:http://www.heibanke.com/lesson/crawler_ex03...
    pkxutao閱讀 229評(píng)論 0 0
  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,139評(píng)論 25 707
  • 好朋友當(dāng)狗奴已經(jīng)十幾年了淹办,養(yǎng)了一只雜交的吉娃娃弄诲,對(duì)于我來說它一點(diǎn)也不可愛,因?yàn)橐娒鎛次了每次都還是要沖我大吼娇唯。認(rèn)識(shí)...
    忠憶閱讀 228評(píng)論 0 0
  • “2017年會(huì)好的塔插,一切都會(huì)好的梗摇!” 年初,像所有的過往一樣想许, 暗暗對(duì)自己說: 新的一年伶授, 無論如何都要過得比去年...
    路邊往事閱讀 209評(píng)論 0 0