以拉勾網(wǎng)為例說說反反爬的思路

User-Agent

為 request 添加 user-agent 后嘗試≈雒矗可以說這是任何爬蟲都需要做的偽裝糠悯。

Proxy

大部分情況下需要上代理池甥雕,從而規(guī)避 IP ban难述。

Cookie

有的網(wǎng)站萤晴,則會根據(jù)你的 cookie 識別你是人還是機器吐句。

步驟(以拉勾網(wǎng)為例)

  1. 關閉瀏覽器的 cookie 并刪除掉現(xiàn)有 cookie,然后訪問頁面店读,如果頁面不正常嗦枢,則可推定網(wǎng)站采用了 cookie 反爬。

貼士:可以點擊 chrome 地址欄的小鎖屯断,然后刪除 cookie文虏,不用全部清除,因為這會導致你需要重新登錄各種網(wǎng)站殖演。

  1. 打開 postman.app氧秘,啟動 interceptor 并清空 history。初次使用會讓你裝一個 chrome app趴久。
    也可以用 brew 安裝:
brew cask install postman
Postman 配置.png
  1. 接下來清空瀏覽器上該頁面的 cookie丸相。然后刷新頁面,此時 postman 會獲取到瀏覽器的各種請求朋鞍。通過 chrome 的 network 找到其中返回目標數(shù)據(jù)的那一個請求。
  2. 在 postman 中“重現(xiàn)”這個訪問妥箕。通過篩查發(fā)現(xiàn)滥酥,只需要保留 User-Agent 和 Referer 這兩項在 headers 里就能正確返回數(shù)據(jù)。這是因為啟動 interceptor 之后 postman 和 chrome 是連通的畦幢,前者能獲取后者的 cookie坎吻。
  3. 逐步刪除 cookie 并重試,就能最終確定起作用的 cookie 是什么宇葱。本例中發(fā)現(xiàn)瘦真,只需要 user_trace_token 這一項即可拿到數(shù)據(jù)。
  4. 可以通過訪問頁面先拿 cookie黍瞧。
from urllib import request  
from http import cookiejar  
  
if __name__ == '__main__':  
    # 聲明一個CookieJar對象實例來保存cookie  
    cookie = cookiejar.CookieJar()  
    # 利用urllib.request庫的HTTPCookieProcessor對象來創(chuàng)建cookie處理器,也就CookieHandler  
    handler=request.HTTPCookieProcessor(cookie)  
    # 通過CookieHandler創(chuàng)建opener  
    opener = request.build_opener(handler)  
    # 此處的open方法打開網(wǎng)頁  
    response = opener.open('https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=')  
    # 打印cookie信息  
    for item in cookie:  
        print('Name = %s' % item.name)  
        print('Value = %s' % item.value) 
# 輸出
Name = user_trace_token
Value = 20180527163349-64c256fa-556c-43e8-827e-c016f4b15cda

以上诸尽。

參考文獻:
http://www.reibang.com/p/a2f74805e54f
http://www.shenjianshou.cn/blog/?p=289

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市印颤,隨后出現(xiàn)的幾起案子您机,更是在濱河造成了極大的恐慌,老刑警劉巖年局,帶你破解...
    沈念sama閱讀 222,590評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件际看,死亡現(xiàn)場離奇詭異,居然都是意外死亡矢否,警方通過查閱死者的電腦和手機仲闽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,157評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來僵朗,“玉大人赖欣,你說我怎么就攤上這事屑彻。” “怎么了畏鼓?”我有些...
    開封第一講書人閱讀 169,301評論 0 362
  • 文/不壞的土叔 我叫張陵酱酬,是天一觀的道長。 經(jīng)常有香客問我云矫,道長膳沽,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,078評論 1 300
  • 正文 為了忘掉前任让禀,我火速辦了婚禮挑社,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘巡揍。我一直安慰自己痛阻,他們只是感情好,可當我...
    茶點故事閱讀 69,082評論 6 398
  • 文/花漫 我一把揭開白布腮敌。 她就那樣靜靜地躺著阱当,像睡著了一般。 火紅的嫁衣襯著肌膚如雪糜工。 梳的紋絲不亂的頭發(fā)上弊添,一...
    開封第一講書人閱讀 52,682評論 1 312
  • 那天,我揣著相機與錄音捌木,去河邊找鬼油坝。 笑死,一個胖子當著我的面吹牛刨裆,可吹牛的內(nèi)容都是我干的澈圈。 我是一名探鬼主播,決...
    沈念sama閱讀 41,155評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼帆啃,長吁一口氣:“原來是場噩夢啊……” “哼瞬女!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起努潘,我...
    開封第一講書人閱讀 40,098評論 0 277
  • 序言:老撾萬榮一對情侶失蹤拆魏,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后慈俯,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體渤刃,經(jīng)...
    沈念sama閱讀 46,638評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,701評論 3 342
  • 正文 我和宋清朗相戀三年贴膘,在試婚紗的時候發(fā)現(xiàn)自己被綠了卖子。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,852評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡刑峡,死狀恐怖洋闽,靈堂內(nèi)的尸體忽然破棺而出玄柠,到底是詐尸還是另有隱情,我是刑警寧澤诫舅,帶...
    沈念sama閱讀 36,520評論 5 351
  • 正文 年R本政府宣布羽利,位于F島的核電站,受9級特大地震影響刊懈,放射性物質(zhì)發(fā)生泄漏这弧。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,181評論 3 335
  • 文/蒙蒙 一虚汛、第九天 我趴在偏房一處隱蔽的房頂上張望匾浪。 院中可真熱鬧,春花似錦卷哩、人聲如沸蛋辈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,674評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽冷溶。三九已至,卻和暖如春尊浓,著一層夾襖步出監(jiān)牢的瞬間逞频,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,788評論 1 274
  • 我被黑心中介騙來泰國打工眠砾, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留虏劲,地道東北人托酸。 一個月前我還...
    沈念sama閱讀 49,279評論 3 379
  • 正文 我出身青樓褒颈,卻偏偏與公主長得像,于是被迫代替她去往敵國和親励堡。 傳聞我的和親對象是個殘疾皇子谷丸,可洞房花燭夜當晚...
    茶點故事閱讀 45,851評論 2 361

推薦閱讀更多精彩內(nèi)容