Scrapy爬蟲(chóng)教程二 淺析最煩人的反爬蟲(chóng)手段

Scrapy爬蟲(chóng)教程一 Windows下安裝Scrapy的方式和問(wèn)題總結(jié)

Scrapy爬蟲(chóng)教程二 淺析最煩人的反爬蟲(chóng)手段

Scrapy爬蟲(chóng)教程三 詳細(xì)的Python Scrapy模擬登錄知乎

Scrapy爬蟲(chóng)教程四 Scrapy+Selenium有瀏覽器界面模擬登錄知乎

Scrapy爬蟲(chóng)教程五 爬蟲(chóng)部署

最近一直在弄爬蟲(chóng)土浸,也爬取了知名網(wǎng)站的一些數(shù)據(jù)(這里只是個(gè)人學(xué)習(xí)使用弟翘,不是商用Jチ浴2唇弧虽缕!)泽铛,大家都知道啡邑,爬蟲(chóng)和反爬蟲(chóng)一直以來(lái)都是相愛(ài)相殺的北滥,爬蟲(chóng)程序員希望破解反爬蟲(chóng)手段,反爬蟲(chóng)程序員希望建立更加有效的反爬蟲(chóng)方式與之抗衡恬汁。

由于在這階段進(jìn)行的爬蟲(chóng)學(xué)習(xí)中伶椿,經(jīng)常中招,所以今天就簡(jiǎn)單的總結(jié)一下反爬蟲(chóng)的方式。

一.BAN IP

網(wǎng)頁(yè)的運(yùn)維人員通過(guò)分析日志發(fā)現(xiàn)最近某一個(gè)IP訪問(wèn)量特別特別大悬垃,某一段時(shí)間內(nèi)訪問(wèn)了無(wú)數(shù)次的網(wǎng)頁(yè)游昼,則運(yùn)維人員判斷此種訪問(wèn)行為并非正常人的行為甘苍,于是直接在服務(wù)器上封殺了此人IP(我剛爬取的網(wǎng)站的維護(hù)人員可能對(duì)我實(shí)施了這種手段...)尝蠕。

解決方法:此種方法極其容易誤傷其他正常用戶,因?yàn)槟骋黄瑓^(qū)域的其他用戶可能有著相同的IP载庭,導(dǎo)致服務(wù)器少了許多正常用戶的訪問(wèn)看彼,所以一般運(yùn)維人員不會(huì)通過(guò)此種方法來(lái)限制爬蟲(chóng)。不過(guò)面對(duì)許多大量的訪問(wèn)囚聚,服務(wù)器還是會(huì)偶爾把該IP放入黑名單靖榕,過(guò)一段時(shí)間再將其放出來(lái),但我們可以通過(guò)分布式爬蟲(chóng)以及購(gòu)買代理IP也能很好的解決顽铸,只不過(guò)爬蟲(chóng)的成本提高了茁计。

二.BAN USERAGENT

很多的爬蟲(chóng)請(qǐng)求頭就是默認(rèn)的一些很明顯的爬蟲(chóng)頭python-requests/2.18.4,諸如此類谓松,當(dāng)運(yùn)維人員發(fā)現(xiàn)攜帶有這類headers的數(shù)據(jù)包星压,直接拒絕訪問(wèn),返回403錯(cuò)誤

解決方法:直接r=requests.get(url,headers={'User-Agent':'XXXspider'})把爬蟲(chóng)請(qǐng)求headers偽裝成其他爬蟲(chóng)或者其他瀏覽器頭就行了鬼譬。

案例:雪球網(wǎng)

三.BAN COOKIES

服務(wù)器對(duì)每一個(gè)訪問(wèn)網(wǎng)頁(yè)的人都set-cookie娜膘,給其一個(gè)cookies,當(dāng)該cookies訪問(wèn)超過(guò)某一個(gè)閥值時(shí)就BAN掉該COOKIE优质,過(guò)一段時(shí)間再放出來(lái)竣贪,當(dāng)然一般爬蟲(chóng)都是不帶COOKIE進(jìn)行訪問(wèn)的,可是網(wǎng)頁(yè)上有一部分內(nèi)容如新浪微博是需要用戶登錄才能查看更多內(nèi)容(我已經(jīng)中招了)巩螃。

解決辦法:控制訪問(wèn)速度演怎,或者某些需要登錄的如新浪微博,在某寶上買多個(gè)賬號(hào)避乏,生成多個(gè)cookies颤枪,在每一次訪問(wèn)時(shí)帶上cookies

案例:螞蜂窩

四.驗(yàn)證碼驗(yàn)證

當(dāng)某一用戶訪問(wèn)次數(shù)過(guò)多后,就自動(dòng)讓請(qǐng)求跳轉(zhuǎn)到一個(gè)驗(yàn)證碼頁(yè)面淑际,只有在輸入正確的驗(yàn)證碼之后才能繼續(xù)訪問(wèn)網(wǎng)站

解決辦法:python可以通過(guò)一些第三方庫(kù)如(pytesser,PIL)來(lái)對(duì)驗(yàn)證碼進(jìn)行處理畏纲,識(shí)別出正確的驗(yàn)證碼,復(fù)雜的驗(yàn)證碼可以通過(guò)機(jī)器學(xué)習(xí)讓爬蟲(chóng)自動(dòng)識(shí)別復(fù)雜驗(yàn)證碼春缕,讓程序自動(dòng)識(shí)別驗(yàn)證碼并自動(dòng)輸入驗(yàn)證碼繼續(xù)抓取

案例:51Job? 安全客

五.javascript渲染

網(wǎng)頁(yè)開(kāi)發(fā)者將重要信息放在網(wǎng)頁(yè)中但不寫入html標(biāo)簽中盗胀,而瀏覽器會(huì)自動(dòng)渲染<script>標(biāo)簽的js代碼將信息展現(xiàn)在瀏覽器當(dāng)中,而爬蟲(chóng)是不具備執(zhí)行js代碼的能力锄贼,所以無(wú)法將js事件產(chǎn)生的信息讀取出來(lái)

解決辦法:通過(guò)分析提取script中的js代碼來(lái)通過(guò)正則匹配提取信息內(nèi)容或通過(guò)webdriver+phantomjs直接進(jìn)行無(wú)頭瀏覽器渲染網(wǎng)頁(yè)票灰。

案例:前程無(wú)憂網(wǎng)

隨便打開(kāi)一個(gè)前程無(wú)憂工作界面,直接用requests.get對(duì)其進(jìn)行訪問(wèn),可以得到一頁(yè)的20個(gè)左右數(shù)據(jù)屑迂,顯然得到的不全浸策,而用webdriver訪問(wèn)同樣的頁(yè)面可以得到50個(gè)完整的工作信息。

六.ajax異步傳輸

訪問(wèn)網(wǎng)頁(yè)的時(shí)候服務(wù)器將網(wǎng)頁(yè)框架返回給客戶端惹盼,在與客戶端交互的過(guò)程中通過(guò)異步ajax技術(shù)傳輸數(shù)據(jù)包到客戶端庸汗,呈現(xiàn)在網(wǎng)頁(yè)上,爬蟲(chóng)直接抓取的話信息為空

解決辦法:通過(guò)fiddler或是wireshark抓包分析ajax請(qǐng)求的界面手报,然后自己通過(guò)規(guī)律仿造服務(wù)器構(gòu)造一個(gè)請(qǐng)求訪問(wèn)服務(wù)器得到返回的真實(shí)數(shù)據(jù)包蚯舱。

案例:拉勾網(wǎng)??

打開(kāi)拉勾網(wǎng)的某一個(gè)工作招聘頁(yè),可以看到許許多多的招聘信息數(shù)據(jù)掩蛤,點(diǎn)擊下一頁(yè)后發(fā)現(xiàn)頁(yè)面框架不變化枉昏,url地址不變,而其中的每個(gè)招聘數(shù)據(jù)發(fā)生了變化揍鸟,通過(guò)chrome開(kāi)發(fā)者工具抓包找到了一個(gè)叫請(qǐng)求了一個(gè)叫做http://www.lagou.com/zhaopin/Java/2/?filterOption=3的網(wǎng)頁(yè)兄裂,打開(kāi)改網(wǎng)頁(yè)發(fā)現(xiàn)為第二頁(yè)真正的數(shù)據(jù)源,通過(guò)仿造請(qǐng)求可以抓取每一頁(yè)的數(shù)據(jù)阳藻。

七.加速樂(lè)

有些網(wǎng)站使用了加速樂(lè)的服務(wù)晰奖,在訪問(wèn)之前先判斷客戶端的cookie正不正確。如果不正確稚配,返回521狀態(tài)碼畅涂,set-cookie并且返回一段js代碼通過(guò)瀏覽器執(zhí)行后又可以生成一個(gè)cookie,只有這兩個(gè)cookie一起發(fā)送給服務(wù)器道川,才會(huì)返回正確的網(wǎng)頁(yè)內(nèi)容午衰。

解決辦法 :將瀏覽器返回的js代碼放在一個(gè)字符串中,然后利用nodejs對(duì)這段代碼進(jìn)行反壓縮冒萄,然后對(duì)局部的信息進(jìn)行解密臊岸,得到關(guān)鍵信息放入下一次訪問(wèn)請(qǐng)求的頭部中。

案例:加速樂(lè)

這樣的一個(gè)交互過(guò)程僅僅用python的requests庫(kù)是解決不了的尊流,經(jīng)過(guò)查閱資料帅戒,有兩種解決辦法:

1.將返回的set-cookie獲取到之后再通過(guò)腳本執(zhí)行返回的eval加密的js代碼,將代碼中生成的cookie與之前set-cookie聯(lián)合發(fā)送給服務(wù)器就可以返回正確的內(nèi)容崖技,即狀態(tài)碼從521變成了200逻住。

2.將返回的set-cookie獲取到之后再通過(guò)腳本執(zhí)行返回的eval加密的js代碼,將代碼中生成的cookie與之前set-cookie聯(lián)合發(fā)送給服務(wù)器就可以返回正確的內(nèi)容迎献,即狀態(tài)碼從521變成了200瞎访。

大家一起學(xué)習(xí),一起進(jìn)步吁恍。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末扒秸,一起剝皮案震驚了整個(gè)濱河市播演,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌伴奥,老刑警劉巖写烤,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異拾徙,居然都是意外死亡洲炊,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門锣吼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)选浑,“玉大人蓝厌,你說(shuō)我怎么就攤上這事玄叠。” “怎么了拓提?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵读恃,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我代态,道長(zhǎng)寺惫,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任蹦疑,我火速辦了婚禮西雀,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘歉摧。我一直安慰自己艇肴,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布叁温。 她就那樣靜靜地躺著再悼,像睡著了一般。 火紅的嫁衣襯著肌膚如雪膝但。 梳的紋絲不亂的頭發(fā)上冲九,一...
    開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音跟束,去河邊找鬼莺奸。 笑死,一個(gè)胖子當(dāng)著我的面吹牛冀宴,可吹牛的內(nèi)容都是我干的灭贷。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼花鹅,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼氧腰!你這毒婦竟也來(lái)了枫浙?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤古拴,失蹤者是張志新(化名)和其女友劉穎箩帚,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體黄痪,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡紧帕,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了桅打。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片是嗜。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖挺尾,靈堂內(nèi)的尸體忽然破棺而出鹅搪,到底是詐尸還是另有隱情,我是刑警寧澤遭铺,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布丽柿,位于F島的核電站,受9級(jí)特大地震影響魂挂,放射性物質(zhì)發(fā)生泄漏甫题。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一涂召、第九天 我趴在偏房一處隱蔽的房頂上張望坠非。 院中可真熱鬧,春花似錦果正、人聲如沸炎码。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)辅肾。三九已至,卻和暖如春轮锥,著一層夾襖步出監(jiān)牢的瞬間矫钓,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工舍杜, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留新娜,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓既绩,卻偏偏與公主長(zhǎng)得像概龄,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子饲握,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,104評(píng)論 25 707
  • 爬蟲(chóng)是一個(gè)比較容易上手的技術(shù)私杜,也許花5分鐘看一篇文檔就能爬取單個(gè)網(wǎng)頁(yè)上的數(shù)據(jù)蚕键。但對(duì)于大規(guī)模爬蟲(chóng),完全就是另一回事衰粹,...
    真依然很拉風(fēng)閱讀 9,660評(píng)論 5 114
  • 就在昨天锣光,老媽和我微信視頻,說(shuō):聽(tīng)說(shuō)你買了一輛車铝耻√艿可不是嗎?我終于買了一輛自行車瓢捉。哈哈哈哈频丘,兩人不約大笑。 我買了...
    木木木俠閱讀 959評(píng)論 0 4
  • 金燦燦的玉米囤滿農(nóng)家的庭院 紅通通的小棗晾曬在屋前院后 黑黝黝的豆兒裝好袋子聚在屋檐下 豐收泡态!今年的秋搂漠,農(nóng)家院落顯...
    豐盈倉(cāng)廩閱讀 842評(píng)論 0 0
  • 寒風(fēng)凜冽,寒氣襲人,枯草蕭疏,綠色盡失,今年的冬天如此蒼白凄涼且冷漠. M點(diǎn)燃一支煙状答,吞云吐霧起來(lái)冷守,一圈圈的煙霧刀崖,...
    幽谷泉涌閱讀 856評(píng)論 0 1