python 爬蟲(chóng)與反爬蟲(chóng)

IP：網(wǎng)頁(yè)的運(yùn)維人員通過(guò)分析日志發(fā)現(xiàn)最近某一個(gè)IP訪問(wèn)量特別特別大，某一段時(shí)間內(nèi)訪問(wèn)了無(wú)數(shù)次的網(wǎng)頁(yè)盟迟，則運(yùn)維人員判斷此種訪問(wèn)行為并非正常人的行為，
　　　　　　于是直接在服務(wù)器上封殺了此人IP献丑。
解決方法：此種方法極其容易誤傷其他正常用戶(hù)悟民，因?yàn)槟骋黄瑓^(qū)域的其他用戶(hù)可能有著相同的IP，導(dǎo)致服務(wù)器少了許多正常用戶(hù)的訪問(wèn)进每，
　　　　　　所以一般運(yùn)維人員不會(huì)通過(guò)此種方法來(lái)限制爬蟲(chóng)汹粤。不過(guò)面對(duì)許多大量的訪問(wèn)，服務(wù)器還是會(huì)偶爾把該IP放入黑名單田晚，過(guò)一段時(shí)間再將其放出來(lái)嘱兼，
但我們可以通過(guò)分布式爬蟲(chóng)以及購(gòu)買(mǎi)代理IP也能很好的解決，只不過(guò)爬蟲(chóng)的成本提高了贤徒。
USERAGENT：很多的爬蟲(chóng)請(qǐng)求頭就是默認(rèn)的一些很明顯的爬蟲(chóng)頭python-requests/2.18.4芹壕，諸如此類(lèi)，當(dāng)運(yùn)維人員發(fā)現(xiàn)攜帶有這類(lèi)headers數(shù)據(jù)包接奈，直接拒絕訪問(wèn)踢涌，返回403錯(cuò)誤
解決方法：直接r=requests.get(url,headers={'User-Agent':'Baiduspider'})把爬蟲(chóng)請(qǐng)求headers偽裝成百度爬蟲(chóng)或者其他瀏覽器頭就行了。
　　　　user-agent控制訪問(wèn)
　　　　　　解決方案1：headers頭攜帶user-agent瀏覽器信息就可以解決
　　　　　　解決方案2：使用Fakeuseragent模塊解決

案例：雪球網(wǎng)
返回的就是403403 Forbidden.
Your IP Address:xxx.xxx.xxx.xxx.但是當(dāng)我們這樣寫(xiě)：

返回的就是200< !DOCTYPE html><html …

COOKIES:服務(wù)器對(duì)每一個(gè)訪問(wèn)網(wǎng)頁(yè)的人都set-cookie序宦，給其一個(gè)cookies睁壁，當(dāng)該cookies訪問(wèn)超過(guò)某一個(gè)閥值時(shí)就BAN掉該COOKIE，過(guò)一段時(shí)間再放出來(lái)互捌，
當(dāng)然一般爬蟲(chóng)都是不帶COOKIE進(jìn)行訪問(wèn)的潘明，可是網(wǎng)頁(yè)上有一部分內(nèi)容如新浪微博是需要用戶(hù)登錄才能查看更多內(nèi)容。
解決辦法：控制訪問(wèn)速度秕噪，或者某些需要登錄的如新浪微博钳降，在某寶上買(mǎi)多個(gè)賬號(hào)，生成多個(gè)cookies腌巾，在每一次訪問(wèn)時(shí)帶上cookies

案例：螞蜂窩
以前因?yàn)槁糜蔚男枨笏焯睿韵氲搅巳プヒ稽c(diǎn)游記來(lái)找找哪些地方好玩，于是去了螞蜂窩網(wǎng)站找游記壤躲，一篇一篇的看真的很慢城菊，想到不如把所有文章抓過(guò)來(lái)然后統(tǒng)計(jì)每個(gè)詞
出現(xiàn)的頻率最高，統(tǒng)計(jì)出最熱的一些旅游景點(diǎn)碉克，就寫(xiě)了一個(gè)scrapy爬蟲(chóng)抓游記凌唬，當(dāng)修改了headers后開(kāi)始爬取，發(fā)現(xiàn)訪問(wèn)過(guò)快服務(wù)器就會(huì)斷開(kāi)掉我的連接，
然后過(guò)一段時(shí)間（幾個(gè)小時(shí)）才能繼續(xù)爬客税。于是放慢速度抓就發(fā)現(xiàn)不會(huì)再被BAN了况褪。

驗(yàn)證碼驗(yàn)證：當(dāng)某一用戶(hù)訪問(wèn)次數(shù)過(guò)多后，就自動(dòng)讓請(qǐng)求跳轉(zhuǎn)到一個(gè)驗(yàn)證碼頁(yè)面更耻，只有在輸入正確的驗(yàn)證碼之后才能繼續(xù)訪問(wèn)網(wǎng)站

解決辦法：python可以通過(guò)一些第三方庫(kù)如(pytesser,PIL)來(lái)對(duì)驗(yàn)證碼進(jìn)行處理测垛，識(shí)別出正確的驗(yàn)證碼，復(fù)雜的驗(yàn)證碼可以通過(guò)機(jī)器學(xué)習(xí)讓爬蟲(chóng)自動(dòng)識(shí)別復(fù)雜驗(yàn)證碼秧均，
讓程序自動(dòng)識(shí)別驗(yàn)證碼并自動(dòng)輸入驗(yàn)證碼繼續(xù)抓取
案例：安全客當(dāng)訪問(wèn)者對(duì)安全客訪問(wèn)過(guò)快他就會(huì)自動(dòng)蹦出一個(gè)驗(yàn)證碼界面食侮。如下：
javascript渲染：網(wǎng)頁(yè)開(kāi)發(fā)者將重要信息放在網(wǎng)頁(yè)中但不寫(xiě)入html標(biāo)簽中，而瀏覽器會(huì)自動(dòng)渲染<script>標(biāo)簽中的js代碼將信息展現(xiàn)在瀏覽器當(dāng)中目胡，
而爬蟲(chóng)是不具備執(zhí)行js代碼的能力锯七，所以無(wú)法將js事件產(chǎn)生的信息讀取出來(lái)
解決辦法：通過(guò)分析提取script中的js代碼來(lái)通過(guò)正則匹配提取信息內(nèi)容或通過(guò)webdriver+phantomjs直接進(jìn)行無(wú)頭瀏覽器渲染網(wǎng)頁(yè)。

案例：前程無(wú)憂(yōu)網(wǎng)隨便打開(kāi)一個(gè)前程無(wú)憂(yōu)工作界面誉己，直接用requests.get對(duì)其進(jìn)行訪問(wèn)眉尸，可以得到一頁(yè)的20個(gè)左右數(shù)據(jù)，顯然得到的不全巨双，
而用webdriver訪問(wèn)同樣的頁(yè)面可以得到50個(gè)完整的工作信息噪猾。

ajax異步傳輸：訪問(wèn)網(wǎng)頁(yè)的時(shí)候服務(wù)器將網(wǎng)頁(yè)框架返回給客戶(hù)端，在與客戶(hù)端交互的過(guò)程中通過(guò)異步ajax技術(shù)傳輸數(shù)據(jù)包到客戶(hù)端筑累，呈現(xiàn)在網(wǎng)頁(yè)上袱蜡，爬蟲(chóng)直接抓取的話(huà)信息為空

解決辦法：通過(guò)fiddler或是wireshark抓包分析ajax請(qǐng)求的界面，然后自己通過(guò)規(guī)律仿造服務(wù)器構(gòu)造一個(gè)請(qǐng)求訪問(wèn)服務(wù)器得到返回的真實(shí)數(shù)據(jù)包慢宗。

案例：拉勾網(wǎng)打開(kāi)拉勾網(wǎng)的某一個(gè)工作招聘頁(yè)戒劫，可以看到許許多多的招聘信息數(shù)據(jù)，點(diǎn)擊下一頁(yè)后發(fā)現(xiàn)頁(yè)面框架不變化婆廊，url地址不變，而其中的每個(gè)招聘數(shù)據(jù)發(fā)生了變化巫橄，
通過(guò)chrome開(kāi)發(fā)者工具抓包找到了一個(gè)叫請(qǐng)求了一個(gè)叫做https://www.lagou.com/zhaopin/Java/2/?filterOption=3的網(wǎng)頁(yè)淘邻，打開(kāi)改網(wǎng)頁(yè)發(fā)現(xiàn)為第二頁(yè)真正的數(shù)據(jù)源，
通過(guò)仿造請(qǐng)求可以抓取每一頁(yè)的數(shù)據(jù)湘换。很多網(wǎng)頁(yè)的運(yùn)維者通過(guò)組合以上幾種手段宾舅，然后形成一套反爬策略，就像之前碰到過(guò)一個(gè)復(fù)雜網(wǎng)絡(luò)傳輸+加速樂(lè)+cookies時(shí)效的反爬手段彩倚。

7.加速樂(lè)：有些網(wǎng)站使用了加速樂(lè)的服務(wù)筹我，在訪問(wèn)之前先判斷客戶(hù)端的cookie正不正確。如果不正確帆离，返回521狀態(tài)碼蔬蕊，set-cookie并且返回一段js代碼
通過(guò)瀏覽器執(zhí)行后又可以生成一個(gè)cookie，只有這兩個(gè)cookie一起發(fā)送給服務(wù)器哥谷，才會(huì)返回正確的網(wǎng)頁(yè)內(nèi)容岸夯。

解決辦法：將瀏覽器返回的js代碼放在一個(gè)字符串中麻献，然后利用nodejs對(duì)這段代碼進(jìn)行反壓縮，然后對(duì)局部的信息進(jìn)行解密猜扮，得到關(guān)鍵信息放入下一次訪問(wèn)請(qǐng)求的頭部中勉吻。

案例：加速樂(lè)

這樣的一個(gè)交互過(guò)程僅僅用python的requests庫(kù)是解決不了的，經(jīng)過(guò)查閱資料旅赢，有兩種解決辦法：
第一種將返回的set-cookie獲取到之后再通過(guò)腳本執(zhí)行返回的eval加密的js代碼齿桃，將代碼中生成的cookie與之前set-cookie聯(lián)合發(fā)送給服務(wù)器就可以返回正確的內(nèi)容，
即狀態(tài)碼從521變成了200煮盼。直接通過(guò)這一段就可以獲取返回的一段經(jīng)過(guò)壓縮和加密處理的js代碼類(lèi)似于這種：所以我們需要對(duì)代碼進(jìn)行處理,讓其格式化輸出短纵，操作之后如下：

這里我們就需要對(duì)這段JS做下修改，假設(shè)我們先把這段JS代碼存在了string sHtmlJs這個(gè)字符串變量里孕似，我們需要把eval這里執(zhí)行的結(jié)果提取出來(lái)踩娘，把eval替換成 return，
然后把整個(gè)代碼放到一個(gè)JS函數(shù)里喉祭，方式如下：解密后的代碼如下：

通過(guò)觀察代碼發(fā)現(xiàn)了一段：

顯而易見(jiàn)养渴，這個(gè)dc就是我們想要的cookie，執(zhí)行JS泛烙，讓函數(shù)返回DC就OK了理卑。我還發(fā)現(xiàn)了其中有一段

當(dāng)服務(wù)器發(fā)現(xiàn)瀏覽器的頭部是_phantom或者_(dá)_phantommas就讓瀏覽器進(jìn)行死循環(huán)，即阻止用selenium操控phantomjs來(lái)訪問(wèn)網(wǎng)頁(yè)蔽氨。
至此兩端加速樂(lè)cookie如下：這個(gè)破解方法很麻煩不建議用藐唠，所以我想出了第二種方法
第二種辦法就是通過(guò)selenium的webdriver模塊控制瀏覽器自動(dòng)訪問(wèn)網(wǎng)頁(yè)然后輸出瀏覽器頭部信息中的cookie，封裝在一個(gè)字典中鹉究，
將其通過(guò)requests中的jar模塊轉(zhuǎn)換成cookiejar放入下一次訪問(wèn)的request中就可以持續(xù)訪問(wèn)宇立，
因?yàn)閏ookie的時(shí)效大約一個(gè)小時(shí)左右。以下是處理自動(dòng)生成一個(gè)新的有效cookie的代碼:

切記自赔，放在requests中訪問(wèn)的headers信息一定要和你操控的瀏覽器headers信息一致妈嘹，因?yàn)榉?wù)器端也會(huì)檢查cookies與headers信息是否一致
最厲害的武功是融會(huì)貫通，那么最厲害的反爬策略也就是組合目前有的各種反爬手段绍妨，當(dāng)然也不是無(wú)法破解润脸，這就需要我們對(duì)各個(gè)反爬技術(shù)及原理都很清楚，
梳理清楚服務(wù)器的反爬邏輯他去，然后再見(jiàn)招拆招毙驯，就可以讓我們的爬蟲(chóng)無(wú)孔不入。

8灾测、轉(zhuǎn)換成圖片最?lèi)盒淖類(lèi)盒牡姆磁老x(chóng)爆价，把頁(yè)面全部轉(zhuǎn)換成圖片，你抓取到的內(nèi)容全部隱藏在圖片里。想提取內(nèi)容允坚，休想魂那。
解決辦法：圖像識(shí)別吧，但是感覺(jué)代價(jià)很大稠项。涯雅。。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末展运，一起剝皮案震驚了整個(gè)濱河市活逆，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌拗胜，老刑警劉巖蔗候，帶你破解...
沈念sama閱讀 217,734評(píng)論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異埂软，居然都是意外死亡锈遥，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,931評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)勘畔，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)所灸，“玉大人，你說(shuō)我怎么就攤上這事炫七∨懒ⅲ” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,133評(píng)論 0贊 354
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵万哪，是天一觀的道長(zhǎng)侠驯。經(jīng)常有香客問(wèn)我，道長(zhǎng)奕巍，這世上最難降的妖魔是什么吟策？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,532評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮的止，結(jié)果婚禮上踊挠，老公的妹妹穿的比我還像新娘。我一直安慰自己冲杀，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,585評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布睹酌。她就那樣靜靜地躺著权谁，像睡著了一般。火紅的嫁衣襯著肌膚如雪憋沿。梳的紋絲不亂的頭發(fā)上旺芽，一...
開(kāi)封第一講書(shū)人閱讀 51,462評(píng)論 1贊 302
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼采章。笑死运嗜，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的悯舟。我是一名探鬼主播担租，決...
沈念sama閱讀 40,262評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼抵怎！你這毒婦竟也來(lái)了奋救？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,153評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤反惕，失蹤者是張志新（化名）和其女友劉穎尝艘，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體姿染，經(jīng)...
沈念sama閱讀 45,587評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡背亥，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,792評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了悬赏。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片狡汉。...
茶點(diǎn)故事閱讀 39,919評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖舷嗡，靈堂內(nèi)的尸體忽然破棺而出轴猎，到底是詐尸還是另有隱情，我是刑警寧澤进萄，帶...
沈念sama閱讀 35,635評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布捻脖，位于F島的核電站，受9級(jí)特大地震影響中鼠，放射性物質(zhì)發(fā)生泄漏可婶。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,237評(píng)論 3贊 329
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一援雇、第九天我趴在偏房一處隱蔽的房頂上張望矛渴。院中可真熱鬧，春花似錦惫搏、人聲如沸具温。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,855評(píng)論 0贊 22
一樁弒父案筐赔，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)铣猩。三九已至，卻和暖如春茴丰，著一層夾襖步出監(jiān)牢的瞬間达皿，已是汗流浹背天吓。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,983評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留峦椰，地道東北人龄寞。一個(gè)月前我還...
沈念sama閱讀 48,048評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像汤功，于是被迫代替她去往敵國(guó)和親物邑。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,864評(píng)論 2贊 354

python 爬蟲(chóng)與反爬蟲(chóng)

推薦閱讀更多精彩內(nèi)容