如何保證爬蟲請求成功?(Python3.6)

這篇文章不算是什么經(jīng)驗分享,頂多是學習記錄吧~

------------------------- 歡迎各路大神批評 ----------------------------------


url-----> 請求url----->請求成功,這往往是最關鍵同時也是最耗時的步驟感凤。

爬蟲是分布式悯周、多線程粒督、多進程?爬蟲需要解析html禽翼、解析json屠橄?爬蟲抓取的數(shù)據(jù)是寫入數(shù)據(jù)庫、寫入本地的CSV闰挡、還是TXT锐墙。這些都必須是“請求成功”這個前提下進行的。

大部分課程講解的主要是這個東西:web_data = requests.get(url)

按照這個東西长酗,的確有部分網(wǎng)站你可以請求成功溪北。但是遇到復雜一點的網(wǎng)站,具有反爬機制的網(wǎng)站夺脾。這個往往是行不通的之拨。

代碼如下:

HTTP狀態(tài)碼(英文HTTP Status Code)

當瀏覽者訪問一個網(wǎng)頁時,瀏覽者的瀏覽器會向網(wǎng)頁所在服務器發(fā)出請求咧叭。當瀏覽器接收并顯示網(wǎng)頁前蚀乔,此網(wǎng)頁所在的服務器會返回一個包含HTTP狀態(tài)碼的信息頭(server header)用以響應瀏覽器的請求。


功能:

1.大規(guī)模抓取時候菲茬,一般需要在request中加入proxy吉挣。保證你的IP不會被封。

2.加入timeout婉弹、headers睬魂、cookies保證請求能順利進行。

3.當出現(xiàn)網(wǎng)絡原因或其他原因造成網(wǎng)站連接失敗镀赌,能夠重新請求氯哮。

4.當這次請求出現(xiàn)200、404佩脊、429蛙粘、503垫卤、403、或者其他狀態(tài)碼時候如何處理出牧。

5.每次請求之后穴肘,隨機sleep一段時間,盡量降低對網(wǎng)站服務器的影響舔痕。

6.加入try except评抚,判斷出現(xiàn)異常時如何處理。

說明:

1.429狀態(tài)碼是由于多進程并發(fā)請求造成的伯复,不處理的話慨代,多請求幾次就可以了。因此啸如,這部分僅僅是放在循環(huán)中侍匙,并沒有進行處理。

2.503狀態(tài)碼是對方服務器的原因叮雳,但是經(jīng)過測試發(fā)現(xiàn)想暗,同樣的request,多次請求之后還是可以轉(zhuǎn)向正確的200帘不。因此這部分也是放到循環(huán)中说莫,沒有進行處理。

3.404是請求的網(wǎng)址為空寞焙,這個經(jīng)過本人測試储狭,大部分網(wǎng)址雖然第一次返回404,但是多次請求還會出現(xiàn)200捣郊。因此多加入了一個判斷辽狈。

4.403是請求沒有被允許,因此需要單獨記錄這部分的url有哪些模她,以方便日后分析稻艰。



友情提示:在抓取對方網(wǎng)站之前,如果對方有robot.txt的話侈净,建議先瀏覽一下尊勿。23333333333

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市畜侦,隨后出現(xiàn)的幾起案子元扔,更是在濱河造成了極大的恐慌,老刑警劉巖旋膳,帶你破解...
    沈念sama閱讀 221,695評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件澎语,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機擅羞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評論 3 399
  • 文/潘曉璐 我一進店門尸变,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人减俏,你說我怎么就攤上這事召烂。” “怎么了娃承?”我有些...
    開封第一講書人閱讀 168,130評論 0 360
  • 文/不壞的土叔 我叫張陵奏夫,是天一觀的道長。 經(jīng)常有香客問我历筝,道長酗昼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,648評論 1 297
  • 正文 為了忘掉前任梳猪,我火速辦了婚禮麻削,結果婚禮上,老公的妹妹穿的比我還像新娘舔示。我一直安慰自己碟婆,他們只是感情好电抚,可當我...
    茶點故事閱讀 68,655評論 6 397
  • 文/花漫 我一把揭開白布惕稻。 她就那樣靜靜地躺著,像睡著了一般蝙叛。 火紅的嫁衣襯著肌膚如雪俺祠。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,268評論 1 309
  • 那天借帘,我揣著相機與錄音蜘渣,去河邊找鬼。 笑死肺然,一個胖子當著我的面吹牛蔫缸,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播际起,決...
    沈念sama閱讀 40,835評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼拾碌,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了街望?” 一聲冷哼從身側(cè)響起校翔,我...
    開封第一講書人閱讀 39,740評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎灾前,沒想到半個月后防症,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,286評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,375評論 3 340
  • 正文 我和宋清朗相戀三年蔫敲,在試婚紗的時候發(fā)現(xiàn)自己被綠了饲嗽。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,505評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡奈嘿,死狀恐怖喝噪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情指么,我是刑警寧澤酝惧,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站伯诬,受9級特大地震影響晚唇,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜盗似,卻給世界環(huán)境...
    茶點故事閱讀 41,873評論 3 333
  • 文/蒙蒙 一哩陕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧赫舒,春花似錦悍及、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至缺猛,卻和暖如春缨叫,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背荔燎。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評論 1 272
  • 我被黑心中介騙來泰國打工耻姥, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人有咨。 一個月前我還...
    沈念sama閱讀 48,921評論 3 376
  • 正文 我出身青樓琐簇,卻偏偏與公主長得像,于是被迫代替她去往敵國和親座享。 傳聞我的和親對象是個殘疾皇子婉商,可洞房花燭夜當晚...
    茶點故事閱讀 45,515評論 2 359

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn)征讲,斷路器据某,智...
    卡卡羅2017閱讀 134,702評論 18 139
  • 1 前言 作為一名合格的數(shù)據(jù)分析師,其完整的技術知識體系必須貫穿數(shù)據(jù)獲取诗箍、數(shù)據(jù)存儲癣籽、數(shù)據(jù)提取挽唉、數(shù)據(jù)分析、數(shù)據(jù)挖掘筷狼、...
    whenif閱讀 18,080評論 45 523
  • AJAX 原生js操作ajax 1.創(chuàng)建XMLHttpRequest對象 var xhr = new XMLHtt...
    碧玉含香閱讀 3,216評論 0 7
  • ……我把我唱給你聽瓶籽,我把我寫給你看…… 她是Y小姐,和我一起從小到大的好朋友埂材,因為遠嫁塑顺,不能經(jīng)常見面。親愛的俏险,我想...
    舒涵vivian閱讀 595評論 0 1
  • 從小就喜歡吃西瓜严拒,一勺子下去軟軟的果肉飽滿甜甜的汁水,是夏天最好的解暑飲料竖独。全家人一起吃西瓜裤唠、看電視,是夏夜最大的...
    路茫茫閱讀 272評論 1 0