一只優(yōu)雅的小爬蟲誕生記

爬蟲筋粗,幾家歡喜幾人愁策橘。爬者,拿到有利數(shù)據(jù)娜亿,分析行為丽已,產生價值。被爬者买决,一是損失數(shù)據(jù)沛婴,二是遇到不懷好意的爬蟲往往被全站復制或服務器受沖擊而無法服務。今天說的是一只友好的爬蟲是如何構建出來的督赤,請勿用它傷害他人嘁灯。

爬蟲一生所遇

俗話說,如果我比別人看得遠些,那是因為我站在巨人們的肩上躲舌。前人之鑒,后人之師丑婿。小爬蟲在胎教的時候就該傳授它的前輩參悟的人生經(jīng)驗,了解網(wǎng)絡的可怕之處孽糖】莞裕看看我提供的胎教課程:

  • 被爬網(wǎng)站偶然出現(xiàn)服務無法響應,需重試
  • 網(wǎng)站檢查某些header办悟,特別是referer這個參數(shù),請警惕
  • 訪問頻率限制滩褥,短時間單IP或者單帳號內往往有頻率限制病蛉。更高級的還可能用近段時間訪問頻率,時間段請求頻率來識別爬蟲行為。
  • 目標爬取網(wǎng)站需要登錄
  • 網(wǎng)站采用js運算產生最終頁面

小爬蟲身份成謎

爬蟲如此泛濫铺然,網(wǎng)站安能不防備俗孝,識別之,封禁之爬蟲就無可奈何了魄健。你問該如何做赋铝?我們從tcp/ip的角度來看,網(wǎng)站可以識別到ip地址沽瘦。那么如此說來革骨,網(wǎng)站封的很有可能就是ip地址。網(wǎng)絡上可是有代理服務器這種可怕東西存在的析恋,爬蟲依靠代理服務器偽裝身份良哲,一旦被封禁,換代理又可以愉快的玩耍了助隧。

代理服務器那里來筑凫?這種東西,用搜索引擎一搜索就有了并村。如果你想省時省力巍实,直接購買。然而在手頭拮據(jù)的時候哩牍,只能尋找一些免費的代理棚潦。一般來說每個網(wǎng)站都會提供一點點免費代理,我們只要勤快定時定后抓取入庫即可姐叁,集腋成仇瓦盛。

千萬不要相信代理服務器就是可用的,要定時檢查入庫的代理是否有用外潜,除了定時檢查之外原环,我們還可以借助squid,我們只要把代理往里面一丟处窥,爬蟲代理直接設置成squid的ip和端口嘱吗,這貨就會自動挑選可用代理來使用,省了自己定時檢測滔驾。

題外話:免費的往往是最貴的谒麦,特別ip,帶寬這種資源哆致。網(wǎng)上提供的代理往往會注入一些廣告js等東西绕德,這個自己想解決方案了。

一個堅持不懈的爬蟲

一只爬蟲的最高境界就是全自動化摊阀,無需人為干預耻蛇,不過這種事情想想即可踪蹬,不可能實現(xiàn)的。但是小爬蟲也有自己的修養(yǎng)的臣咖,最起碼在各種異常面前不能一次就退縮了吧跃捣,出錯重試多次是必須的,最重要的是出現(xiàn)異常進程不能中斷夺蛇,任務還是得接著完成的疚漆。

最簡單的方法是什么呢?在循環(huán)里面搞一個try catch刁赦,是不是完美呢娶聘?大伙來看看這個例子:

一個簡單粗暴的方式

然而這樣子寫是不道德,最重要的還不夠優(yōu)雅截型,所以再看看下面這個例子:

優(yōu)雅的錯誤處理

應該分別抓取各種錯誤來分別處理趴荸,因為各種出錯的應對策略是不一樣的。

小爬蟲也需要團隊作戰(zhàn)

假如說宦焦,某一天爬蟲接到任務发钝,一天之內要爬取100萬個網(wǎng)頁。假設一個網(wǎng)頁需要10秒波闹,單進程單線程的爬蟲是沒法實現(xiàn)的酝豪。這個時候我們可以利用下面幾個方案:

  • 多線程(然而對于python來說有GIL問題,所以優(yōu)勢不明顯)
  • 多進程精堕,一旦使用多進程就需要解決任務分配問題孵淘,和進程管理問題,這個時候我們可以使用消息中間件來分配任務歹篓,簡簡單單上一個redis隊列瘫证,問題就迎刃而解了。
  • 爬蟲集群庄撮,任務分配依舊可以使用消息中間件背捌,而部署我們可以使用偉大的docker,環(huán)境都無需配置了洞斯。

爬蟲與瀏覽器的愛恨情愁

有很多網(wǎng)站呢毡庆,要么登錄的時候需要提交一些js計算后的值。有些數(shù)據(jù)還要js處理生成烙如,如果我們的爬蟲要模擬js來運算么抗,還得針對每一個網(wǎng)站進行處理,這可一點都不優(yōu)雅亚铁。

那么咋辦呢蝇刀?最簡單的方案是,既然我們的瀏覽器能渲染徘溢,那么我們就去調用瀏覽器來拿到最終頁面嘛熊泵,平時那些稀奇古怪的交互也一并解決了仰迁。對于python來說甸昏,調用瀏覽器一點難度都沒有顽分,因為有神器selenium。

selenium可以很方便的使用python與谷歌呀火狐呀PhantomJS等這些瀏覽器交互施蜜,缺點是只是模擬了GET請求卒蘸,也許你會說不是可以執(zhí)行ajax,聽我一句勸翻默,你會被跨域請求坑住的缸沃。為了實現(xiàn)其它請求請再上一個庫selenium-requests,然而這庫的使用方法請查考requests修械,文檔這樣子也是無奈趾牧。

小爬蟲優(yōu)雅架構

優(yōu)雅的小爬蟲架構圖

爬蟲與反爬蟲的較量是長久的,爬取過程千萬要注意抓取頁面異常的情況肯污,觸發(fā)反爬蟲預警達到一定次數(shù)翘单,帳號或者IP就會被凍結。模擬登陸驗證碼識別可以借助第三方平臺蹦渣,起碼比自己寫的驗證碼識別高效得多哄芜。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市柬唯,隨后出現(xiàn)的幾起案子认臊,更是在濱河造成了極大的恐慌,老刑警劉巖锄奢,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件失晴,死亡現(xiàn)場離奇詭異,居然都是意外死亡拘央,警方通過查閱死者的電腦和手機涂屁,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來堪滨,“玉大人胯陋,你說我怎么就攤上這事「は洌” “怎么了遏乔?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長发笔。 經(jīng)常有香客問我盟萨,道長,這世上最難降的妖魔是什么了讨? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任捻激,我火速辦了婚禮制轰,結果婚禮上,老公的妹妹穿的比我還像新娘胞谭。我一直安慰自己垃杖,他們只是感情好,可當我...
    茶點故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布丈屹。 她就那樣靜靜地躺著调俘,像睡著了一般。 火紅的嫁衣襯著肌膚如雪旺垒。 梳的紋絲不亂的頭發(fā)上彩库,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天,我揣著相機與錄音先蒋,去河邊找鬼骇钦。 笑死,一個胖子當著我的面吹牛竞漾,可吹牛的內容都是我干的眯搭。 我是一名探鬼主播,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼畴蹭,長吁一口氣:“原來是場噩夢啊……” “哼坦仍!你這毒婦竟也來了?” 一聲冷哼從身側響起叨襟,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤繁扎,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后糊闽,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體梳玫,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年右犹,在試婚紗的時候發(fā)現(xiàn)自己被綠了提澎。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,841評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡念链,死狀恐怖盼忌,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情掂墓,我是刑警寧澤谦纱,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站君编,受9級特大地震影響跨嘉,放射性物質發(fā)生泄漏。R本人自食惡果不足惜吃嘿,卻給世界環(huán)境...
    茶點故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一祠乃、第九天 我趴在偏房一處隱蔽的房頂上張望梦重。 院中可真熱鬧,春花似錦亮瓷、人聲如沸琴拧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽艾蓝。三九已至,卻和暖如春斗塘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背亮靴。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工馍盟, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人茧吊。 一個月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓贞岭,卻偏偏與公主長得像,于是被迫代替她去往敵國和親搓侄。 傳聞我的和親對象是個殘疾皇子瞄桨,可洞房花燭夜當晚...
    茶點故事閱讀 44,781評論 2 354

推薦閱讀更多精彩內容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,114評論 25 707
  • Vector繼承自Vector,Stack是棧讶踪。它的特性是:先進后出(FILO, First In Last Ou...
    MrLuo閱讀 154評論 0 0
  • 生活是什么也許是滿身的疲憊是無盡的等待或許又是對成功的渴望我們不知道什么時候才能長大不知道什么時候才會熬過又苦又累...
    過往不戀吧閱讀 111評論 0 1
  • 最近嘗試了件新鮮事兒——作一名演講俱樂部活動主持人芯侥。因為前期對主持沒什么概念和經(jīng)驗,嘗試三次后乳讥,很有些感觸柱查。于是總...
    袁春楠閱讀 923評論 3 17