簡單分布式爬蟲——第四彈:關(guān)于簡單分布式爬蟲的一點想法

在前面的三講
簡單分布式爬蟲——第一彈:了解分布式爬蟲結(jié)構(gòu)
簡單分布式爬蟲——第二彈:masterSpider的實現(xiàn)
簡單分布式爬蟲——第三彈:nodeSpider的實現(xiàn)
當(dāng)中私杜,我們從頭打造了一個簡單的主從分布式爬蟲运挫,在這里做個簡單的總結(jié)绽榛,為了清晰描述爬蟲流程关霸,借助于如下這張經(jīng)典的爬蟲框架圖:

爬蟲框架圖

上圖適用于常規(guī)的爬蟲,也適用于分布式爬蟲喻圃,區(qū)別在于是否有獨立的爬蟲調(diào)度器來協(xié)調(diào)后續(xù)各部分源梭。分布式爬蟲就是將爬蟲調(diào)度器獨立出來由一臺主機實現(xiàn)铺呵,而將具體爬取工作交由從機來完成,主機僅負責(zé)任務(wù)調(diào)度。
在第一講中我們探討過這種主從式爬蟲存在的缺陷:整個爬蟲性能受限于masterSpider婉弹,尤其是當(dāng)nodeSpider數(shù)量增多時睬魂。那么如何應(yīng)對這種缺陷?一個思路是我們最簡化masterSpider的工作量镀赌,將除了url管理之外的其他工作完全交由從機完成汉买,也就是從機需要完成url內(nèi)容獲取、解析以及數(shù)據(jù)保存佩脊。當(dāng)然這種方法并不能大幅提升爬蟲性能蛙粘,如果對爬蟲性能有更高要求就要考慮其他形式的爬蟲框架,不過威彰,對于一般來講出牧,這種框架也足夠應(yīng)對。
另外歇盼,這里的分布式爬蟲只是提供了一個最基本的雛形舔痕,在實際應(yīng)用上還可以加以擴展,比如現(xiàn)在很多網(wǎng)站都采取了反爬技術(shù)豹缀,其中一條就是限制一段時間內(nèi)IP訪問次數(shù)伯复,這種情況下常用的方法就是利用代理IP來爬取。那么我們就可以在這個框架的基礎(chǔ)上增加IP代理爬取邢笙,所有的代理都由masterSpider進行管理啸如,另開一個網(wǎng)絡(luò)隊列管理代理IP,nodeSpider從網(wǎng)絡(luò)隊列一方面獲取url另一方面獲取代理IP氮惯,利用代理來爬取網(wǎng)站叮雳,同時可以將代理IP的可用性反饋給masterSpider,由masterSpider進行代理IP的管理(去除無效代理等)妇汗。
豆瓣圖書api爬蟲是本人的一個練手項目帘不,給定書名利用豆瓣api進行圖書檢索,并保存圖書信息杨箭,由于api限定了每個IP的訪問頻次(100次/小時)寞焙,所以這里用到了代理IP進行爬取。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末互婿,一起剝皮案震驚了整個濱河市捣郊,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌擒悬,老刑警劉巖模她,帶你破解...
    沈念sama閱讀 218,451評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件稻艰,死亡現(xiàn)場離奇詭異懂牧,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評論 3 394
  • 文/潘曉璐 我一進店門僧凤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來畜侦,“玉大人,你說我怎么就攤上這事躯保⌒牛” “怎么了?”我有些...
    開封第一講書人閱讀 164,782評論 0 354
  • 文/不壞的土叔 我叫張陵途事,是天一觀的道長验懊。 經(jīng)常有香客問我,道長尸变,這世上最難降的妖魔是什么义图? 我笑而不...
    開封第一講書人閱讀 58,709評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮召烂,結(jié)果婚禮上碱工,老公的妹妹穿的比我還像新娘。我一直安慰自己奏夫,他們只是感情好怕篷,可當(dāng)我...
    茶點故事閱讀 67,733評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著酗昼,像睡著了一般廊谓。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上麻削,一...
    開封第一講書人閱讀 51,578評論 1 305
  • 那天蹂析,我揣著相機與錄音,去河邊找鬼碟婆。 笑死电抚,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的竖共。 我是一名探鬼主播蝙叛,決...
    沈念sama閱讀 40,320評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼公给!你這毒婦竟也來了借帘?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,241評論 0 276
  • 序言:老撾萬榮一對情侶失蹤淌铐,失蹤者是張志新(化名)和其女友劉穎肺然,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體腿准,經(jīng)...
    沈念sama閱讀 45,686評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡际起,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,878評論 3 336
  • 正文 我和宋清朗相戀三年拾碌,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片街望。...
    茶點故事閱讀 39,992評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡校翔,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出灾前,到底是詐尸還是另有隱情防症,我是刑警寧澤,帶...
    沈念sama閱讀 35,715評論 5 346
  • 正文 年R本政府宣布哎甲,位于F島的核電站蔫敲,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏炭玫。R本人自食惡果不足惜燕偶,卻給世界環(huán)境...
    茶點故事閱讀 41,336評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望础嫡。 院中可真熱鬧指么,春花似錦、人聲如沸榴鼎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽巫财。三九已至盗似,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間平项,已是汗流浹背赫舒。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留闽瓢,地道東北人接癌。 一個月前我還...
    沈念sama閱讀 48,173評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像扣讼,于是被迫代替她去往敵國和親缺猛。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,947評論 2 355