基于scrapy-redis的知乎分布式爬蟲1.0版本

這是第一次寫分布式爬蟲,所以寫得比較簡單璃吧,這次主要是利用上次知乎爬蟲的代碼,然后部署在兩臺機器上,一臺是本地的win7系統(tǒng)秒际,一臺是騰訊云的烏班圖系統(tǒng),在烏班圖系統(tǒng)上的代碼直接從github上拷過去就好了蹂空。這個爬蟲的部署比較簡單舰始,兩臺機器同時抓取,然后數(shù)據(jù)全部保存到烏班圖系統(tǒng)的mongodb數(shù)據(jù)庫峻堰,首先我們在seetings文件里面增加這幾句

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_URL = 'redis://root:myredis@124.107.126.72:6379'

第一句是啟動scrapy_redis的調(diào)度器讹开,不適用默認的,
第二句是啟用去重功能捐名,scrapy爬蟲里面利用yield生成器返回待訪問的URL旦万,將他們放進隊列,爬蟲會進去隊列領(lǐng)取URL進行爬取桐筏,啟用該功能后纸型,每個放進去的URL都會先經(jīng)過去重,里面爬取過的URL也會在redis數(shù)據(jù)庫里面貼上唯一的指紋梅忌,防止下次爬取一樣的URL狰腌,也就是為了以后進來新的URL進行去重。
第三句是鏈接烏班圖系統(tǒng)里面的redis數(shù)據(jù)牧氮,之前的鏈接指紋琼腔,返回的item數(shù)據(jù)都會自動儲存在該數(shù)據(jù)庫,當然必須啟動如圖這個pipline

Paste_Image.png

如果沒有啟動這個pipline踱葛,則redis只會保存請求指紋丹莲,請求信息等數(shù)據(jù),爬取的item是不會保存的尸诽,這樣也可以節(jié)省網(wǎng)絡(luò)流量甥材。

對于保存數(shù)據(jù)的pipline也要做相應(yīng)的修改,如圖

Paste_Image.png

把數(shù)據(jù)統(tǒng)一保存在騰訊云主機上性含,然后我們直接在主機洲赵,以及騰訊云服務(wù)器上運行代碼就好了。
總結(jié):scrapy-redis為我們使用分布式爬蟲提供了一個很好的調(diào)度器商蕴,把我們需要爬取的URL全部放進一個隊列叠萍,且實現(xiàn)去重,我們只要啟動不同主機的代碼绪商,然后共同鏈接到某一臺主機(宿主機)的redis數(shù)據(jù)庫就可以了苛谷,爬蟲會自動到隊列領(lǐng)取URL進行爬取,然后也會把新的URL放進去格郁。
最后上張結(jié)果圖

Paste_Image.png

也就不足幾分鐘的功夫腹殿,已經(jīng)成功爬取了5000+用戶的信息

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末独悴,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子赫蛇,更是在濱河造成了極大的恐慌绵患,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件悟耘,死亡現(xiàn)場離奇詭異落蝙,居然都是意外死亡,警方通過查閱死者的電腦和手機暂幼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進店門筏勒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人旺嬉,你說我怎么就攤上這事管行。” “怎么了邪媳?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵捐顷,是天一觀的道長。 經(jīng)常有香客問我雨效,道長迅涮,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任徽龟,我火速辦了婚禮叮姑,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘据悔。我一直安慰自己传透,他們只是感情好,可當我...
    茶點故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布极颓。 她就那樣靜靜地躺著朱盐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪菠隆。 梳的紋絲不亂的頭發(fā)上托享,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天,我揣著相機與錄音浸赫,去河邊找鬼。 笑死赃绊,一個胖子當著我的面吹牛既峡,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播碧查,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼运敢,長吁一口氣:“原來是場噩夢啊……” “哼校仑!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起传惠,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤迄沫,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后卦方,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體羊瘩,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年盼砍,在試婚紗的時候發(fā)現(xiàn)自己被綠了尘吗。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡浇坐,死狀恐怖睬捶,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情近刘,我是刑警寧澤擒贸,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站觉渴,受9級特大地震影響介劫,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜疆拘,卻給世界環(huán)境...
    茶點故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一蜕猫、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧哎迄,春花似錦回右、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至旨涝,卻和暖如春蹬屹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背白华。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工慨默, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人弧腥。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓厦取,卻偏偏與公主長得像,于是被迫代替她去往敵國和親管搪。 傳聞我的和親對象是個殘疾皇子虾攻,可洞房花燭夜當晚...
    茶點故事閱讀 44,700評論 2 354

推薦閱讀更多精彩內(nèi)容