Python異步爬蟲(chóng)試驗(yàn)[Celery,gevent,requests]

以往爬蟲(chóng)都是用自己寫(xiě)的一個(gè)爬蟲(chóng)框架,一群Workers去Master那領(lǐng)取任務(wù)后開(kāi)始爬。進(jìn)程數(shù)量等于處理器核心數(shù),通過(guò)增開(kāi)線程數(shù)提高爬取速度抬伺。
最近看了Celery,接口真是優(yōu)美灾梦,挺想試驗(yàn)下異步模型來(lái)寫(xiě)個(gè)爬蟲(chóng)峡钓。

模擬目標(biāo)

為了方便測(cè)試,用Tornado搭了一個(gè)簡(jiǎn)易的服務(wù)器若河,用來(lái)模擬被爬的網(wǎng)站能岩。
功能很簡(jiǎn)單,每個(gè)請(qǐng)求阻塞6秒才回復(fù)

import tornado.web
import tornado.ioloop
import time
from concurrent.futures import ThreadPoolExecutor
from tornado.concurrent import run_on_executor
import tornado.gen

class MainHandler(tornado.web.RequestHandler):
    executor = ThreadPoolExecutor(40)

    @tornado.web.asynchronous
    @tornado.gen.coroutine
    def get(self):
        print(time.asctime())
        yield self.sleep(6)
        self.write('from server:' + time.asctime())
        self.finish()

    @run_on_executor
    def sleep(self, sec):
        time.sleep(sec)


if __name__ == '__main__':
    app = tornado.web.Application(handlers=[
        ('^/.*', MainHandler)
    ])
    app.listen(10240)
    tornado.ioloop.IOLoop.instance().start()

消費(fèi)者

task里就一個(gè)spider函數(shù)萧福,功能是利用gevent去請(qǐng)求給定的目標(biāo)

import gevent.monkey
gevent.monkey.patch_socket()

from celery import Celery
import socket
import requests
import gevent

app = Celery('tasks',
             broker='redis://127.0.0.1:6379/3',
             backend='redis://127.0.0.1:6379/3')
@app.task
def spider(url):
    resp = gevent.spawn(requests.get, url)
    tmp = 0
    while True:
        print('wait...', tmp)
        if resp.ready():
            return 'from:' + socket.getfqdn() + '\nres:' + str(resp.value.text)
        gevent.sleep(1)
        tmp += 1

用gevent模式啟動(dòng)Celery

celery worker -A tasks --loglevel info -c 100 -P gevent

生產(chǎn)者

利用剛剛編寫(xiě)的spider函數(shù)去爬取目標(biāo)
測(cè)試中拉鹃,下面代碼開(kāi)了6個(gè)進(jìn)程,結(jié)果均在7秒內(nèi)返回,證明成功了膏燕。

from tasks import spider
import time
import random

res = spider.delay('http://127.0.0.1:10240/{}'.format(random.randint(1, 999)))
i = 0
while True:
    if res.ready():
        print('res:', res.get())
        break
    else:
        print('wait...', i)
    time.sleep(1)
    i += 1

Celery的部分日志輸出:
可以看出在一個(gè)Celery進(jìn)程內(nèi)炭庙,多個(gè)spider函數(shù)輪替執(zhí)行的

[2016-08-20 21:27:11,281: INFO/MainProcess] Starting new HTTP connection (1): 127.0.0.1
[2016-08-20 21:27:11,313: INFO/MainProcess] Received task: tasks.spider[7b8b6f63-2bef-491e-a3a8-fdbcff824b9c]
[2016-08-20 21:27:11,314: WARNING/MainProcess] wait...
[2016-08-20 21:27:11,314: WARNING/MainProcess] 0
[2016-08-20 21:27:11,316: INFO/MainProcess] Starting new HTTP connection (1): 127.0.0.1
[2016-08-20 21:27:11,354: INFO/MainProcess] Received task: tasks.spider[5aa05e65-504d-4a04-8247-3f5708bfa46f]
[2016-08-20 21:27:11,356: WARNING/MainProcess] wait...
[2016-08-20 21:27:11,356: WARNING/MainProcess] 0
[2016-08-20 21:27:11,357: INFO/MainProcess] Starting new HTTP connection (1): 127.0.0.1
[2016-08-20 21:27:11,821: WARNING/MainProcess] wait...
[2016-08-20 21:27:11,821: WARNING/MainProcess] 1
[2016-08-20 21:27:11,989: WARNING/MainProcess] wait...
[2016-08-20 21:27:11,990: WARNING/MainProcess] 1
[2016-08-20 21:27:12,059: WARNING/MainProcess] wait...
[2016-08-20 21:27:12,059: WARNING/MainProcess] 2
[2016-08-20 21:27:12,208: WARNING/MainProcess] wait...
[2016-08-20 21:27:12,209: WARNING/MainProcess] 1
[2016-08-20 21:27:12,225: WARNING/MainProcess] wait...
[2016-08-20 21:27:12,225: WARNING/MainProcess] 1
[2016-08-20 21:27:12,246: WARNING/MainProcess] wait...
[2016-08-20 21:27:12,247: WARNING/MainProcess] 2
[2016-08-20 21:27:12,282: WARNING/MainProcess] wait...
[2016-08-20 21:27:12,282: WARNING/MainProcess] 1
[2016-08-20 21:27:12,316: WARNING/MainProcess] wait...
[2016-08-20 21:27:12,316: WARNING/MainProcess] 1
[2016-08-20 21:27:12,357: WARNING/MainProcess] wait...
[2016-08-20 21:27:12,357: WARNING/MainProcess] 1
[2016-08-20 21:27:12,823: WARNING/MainProcess] wait...
[2016-08-20 21:27:12,823: WARNING/MainProcess] 2
[2016-08-20 21:27:12,991: WARNING/MainProcess] wait...
[2016-08-20 21:27:12,992: WARNING/MainProcess] 2
[2016-08-20 21:27:13,061: WARNING/MainProcess] wait...
[2016-08-20 21:27:13,061: WARNING/MainProcess] 3
[2016-08-20 21:27:13,210: WARNING/MainProcess] wait...
[2016-08-20 21:27:13,211: WARNING/MainProcess] 2
[2016-08-20 21:27:13,227: WARNING/MainProcess] wait...
[2016-08-20 21:27:13,227: WARNING/MainProcess] 2

最后

借助Celery,爬蟲(chóng)很容易實(shí)現(xiàn)橫向擴(kuò)展煌寇,在多臺(tái)服務(wù)器上增加消費(fèi)者進(jìn)程即可;
借助gevent逾雄,單進(jìn)程內(nèi)requests做到了非阻塞阀溶,而我過(guò)去是用多線程對(duì)付阻塞的。
Celery鸦泳,gevent我也是初學(xué)一天银锻,這小玩意兒做出來(lái)后,得開(kāi)始看文檔了深入了解了做鹰!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末击纬,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子钾麸,更是在濱河造成了極大的恐慌更振,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,651評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件饭尝,死亡現(xiàn)場(chǎng)離奇詭異肯腕,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)钥平,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)实撒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人涉瘾,你說(shuō)我怎么就攤上這事知态。” “怎么了立叛?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,931評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵负敏,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我囚巴,道長(zhǎng)原在,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,218評(píng)論 1 292
  • 正文 為了忘掉前任彤叉,我火速辦了婚禮庶柿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘秽浇。我一直安慰自己浮庐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著审残,像睡著了一般梭域。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上搅轿,一...
    開(kāi)封第一講書(shū)人閱讀 51,198評(píng)論 1 299
  • 那天病涨,我揣著相機(jī)與錄音,去河邊找鬼璧坟。 笑死既穆,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的雀鹃。 我是一名探鬼主播幻工,決...
    沈念sama閱讀 40,084評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼黎茎!你這毒婦竟也來(lái)了囊颅?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,926評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤傅瞻,失蹤者是張志新(化名)和其女友劉穎踢代,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體俭正,經(jīng)...
    沈念sama閱讀 45,341評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡奸鬓,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了掸读。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片串远。...
    茶點(diǎn)故事閱讀 39,731評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖儿惫,靈堂內(nèi)的尸體忽然破棺而出澡罚,到底是詐尸還是另有隱情,我是刑警寧澤肾请,帶...
    沈念sama閱讀 35,430評(píng)論 5 343
  • 正文 年R本政府宣布留搔,位于F島的核電站,受9級(jí)特大地震影響铛铁,放射性物質(zhì)發(fā)生泄漏隔显。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評(píng)論 3 326
  • 文/蒙蒙 一饵逐、第九天 我趴在偏房一處隱蔽的房頂上張望括眠。 院中可真熱鬧,春花似錦倍权、人聲如沸掷豺。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,676評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)当船。三九已至题画,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間德频,已是汗流浹背苍息。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,829評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留壹置,地道東北人档叔。 一個(gè)月前我還...
    沈念sama閱讀 47,743評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像蒸绩,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子铃肯,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容