最簡(jiǎn)便的爬蟲效率提升方法

文/wangmengcn
發(fā)現(xiàn)放在騰訊云主機(jī)上通過(guò)crontab定時(shí)執(zhí)行用以爬去斗魚分類頁(yè)面數(shù)據(jù)的爬蟲在執(zhí)行的時(shí)候速度特別慢,于是想通過(guò)多線程來(lái)提高效率齐唆。打開(kāi)瀏覽器,鍵入關(guān)鍵字“python 多線程”箍邮,發(fā)現(xiàn)大多數(shù)內(nèi)容都是使用threading茉帅、Queue這些看起來(lái)很笨重的實(shí)例。不過(guò)直到multiprocessing.dummy出現(xiàn)在眼前之后锭弊,一切都變得辣么簡(jiǎn)單堪澎。

multiprocessing.dummy 大殺器

multiprocessing.dummy 是multiprocessing的一個(gè)子庫(kù),二者的不同之處就是前者應(yīng)用于線程后者主要應(yīng)用于進(jìn)程味滞,而它們實(shí)現(xiàn)并行化操作的關(guān)鍵則是map()函數(shù)樱蛤。以我的兩段代碼為例:

def insert_info():
     ''' 
    通過(guò)遍歷游戲分類頁(yè)面獲取所有直播間
     ''' 
    session = requests.session() 
    pagecontent = session.
    get(Directory_url).text pagesoup = BeautifulSoup(pagecontent)     
    games = pagesoup.select('a') 
    col.drop() 
    for 
          game in games: 
          links = game["href"] 
          Qurystr = "/?page=1&isAjax=1" 
          gameurl = HOST + links + Qurystr 
          gamedata = session.get(gameurl).text 
          flag = get_roominfo(gamedata) 
     aggregateData()

上邊這段是之前運(yùn)行在云主機(jī)速度真的跟爬似的代碼,通過(guò)Directory_url這個(gè)地址剑鞍,獲取到頁(yè)面中所有的標(biāo)簽昨凡,并獲取到它們的'href',再逐條獲取每個(gè)鏈接中的內(nèi)容蚁署,獲取想要的東西便脊,最終完成入庫(kù)工作。所有的一切都看似按部就班哈光戈。在我的筆記本上做測(cè)試哪痰,完成所有2032條數(shù)據(jù)的爬取共耗時(shí)140.5s(好特么慢=。=)久妆。
但是在加入multiprocessing.dummy之后晌杰,真的是有飛一般的感覺(jué):

from multiprocessing.dummy import Pool

pool = Pool()

def insert_info(): 
    ''' 
    通過(guò)遍歷游戲分類頁(yè)面獲取所有直播間 
    ''' 
    session = requests.session() 
    pagecontent = session.get(Directory_url).text 
    pagesoup = BeautifulSoup(pagecontent) 
    games = pagesoup.select('a') 
    gameurl = [HOST + url["href"] + "/?page=1&isAjax=1" for url in games] 
    col.drop() 
    g = lambda link: session.get(link).text 
    gamedata = pool.map(g, gameurl) 
    ginfo = lambda data: get_roominfo(data) 
    pool.map(ginfo, gamedata) 
    aggregateData()

同樣通過(guò)Directory_url這一地址獲取頁(yè)面中所有標(biāo)簽,然后通過(guò)pool.map(g, gameurl)完成'href'值的獲取筷弦,最后再用一次pool.map(ginfo,gamedata)完成所有頁(yè)面內(nèi)容的提取和入庫(kù)肋演。再一次測(cè)試,只需要33.1s即可完成。
所以說(shuō)惋啃,如果你的爬蟲也要處理類似的過(guò)程哼鬓,不妨嘗試一下multiprocessing。
更多詳細(xì)信息可以參考官方文檔边灭。

今年第六屆大會(huì)PyConChina2016异希,由PyChina.org發(fā)起,CPyUG/TopGeek 等社區(qū)協(xié)辦绒瘦,將在2016年9月10日(上海)9月23日(深圳)10月15日(北京)地舉辦的針對(duì)Python開(kāi)發(fā)者所舉辦的最盛大和權(quán)威的Python相關(guān)技術(shù)會(huì)議称簿,由PyChina社區(qū)主辦,致力于推動(dòng)各類Python相關(guān)的技術(shù)在互聯(lián)網(wǎng)惰帽、企業(yè)應(yīng)用等領(lǐng)域的研發(fā)和應(yīng)用憨降。

您可以點(diǎn)擊此處
了解更多詳情,或者掃描下圖二維碼:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末该酗,一起剝皮案震驚了整個(gè)濱河市授药,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌呜魄,老刑警劉巖悔叽,帶你破解...
    沈念sama閱讀 217,734評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異爵嗅,居然都是意外死亡娇澎,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門睹晒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人戚啥,你說(shuō)我怎么就攤上這事锉试。” “怎么了键痛?”我有些...
    開(kāi)封第一講書人閱讀 164,133評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵絮短,是天一觀的道長(zhǎng)丁频。 經(jīng)常有香客問(wèn)我,道長(zhǎng)叔磷,這世上最難降的妖魔是什么奖磁? 我笑而不...
    開(kāi)封第一講書人閱讀 58,532評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮秕狰,結(jié)果婚禮上躁染,老公的妹妹穿的比我還像新娘。我一直安慰自己我衬,他們只是感情好饰恕,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布懂盐。 她就那樣靜靜地躺著,像睡著了一般莉恼。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上尿背,一...
    開(kāi)封第一講書人閱讀 51,462評(píng)論 1 302
  • 那天田藐,我揣著相機(jī)與錄音吱七,去河邊找鬼。 笑死踊餐,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的三痰。 我是一名探鬼主播,決...
    沈念sama閱讀 40,262評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼稚机,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼获搏!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起颜凯,我...
    開(kāi)封第一講書人閱讀 39,153評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤症概,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后诅蝶,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,587評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡调炬,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評(píng)論 3 336
  • 正文 我和宋清朗相戀三年缰泡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了棘钞。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片干毅。...
    茶點(diǎn)故事閱讀 39,919評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖姨拥,靈堂內(nèi)的尸體忽然破棺而出渠鸽,到底是詐尸還是另有隱情,我是刑警寧澤徽缚,帶...
    沈念sama閱讀 35,635評(píng)論 5 345
  • 正文 年R本政府宣布猎拨,位于F島的核電站,受9級(jí)特大地震影響红省,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜虾啦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評(píng)論 3 329
  • 文/蒙蒙 一痕寓、第九天 我趴在偏房一處隱蔽的房頂上張望傲醉。 院中可真熱鬧硬毕,春花似錦、人聲如沸吐咳。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,855評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)沪羔。三九已至象浑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間融柬,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,983評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工越除, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留外盯,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,048評(píng)論 3 370
  • 正文 我出身青樓孩擂,卻偏偏與公主長(zhǎng)得像箱熬,于是被迫代替她去往敵國(guó)和親狈邑。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蚤认,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 昨晚發(fā)現(xiàn)放在騰訊云主機(jī)上通過(guò)crontab定時(shí)執(zhí)行用以爬去斗魚分類頁(yè)面數(shù)據(jù)的爬蟲在執(zhí)行的時(shí)候速度特別慢蘸嘶,于是想通過(guò)...
    wangmengcn閱讀 7,305評(píng)論 5 32
  • 個(gè)人筆記陪汽,方便自己查閱使用 Py.LangSpec.Contents Refs Built-in Closure ...
    freenik閱讀 67,704評(píng)論 0 5
  • 受益于在此的討論:http://stackoverflow.com/questions/2846653/how-t...
    manofmountain閱讀 771評(píng)論 0 1
  • Spring Cloud為開(kāi)發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見(jiàn)模式的工具(例如配置管理况增,服務(wù)發(fā)現(xiàn),斷路器巡通,智...
    卡卡羅2017閱讀 134,656評(píng)論 18 139
  • 讀完這本書明白現(xiàn)在社會(huì)已經(jīng)進(jìn)入了一個(gè)完全的經(jīng)濟(jì)華的社會(huì)舍哄,因此細(xì)節(jié)很重要,特別是我這些做銷售的遍地都是弥锄,然而做服裝銷...
    王秀君閱讀 309評(píng)論 0 0