實(shí)戰(zhàn):簡書爬取之多線程爬取(二)速度提升何止10倍

一豁跑、程序結(jié)構(gòu)

既然要使用多線程,那么關(guān)于多線程的使用的模型我們也要了解一下泻云。

許多新手在寫多線程的代碼時(shí)總是喜歡把代碼一股腦全部塞在一個(gè)類中艇拍。

這樣的寫法其實(shí)是對多線程的錯(cuò)誤使用

首先就程序設(shè)計(jì)來說狐蜕,這樣不符合模塊化的設(shè)計(jì)

其次就是這樣的代碼往往會(huì)有很嚴(yán)重的競爭問題,需要很多的資源鎖來保證線程安全卸夕,這樣就拉低了程序執(zhí)行的速度层释。

實(shí)際上,多線程往往是和生產(chǎn)—消費(fèi)模型掛鉤的快集,以我們的簡書文章信息爬蟲為例贡羔,它的多線程結(jié)構(gòu)示意圖如下:

對于這個(gè)結(jié)構(gòu),第一個(gè)線程池里是生產(chǎn) uid的線程个初,這些線程把生產(chǎn)出來的線程放入 uids queue隊(duì)列中乖寒。

第二個(gè)線程池里的線程就通過 uids queue來獲取 uid,他們就是 uid producer的消費(fèi)者院溺。

同時(shí)楣嘁,他們也是 data的生產(chǎn)者。

第二個(gè)線程池與第三個(gè)線程池的交互和前面兩個(gè)線程池的交互類似珍逸,如下圖:

中間的 uids queue是一個(gè)先入先出而且線程安全的隊(duì)列逐虚。

使用生產(chǎn)—消費(fèi)者模型后,我們還需要的就是一個(gè)線程安全的 FIFO隊(duì)列谆膳,和恰當(dāng)?shù)纳a(chǎn)者與消費(fèi)者比例(以生產(chǎn)者的產(chǎn)出剛好被消費(fèi)者消費(fèi)完為最佳)

二痊班、代碼實(shí)現(xiàn)

首先我們先把原來的模塊封裝到一個(gè)單獨(dú)的文件里去,這樣更加方便調(diào)用

文件 GitHub:jianshu_models.py

文件里面我們需要用到的有:

  • simplifiedCsv 類摹量,將數(shù)據(jù)寫入文件
  • userUidsGenerator userUid生成器
  • getArticleInfo 獲取文章信息

然后就是我們的生產(chǎn)者和消費(fèi)者類:

這里我們使用 python自帶的 queue模塊里的 Queue隊(duì)列

Queue隊(duì)列有 put和 get兩個(gè)方法,這兩個(gè)方法都接受一個(gè)整數(shù)作為最大隊(duì)列長度馒胆。

當(dāng)隊(duì)列長度達(dá)到最大隊(duì)列長度時(shí)缨称,put方法就會(huì)阻塞,直到隊(duì)列長度再次小于最大隊(duì)列長度祝迂。

按從左到右的順序睦尽,第一個(gè)類是 uid生產(chǎn)線程類:

class UidGenerateThread(threading.Thread):
    def __init__(self, uid_queue):
        threading.Thread.__init__(self)
        self.uid_queue = uid_queue

    def run(self):
        start_users = [{'uid': 'a3ea268aeb60', 'follow_num': 525, 'fans_num': 2521, 'article_num': 118}]
        user_generator = jianshu_models.userUidsGenerator(start_users)
        while True:
            user = user_generator.__next__()
            self.uid_queue.put(user)

UidGenerateThread類接受一個(gè) uid_queue隊(duì)列作為初始化參數(shù)。

在 run方法中型雳,我們先獲取一個(gè) uid生成器当凡,然后無限調(diào)用生成器的 __next__()方法,并將獲得的結(jié)果通過 uid_queue的 put方法放到 uid_queue隊(duì)列里去纠俭。

第二個(gè)類是沿量,uid消費(fèi)者類同時(shí)也是 data生產(chǎn)者類:

class DataCollectorThread(threading.Thread):
    def __init__(self, uid_queue, data_queue):
        threading.Thread.__init__(self)
        self.uid_queue = uid_queue
        self.data_queue = data_queue

    def run(self):
        while True:
            user = self.uid_queue.get()
            datas = jianshu_models.getArticleInfo(user)
            self.data_queue.put(datas)

DataCollectorThread類接受兩個(gè)隊(duì)列 uid_queue和 data_queue作為初始化參數(shù)。

run方法里冤荆,我們先通過 uid_queue的 get方法獲取 userUid朴则,然后把返回結(jié)果作為參數(shù)傳遞給 getArticleInfo來獲取對應(yīng)用戶的文章信息。

獲取到文章信息后钓简,我們再把文章信息放到 data_queue里

第三個(gè)類是 data消費(fèi)者類乌妒,作用是將 data寫入 csv文件:

class DataWriterThread(threading.Thread):
    def __init__(self, data_queue):
        threading.Thread.__init__(self)
        self.data_queue = data_queue
        self.writer = jianshu_models.simplifiedCsv(f'test/{self.name}.txt')

    def run(self):
        while True:
            data_list = self.data_queue.get()
            self.writer.writerows(data_list)

與上面兩個(gè)類相似汹想,DataWriterThread類也接受一個(gè) data_queue作為初始化參數(shù)。

在 run方法中不斷從 adta_queue里取出數(shù)據(jù)寫入到文件里撤蚊。

這里為了避免使用資源鎖古掏,我們讓每個(gè)線程都有一個(gè) simplifiedCsv類,將數(shù)據(jù)寫入不同的文件中侦啸。

當(dāng)爬取完成后再將數(shù)據(jù)整合到一個(gè)文件中去槽唾。

根據(jù)不同線程的生產(chǎn)和消費(fèi)能力,在程序中我們使用 1個(gè) uid生產(chǎn)線程(而且只能使用一個(gè))匹中,10個(gè)DataCollectorThread和 10個(gè)DataWriterThread夏漱。

并且設(shè)置 uid_queue的長度為 100,data_queue的長度為 50.

threads = []
uid_queue = queue.Queue(100)
data_queue = queue.Queue(50)
t1 = UidGenerateThread(uid_queue)
threads.append(t1)

for i in range(10):
    t1 = DataWriterThread(data_queue)
    t2 = DataCollectorThread(uid_queue, data_queue)
    threads.append(t1)
    threads.append(t2)

for t in threads:
    t.start()

for t in threads:
    t.join()

運(yùn)行十分鐘看看:

十分鐘爬取了 72920條數(shù)據(jù)顶捷,再看看單線程的:

單線程十分鐘爬取了 7823條挂绰。

多線程是單線程的 9倍多一點(diǎn),不過如果我們增加 DataCollectorThread和
DataWriterThread的數(shù)量服赎,速度還可以更快葵蒂。

當(dāng) cpu的利用率達(dá)到 80%時(shí)可以達(dá)到 30倍的速度。

這次代碼版本為:v2.0

代碼在 GitHub上的鏈接:project_mulitiple_threads_version

大家可能覺得現(xiàn)在已經(jīng)很快了重虑,但這還不是最快的方式践付,比多線程更快更節(jié)省資源的是------>協(xié)程,也被稱作異步

下一篇就讓我們來講一講異步

覺得我寫的不錯(cuò)的話缺厉,記得關(guān)注永高、點(diǎn)贊、評論(提针。???)ノ

上一篇:實(shí)戰(zhàn):爬取簡書之多線程爬让馈(一)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市辐脖,隨后出現(xiàn)的幾起案子饲宛,更是在濱河造成了極大的恐慌,老刑警劉巖嗜价,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件艇抠,死亡現(xiàn)場離奇詭異,居然都是意外死亡久锥,警方通過查閱死者的電腦和手機(jī)家淤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瑟由,“玉大人媒鼓,你說我怎么就攤上這事。” “怎么了绿鸣?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵疚沐,是天一觀的道長。 經(jīng)常有香客問我潮模,道長亮蛔,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任擎厢,我火速辦了婚禮究流,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘动遭。我一直安慰自己芬探,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布厘惦。 她就那樣靜靜地躺著偷仿,像睡著了一般。 火紅的嫁衣襯著肌膚如雪宵蕉。 梳的紋絲不亂的頭發(fā)上酝静,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天,我揣著相機(jī)與錄音羡玛,去河邊找鬼别智。 笑死,一個(gè)胖子當(dāng)著我的面吹牛稼稿,可吹牛的內(nèi)容都是我干的薄榛。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼让歼,長吁一口氣:“原來是場噩夢啊……” “哼敞恋!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起是越,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎碌上,沒想到半個(gè)月后倚评,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡馏予,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年天梧,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片霞丧。...
    茶點(diǎn)故事閱讀 40,488評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡呢岗,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情后豫,我是刑警寧澤悉尾,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站挫酿,受9級特大地震影響构眯,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜早龟,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一惫霸、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧葱弟,春花似錦壹店、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至妖混,卻和暖如春老赤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背制市。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工抬旺, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人祥楣。 一個(gè)月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓开财,卻偏偏與公主長得像,于是被迫代替她去往敵國和親误褪。 傳聞我的和親對象是個(gè)殘疾皇子责鳍,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 1.ios高性能編程 (1).內(nèi)層 最小的內(nèi)層平均值和峰值(2).耗電量 高效的算法和數(shù)據(jù)結(jié)構(gòu)(3).初始化時(shí)...
    歐辰_OSR閱讀 29,410評論 8 265
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)兽间,斷路器历葛,智...
    卡卡羅2017閱讀 134,696評論 18 139
  • Swift1> Swift和OC的區(qū)別1.1> Swift沒有地址/指針的概念1.2> 泛型1.3> 類型嚴(yán)謹(jǐn) 對...
    cosWriter閱讀 11,111評論 1 32
  • http://liuxing.info/2017/06/30/Spring%20AMQP%E4%B8%AD%E6%...
    sherlock_6981閱讀 15,940評論 2 11
  • 如何實(shí)現(xiàn)如圖中Loading動(dòng)畫?需要用到SX軸縮放嘀略、復(fù)制子層動(dòng)畫等動(dòng)畫原理CATransform3DCATran...
    HuberyQing閱讀 330評論 0 0