實(shí)戰(zhàn)：簡書爬取之多線程爬取（二）速度提升何止10倍

一豁跑、程序結(jié)構(gòu)

既然要使用多線程，那么關(guān)于多線程的使用的模型我們也要了解一下泻云。

許多新手在寫多線程的代碼時(shí)總是喜歡把代碼一股腦全部塞在一個(gè)類中艇拍。

這樣的寫法其實(shí)是對多線程的錯(cuò)誤使用

首先就程序設(shè)計(jì)來說狐蜕，這樣不符合模塊化的設(shè)計(jì)

其次就是這樣的代碼往往會(huì)有很嚴(yán)重的競爭問題，需要很多的資源鎖來保證線程安全卸夕，這樣就拉低了程序執(zhí)行的速度层释。

實(shí)際上，多線程往往是和生產(chǎn)—消費(fèi)模型掛鉤的快集，以我們的簡書文章信息爬蟲為例贡羔，它的多線程結(jié)構(gòu)示意圖如下：

對于這個(gè)結(jié)構(gòu)，第一個(gè)線程池里是生產(chǎn) uid的線程个初，這些線程把生產(chǎn)出來的線程放入 uids queue隊(duì)列中乖寒。

第二個(gè)線程池里的線程就通過 uids queue來獲取 uid，他們就是 uid producer的消費(fèi)者院溺。

同時(shí)楣嘁，他們也是 data的生產(chǎn)者。

第二個(gè)線程池與第三個(gè)線程池的交互和前面兩個(gè)線程池的交互類似珍逸，如下圖：

中間的 uids queue是一個(gè)先入先出而且線程安全的隊(duì)列逐虚。

使用生產(chǎn)—消費(fèi)者模型后，我們還需要的就是一個(gè)線程安全的 FIFO隊(duì)列谆膳，和恰當(dāng)?shù)纳a(chǎn)者與消費(fèi)者比例（以生產(chǎn)者的產(chǎn)出剛好被消費(fèi)者消費(fèi)完為最佳）

二痊班、代碼實(shí)現(xiàn)

首先我們先把原來的模塊封裝到一個(gè)單獨(dú)的文件里去，這樣更加方便調(diào)用

文件 GitHub：jianshu_models.py

文件里面我們需要用到的有：

simplifiedCsv 類摹量，將數(shù)據(jù)寫入文件
userUidsGenerator userUid生成器
getArticleInfo 獲取文章信息

然后就是我們的生產(chǎn)者和消費(fèi)者類：

這里我們使用 python自帶的 queue模塊里的 Queue隊(duì)列

Queue隊(duì)列有 put和 get兩個(gè)方法，這兩個(gè)方法都接受一個(gè)整數(shù)作為最大隊(duì)列長度馒胆。

當(dāng)隊(duì)列長度達(dá)到最大隊(duì)列長度時(shí)缨称，put方法就會(huì)阻塞，直到隊(duì)列長度再次小于最大隊(duì)列長度祝迂。

按從左到右的順序睦尽，第一個(gè)類是 uid生產(chǎn)線程類：

class UidGenerateThread(threading.Thread):
    def __init__(self, uid_queue):
        threading.Thread.__init__(self)
        self.uid_queue = uid_queue

    def run(self):
        start_users = [{'uid': 'a3ea268aeb60', 'follow_num': 525, 'fans_num': 2521, 'article_num': 118}]
        user_generator = jianshu_models.userUidsGenerator(start_users)
        while True:
            user = user_generator.__next__()
            self.uid_queue.put(user)

UidGenerateThread類接受一個(gè) uid_queue隊(duì)列作為初始化參數(shù)。

在 run方法中型雳，我們先獲取一個(gè) uid生成器当凡，然后無限調(diào)用生成器的 __next__()方法，并將獲得的結(jié)果通過 uid_queue的 put方法放到 uid_queue隊(duì)列里去纠俭。

第二個(gè)類是沿量，uid消費(fèi)者類同時(shí)也是 data生產(chǎn)者類：

class DataCollectorThread(threading.Thread):
    def __init__(self, uid_queue, data_queue):
        threading.Thread.__init__(self)
        self.uid_queue = uid_queue
        self.data_queue = data_queue

    def run(self):
        while True:
            user = self.uid_queue.get()
            datas = jianshu_models.getArticleInfo(user)
            self.data_queue.put(datas)

DataCollectorThread類接受兩個(gè)隊(duì)列 uid_queue和 data_queue作為初始化參數(shù)。

run方法里冤荆，我們先通過 uid_queue的 get方法獲取 userUid朴则，然后把返回結(jié)果作為參數(shù)傳遞給 getArticleInfo來獲取對應(yīng)用戶的文章信息。

獲取到文章信息后钓简，我們再把文章信息放到 data_queue里

第三個(gè)類是 data消費(fèi)者類乌妒，作用是將 data寫入 csv文件：

class DataWriterThread(threading.Thread):
    def __init__(self, data_queue):
        threading.Thread.__init__(self)
        self.data_queue = data_queue
        self.writer = jianshu_models.simplifiedCsv(f'test/{self.name}.txt')

    def run(self):
        while True:
            data_list = self.data_queue.get()
            self.writer.writerows(data_list)

與上面兩個(gè)類相似汹想，DataWriterThread類也接受一個(gè) data_queue作為初始化參數(shù)。

在 run方法中不斷從 adta_queue里取出數(shù)據(jù)寫入到文件里撤蚊。

這里為了避免使用資源鎖古掏，我們讓每個(gè)線程都有一個(gè) simplifiedCsv類，將數(shù)據(jù)寫入不同的文件中侦啸。

當(dāng)爬取完成后再將數(shù)據(jù)整合到一個(gè)文件中去槽唾。

根據(jù)不同線程的生產(chǎn)和消費(fèi)能力，在程序中我們使用 1個(gè) uid生產(chǎn)線程（而且只能使用一個(gè)）匹中，10個(gè)DataCollectorThread和 10個(gè)DataWriterThread夏漱。

并且設(shè)置 uid_queue的長度為 100，data_queue的長度為 50.

threads = []
uid_queue = queue.Queue(100)
data_queue = queue.Queue(50)
t1 = UidGenerateThread(uid_queue)
threads.append(t1)

for i in range(10):
    t1 = DataWriterThread(data_queue)
    t2 = DataCollectorThread(uid_queue, data_queue)
    threads.append(t1)
    threads.append(t2)

for t in threads:
    t.start()

for t in threads:
    t.join()

運(yùn)行十分鐘看看：

十分鐘爬取了 72920條數(shù)據(jù)顶捷，再看看單線程的：

單線程十分鐘爬取了 7823條挂绰。

多線程是單線程的 9倍多一點(diǎn)，不過如果我們增加 DataCollectorThread和
DataWriterThread的數(shù)量服赎，速度還可以更快葵蒂。

當(dāng) cpu的利用率達(dá)到 80%時(shí)可以達(dá)到 30倍的速度。

這次代碼版本為：v2.0

代碼在 GitHub上的鏈接：project_mulitiple_threads_version

大家可能覺得現(xiàn)在已經(jīng)很快了重虑，但這還不是最快的方式践付，比多線程更快更節(jié)省資源的是------>協(xié)程，也被稱作異步

下一篇就讓我們來講一講異步

覺得我寫的不錯(cuò)的話缺厉，記得關(guān)注永高、點(diǎn)贊、評論(提针。???)ノ

上一篇：實(shí)戰(zhàn)：爬取簡書之多線程爬让馈（一）

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市辐脖，隨后出現(xiàn)的幾起案子饲宛，更是在濱河造成了極大的恐慌，老刑警劉巖嗜价，帶你破解...
沈念sama閱讀 221,548評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件艇抠，死亡現(xiàn)場離奇詭異，居然都是意外死亡久锥，警方通過查閱死者的電腦和手機(jī)家淤，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,497評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來瑟由，“玉大人媒鼓，你說我怎么就攤上這事。” “怎么了绿鸣？”我有些...
開封第一講書人閱讀 167,990評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵疚沐，是天一觀的道長。經(jīng)常有香客問我潮模，道長亮蛔，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,618評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任擎厢，我火速辦了婚禮究流，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘动遭。我一直安慰自己芬探，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 68,618評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布厘惦。她就那樣靜靜地躺著偷仿，像睡著了一般。火紅的嫁衣襯著肌膚如雪宵蕉。梳的紋絲不亂的頭發(fā)上酝静，一...
開封第一講書人閱讀 52,246評論 1贊 308
城市分裂傳說
那天，我揣著相機(jī)與錄音羡玛，去河邊找鬼别智。笑死，一個(gè)胖子當(dāng)著我的面吹牛稼稿，可吹牛的內(nèi)容都是我干的薄榛。我是一名探鬼主播，決...
沈念sama閱讀 40,819評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼让歼，長吁一口氣：“原來是場噩夢啊……” “哼敞恋！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起是越，我...
開封第一講書人閱讀 39,725評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎碌上，沒想到半個(gè)月后倚评，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,268評論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡馏予，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,356評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年天梧，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片霞丧。...
茶點(diǎn)故事閱讀 40,488評論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡呢岗，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情后豫，我是刑警寧澤悉尾，帶...
沈念sama閱讀 36,181評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站挫酿，受9級特大地震影響构眯，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜早龟，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,862評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一惫霸、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧葱弟，春花似錦壹店、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,331評論 0贊 24
一樁弒父案硅卢，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至妖混，卻和暖如春老赤，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背制市。一陣腳步聲響...
開封第一講書人閱讀 33,445評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工抬旺，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人祥楣。一個(gè)月前我還...
沈念sama閱讀 48,897評論 3贊 376
代替公主和親
正文我出身青樓开财，卻偏偏與公主長得像，于是被迫代替她去往敵國和親误褪。傳聞我的和親對象是個(gè)殘疾皇子责鳍，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,500評論 2贊 359

實(shí)戰(zhàn)：簡書爬取之多線程爬瓤宥摇（二）速度提升何止10倍

實(shí)戰(zhàn)：簡書爬取之多線程爬取（二）速度提升何止10倍

一豁跑、程序結(jié)構(gòu)

二痊班、代碼實(shí)現(xiàn)

推薦閱讀更多精彩內(nèi)容