（八）多進程爬蟲

一、并發(fā)爬取數(shù)據(jù)

當我們需要爬取的 url 鏈接非常多的時候腿准，用 for 循環(huán)對所有鏈接進行訪問顯然是非常耗時的。
怎么提高爬蟲效率呢？
我們可以使用并發(fā)來對URL進行訪問以爬取數(shù)據(jù)翅溺。
有以下三種并發(fā)方式

多線程(threading)
多進程(multiprocessing)
協(xié)程(gevent)

先來試試多進程

二、多線程example

import requests
import time
from multiprocessing.dummy import Pool

def get_url(url):
    html = requests.get(url)
    #print(html.url)

urls = ["http://www.mmjpg.com/home/{}".format(i) for i in range(1,40)]

time1 = time.time()
for url in urls:
    get_url(url)
time2 = time.time()
print('單線程耗時' + str(time2 - time1))

pool = Pool(4)
time3 = time.time()
results = pool.map(get_url, urls)
pool.close()
pool.join()
time4 = time.time()
print('多線程耗時' + str(time4 - time3))

先來試試請求 40 個網(wǎng)頁分別的耗時

>>> 
=================== RESTART: E:\Python項目\爬阿爬\多線程髓抑，進程\多進程.py ===================
單線程耗時3.8298497200012207
多線程耗時3.5330474376678467

差別不是太大咙崎，但請求100呢。把 range 的范圍改到 100吨拍，再運行試試

=================== RESTART: E:\Python項目\爬阿爬\多線程褪猛，進程\多進程.py ===================
單線程耗時16.267414093017578
多線程耗時4.5447304248809814
>>>

差距已經(jīng)很大了

三、多線程爬取

我們以爬取實驗樓的課程為例羹饰。

分析下url伊滋，可以發(fā)現(xiàn)改變 page 的參數(shù)就可以切換頁數(shù)了，那么共有幾頁呢队秩，我們只需爬取頁面下方的這個系列的數(shù)值新啼，倒二個就是最大的頁面數(shù)。
代碼如下

>>> link = 'https://www.shiyanlou.com/courses/?course_type=all&tag=all&fee=all&page=1'
>>> r = requests.get(link)
>>> bs0bj = BeautifulSoup(r.text, 'lxml')
>>> pages = bs0bj.select('body > div.container.layout-hasside.layout-margin-top > div.row > div.col-md-9.layout-body > div.content.position-relative > nav > ul > li')
>>> page = int(pages[-2].text.strip())
>>> print('共{}頁'.format(page))
共24頁

我們來爬取所有課程的名稱 title刹碾，說明 introduce 燥撞，熱度 num。
如果要爬取別的課程只需改下 url 的 tag 參數(shù)就行

總的代碼如下

import requests
from bs4 import BeautifulSoup
from multiprocessing.dummy import Pool

def get_html(page):
    url = 'https://www.shiyanlou.com/courses/?course_type=all&tag=all&fee=all&page={}'.format(page)
    print('第{}頁'.format(page))
    html = requests.get(url)
    soup = BeautifulSoup(html.text, 'lxml')
    
    titles = soup.find_all(class_='course-name')
    introduces = soup.find_all(class_='course-desc')
    nums = soup.find_all(class_='course-per-num pull-left')

    for title, num, introduce in zip(titles, nums, introduces):
        data = {
            'title'     :   title.get_text(),
            'num'       :   num.get_text().strip(),
            'introduce' :   introduce.get_text()
            }
        print(data)


if __name__ == '__main__':
    link = 'https://www.shiyanlou.com/courses/?course_type=all&tag=all&fee=all&page=1'
    r = requests.get(link)
    bs0bj = BeautifulSoup(r.text, 'lxml')
    pages = bs0bj.select('body > div.container.layout-hasside.layout-margin-top > div.row > div.col-md-9.layout-body > div.content.position-relative > nav > ul > li')
    page = int(pages[-2].text.strip())
    print('共{}頁'.format(page))
    pool = Pool(4)
    pool.map(get_html, range(1, page+1))
    #pool.map_async(get_html, range(1, page+1))
    #for i in range(page+1):
        #pool.apply(func=get_html, args=(i,))
    pool.close()
    pool.join()

運行下試試看

>>> 
================== RESTART: C:\Users\Why Me\Desktop\爬實驗樓.py ==================
共24頁
第1頁第3頁第5頁第7頁



{'num': '536', 'introduce': '本課將介紹 json 和一些常見的 json 庫迷帜，并用 C++ 編寫一個 json 生成器物舒，生成 json 數(shù)據(jù)，并學習編寫測試用例戏锹。', 'title': 'C++ 編寫 json 生成器'}{'num': '112', 'introduce': '本訓練營主要講后門技術(shù)實戰(zhàn)冠胯，偏重于滲透成功后的維持訪問。該課程共包含 10 個實驗锦针，每個實驗都提供詳細的步驟和截圖荠察，其中會有專門的三節(jié)實驗，專門用來講解木馬的制作奈搜，以及對生成的后門木馬的源碼分析 悉盆。', 'title': 'Kali 滲透測試 - 后門技術(shù)實戰(zhàn)（10個實驗）'}

{'num': '467', 'introduce': '在這個人人自拍的年代，每個人的智能手機中至少都裝了一款美顏相機或者美圖軟件馋吗，而這些軟件實現(xiàn)美圖功能又主要是靠濾鏡來實現(xiàn)的焕盟。而這門課程將帶領(lǐng)大家使用 Python 編寫一個簡單的濾鏡程序。', 'title': 'Python 實現(xiàn)簡單濾鏡'}{'num': '1381', 'introduce': '出租車是我們生活中經(jīng)常乘坐的一種交通工具宏粤，但打車難的問題也限制了我們更好地利用這種交通方式脚翘。在哪些地方出租車更容易打到灼卢？在什么時候更容易打到出租車？本課程將基于某市的出租車行駛軌跡數(shù)據(jù)来农，帶你學習如何應用Spark SQL和機器學習相關(guān)技巧鞋真，并且通過數(shù)據(jù)可視化手段展現(xiàn)分析結(jié)果。', 'title': '大數(shù)據(jù)帶你挖掘打車的秘籍'}
...
...

前面用的是 multiprocessing.dummy import Pool沃于，因為不知道是我電腦的原因還是什么涩咖，一般應該multiprocessingimport Pool就行了

最后編輯于：2017.12.06 05:30:38

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市揽涮，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌饿肺，老刑警劉巖蒋困，帶你破解...
沈念sama閱讀 218,451評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異敬辣，居然都是意外死亡雪标，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,172評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門溉跃，熙熙樓的掌柜王于貴愁眉苦臉地迎上來村刨，“玉大人，你說我怎么就攤上這事撰茎∏段” “怎么了？”我有些...
開封第一講書人閱讀 164,782評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵龄糊，是天一觀的道長逆粹。經(jīng)常有香客問我，道長炫惩，這世上最難降的妖魔是什么僻弹？我笑而不...
開封第一講書人閱讀 58,709評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮他嚷，結(jié)果婚禮上蹋绽，老公的妹妹穿的比我還像新娘。我一直安慰自己筋蓖，他們只是感情好卸耘，可當我...
茶點故事閱讀 67,733評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著粘咖，像睡著了一般鹊奖。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上涂炎，一...
開封第一講書人閱讀 51,578評論 1贊 305
城市分裂傳說
那天忠聚，我揣著相機與錄音设哗，去河邊找鬼。笑死两蟀，一個胖子當著我的面吹牛网梢，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播赂毯，決...
沈念sama閱讀 40,320評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼战虏，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了党涕？” 一聲冷哼從身側(cè)響起烦感，我...
開封第一講書人閱讀 39,241評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎膛堤，沒想到半個月后手趣，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,686評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡肥荔，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,878評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年绿渣，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片燕耿。...
茶點故事閱讀 39,992評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡中符，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出誉帅，到底是詐尸還是另有隱情淀散，我是刑警寧澤，帶...
沈念sama閱讀 35,715評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蚜锨，位于F島的核電站吧凉，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏踏志。R本人自食惡果不足惜阀捅，卻給世界環(huán)境...
茶點故事閱讀 41,336評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望针余。院中可真熱鬧饲鄙，春花似錦、人聲如沸圆雁。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,912評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽伪朽。三九已至轴咱，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背朴肺。一陣腳步聲響...
開封第一講書人閱讀 33,040評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工窖剑，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人戈稿。一個月前我還...
沈念sama閱讀 48,173評論 3贊 370
代替公主和親
正文我出身青樓西土，卻偏偏與公主長得像，于是被迫代替她去往敵國和親鞍盗。傳聞我的和親對象是個殘疾皇子需了，可洞房花燭夜當晚...
茶點故事閱讀 44,947評論 2贊 355

（八）多進程爬蟲

一、并發(fā)爬取數(shù)據(jù)

二、 多線程example

三、多線程爬取

前面用的是 multiprocessing.dummy import Pool沃于，因為不知道是我電腦的原因還是什么涩咖，一般應該multiprocessingimport Pool就行了

推薦閱讀更多精彩內(nèi)容

二、多線程example