(八)多進程爬蟲

一、并發(fā)爬取數(shù)據(jù)

當我們需要爬取的 url 鏈接非常多的時候腿准,用 for 循環(huán)對所有鏈接進行訪問顯然是非常耗時的。
怎么提高爬蟲效率呢?
我們可以使用并發(fā)來對URL進行訪問以爬取數(shù)據(jù)翅溺。
有以下三種并發(fā)方式

  • 多線程(threading)
  • 多進程(multiprocessing)
  • 協(xié)程(gevent)

先來試試多進程

二、 多線程example

import requests
import time
from multiprocessing.dummy import Pool

def get_url(url):
    html = requests.get(url)
    #print(html.url)

urls = ["http://www.mmjpg.com/home/{}".format(i) for i in range(1,40)]

time1 = time.time()
for url in urls:
    get_url(url)
time2 = time.time()
print('單線程耗時' + str(time2 - time1))

pool = Pool(4)
time3 = time.time()
results = pool.map(get_url, urls)
pool.close()
pool.join()
time4 = time.time()
print('多線程耗時' + str(time4 - time3))

先來試試請求 40 個網(wǎng)頁分別的耗時

>>> 
=================== RESTART: E:\Python項目\爬阿爬\多線程髓抑,進程\多進程.py ===================
單線程耗時3.8298497200012207
多線程耗時3.5330474376678467

差別不是太大咙崎,但請求100呢。把 range 的范圍改到 100吨拍,再運行試試

=================== RESTART: E:\Python項目\爬阿爬\多線程褪猛,進程\多進程.py ===================
單線程耗時16.267414093017578
多線程耗時4.5447304248809814
>>> 

差距已經(jīng)很大了

三、多線程爬取

我們以爬取 實驗樓 的課程為例羹饰。


分析下url伊滋,可以發(fā)現(xiàn)改變 page 的參數(shù)就可以切換頁數(shù)了,那么共有幾頁呢队秩,我們只需爬取頁面下方的這個系列的數(shù)值新啼,倒二個就是最大的頁面數(shù)。
代碼如下

>>> link = 'https://www.shiyanlou.com/courses/?course_type=all&tag=all&fee=all&page=1'
>>> r = requests.get(link)
>>> bs0bj = BeautifulSoup(r.text, 'lxml')
>>> pages = bs0bj.select('body > div.container.layout-hasside.layout-margin-top > div.row > div.col-md-9.layout-body > div.content.position-relative > nav > ul > li')
>>> page = int(pages[-2].text.strip())
>>> print('共{}頁'.format(page))
共24頁

我們來爬取所有課程的名稱 title刹碾, 說明 introduce 燥撞,熱度 num。
如果要爬取別的課程只需改下 url 的 tag 參數(shù)就行



總的代碼如下

import requests
from bs4 import BeautifulSoup
from multiprocessing.dummy import Pool

def get_html(page):
    url = 'https://www.shiyanlou.com/courses/?course_type=all&tag=all&fee=all&page={}'.format(page)
    print('第{}頁'.format(page))
    html = requests.get(url)
    soup = BeautifulSoup(html.text, 'lxml')
    
    titles = soup.find_all(class_='course-name')
    introduces = soup.find_all(class_='course-desc')
    nums = soup.find_all(class_='course-per-num pull-left')

    for title, num, introduce in zip(titles, nums, introduces):
        data = {
            'title'     :   title.get_text(),
            'num'       :   num.get_text().strip(),
            'introduce' :   introduce.get_text()
            }
        print(data)


if __name__ == '__main__':
    link = 'https://www.shiyanlou.com/courses/?course_type=all&tag=all&fee=all&page=1'
    r = requests.get(link)
    bs0bj = BeautifulSoup(r.text, 'lxml')
    pages = bs0bj.select('body > div.container.layout-hasside.layout-margin-top > div.row > div.col-md-9.layout-body > div.content.position-relative > nav > ul > li')
    page = int(pages[-2].text.strip())
    print('共{}頁'.format(page))
    pool = Pool(4)
    pool.map(get_html, range(1, page+1))
    #pool.map_async(get_html, range(1, page+1))
    #for i in range(page+1):
        #pool.apply(func=get_html, args=(i,))
    pool.close()
    pool.join()

運行下試試看

>>> 
================== RESTART: C:\Users\Why Me\Desktop\爬實驗樓.py ==================
共24頁
第1頁第3頁第5頁第7頁



{'num': '536', 'introduce': '本課將介紹 json 和一些常見的 json 庫迷帜,并用 C++ 編寫一個 json 生成器物舒,生成 json 數(shù)據(jù),并學習編寫測試用例戏锹。', 'title': 'C++ 編寫 json 生成器'}{'num': '112', 'introduce': '本訓練營主要講后門技術(shù)實戰(zhàn)冠胯,偏重于滲透成功后的維持訪問。該課程共包含 10 個實驗锦针,每個實驗都提供詳細的步驟和截圖荠察,其中會有專門的三節(jié)實驗,專門用來講解木馬的制作奈搜,以及對生成的后門木馬的源碼分析 悉盆。', 'title': 'Kali 滲透測試 - 后門技術(shù)實戰(zhàn)(10個實驗)'}

{'num': '467', 'introduce': '在這個人人自拍的年代,每個人的智能手機中至少都裝了一款美顏相機或者美圖軟件馋吗,而這些軟件實現(xiàn)美圖功能又主要是靠濾鏡來實現(xiàn)的焕盟。而這門課程將帶領(lǐng)大家使用 Python 編寫一個簡單的濾鏡程序。', 'title': 'Python 實現(xiàn)簡單濾鏡'}{'num': '1381', 'introduce': '出租車是我們生活中經(jīng)常乘坐的一種交通工具宏粤,但打車難的問題也限制了我們更好地利用這種交通方式脚翘。在哪些地方出租車更容易打到灼卢?在什么時候更容易打到出租車?本課程將基于某市的出租車行駛軌跡數(shù)據(jù)来农,帶你學習如何應用Spark SQL和機器學習相關(guān)技巧鞋真,并且通過數(shù)據(jù)可視化手段展現(xiàn)分析結(jié)果。', 'title': '大數(shù)據(jù)帶你挖掘打車的秘籍'}
...
...
前面用的是 multiprocessing.dummy import Pool沃于,因為不知道是我電腦的原因還是什么涩咖,一般應該multiprocessingimport Pool就行了
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市揽涮,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌饿肺,老刑警劉巖蒋困,帶你破解...
    沈念sama閱讀 218,451評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異敬辣,居然都是意外死亡雪标,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評論 3 394
  • 文/潘曉璐 我一進店門溉跃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來村刨,“玉大人,你說我怎么就攤上這事撰茎∏段” “怎么了?”我有些...
    開封第一講書人閱讀 164,782評論 0 354
  • 文/不壞的土叔 我叫張陵龄糊,是天一觀的道長逆粹。 經(jīng)常有香客問我,道長炫惩,這世上最難降的妖魔是什么僻弹? 我笑而不...
    開封第一講書人閱讀 58,709評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮他嚷,結(jié)果婚禮上蹋绽,老公的妹妹穿的比我還像新娘。我一直安慰自己筋蓖,他們只是感情好卸耘,可當我...
    茶點故事閱讀 67,733評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著粘咖,像睡著了一般鹊奖。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上涂炎,一...
    開封第一講書人閱讀 51,578評論 1 305
  • 那天忠聚,我揣著相機與錄音设哗,去河邊找鬼。 笑死两蟀,一個胖子當著我的面吹牛网梢,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播赂毯,決...
    沈念sama閱讀 40,320評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼战虏,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了党涕?” 一聲冷哼從身側(cè)響起烦感,我...
    開封第一講書人閱讀 39,241評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎膛堤,沒想到半個月后手趣,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,686評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡肥荔,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,878評論 3 336
  • 正文 我和宋清朗相戀三年绿渣,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片燕耿。...
    茶點故事閱讀 39,992評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡中符,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出誉帅,到底是詐尸還是另有隱情淀散,我是刑警寧澤,帶...
    沈念sama閱讀 35,715評論 5 346
  • 正文 年R本政府宣布蚜锨,位于F島的核電站吧凉,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏踏志。R本人自食惡果不足惜阀捅,卻給世界環(huán)境...
    茶點故事閱讀 41,336評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望针余。 院中可真熱鬧饲鄙,春花似錦、人聲如沸圆雁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽伪朽。三九已至轴咱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背朴肺。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評論 1 270
  • 我被黑心中介騙來泰國打工窖剑, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人戈稿。 一個月前我還...
    沈念sama閱讀 48,173評論 3 370
  • 正文 我出身青樓西土,卻偏偏與公主長得像,于是被迫代替她去往敵國和親鞍盗。 傳聞我的和親對象是個殘疾皇子需了,可洞房花燭夜當晚...
    茶點故事閱讀 44,947評論 2 355

推薦閱讀更多精彩內(nèi)容