Python爬蟲(chóng)實(shí)戰(zhàn)(6)單線程哨啃、多線程拳球、多進(jìn)程祝峻、多協(xié)程對(duì)比

前言

  • 蛋肥學(xué)習(xí)了如何提升爬蟲(chóng)速度扎筒,打算分別嘗試單線程爬蟲(chóng)、多線程爬蟲(chóng)奥溺、多進(jìn)程爬蟲(chóng)浮定、多協(xié)程爬蟲(chóng)來(lái)進(jìn)行數(shù)據(jù)抓取桦卒,并對(duì)比其實(shí)際抓取速度匿又。

準(zhǔn)備

爬取時(shí)間:2021/03/10
系統(tǒng)環(huán)境:Windows 10
所用工具:Jupyter Notebook\Python 3.0
涉及的庫(kù):requests\lxml\selenium\time\threading\queue\multiprocessing\gevent\sys

獲取網(wǎng)址信息

優(yōu)設(shè)導(dǎo)航
https://hao.uisdc.com/

import requests
from lxml import etree

def getinfo(xpath):
    url="https://hao.uisdc.com/"
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0"}
    r=requests.get(url,headers=headers,timeout=10)
    html=etree.HTML(r.text)
    info=html.xpath(xpath)
    return(info)

link=getinfo('//div[@class="item"]/a/@href')
title=getinfo('//div[@class="item"]/a/h3/text()')

獲取網(wǎng)頁(yè)截圖

單線程爬蟲(chóng)

from selenium import webdriver
import time

def getshot(url,name):
    driver=webdriver.Chrome(executable_path=r"C:\Users\Archer\AppData\Local\Google\Chrome\Application\chromedriver")
    driver.maximize_window()
    start=time.time()
    for i in range(len(url)):
        try:
            driver.get(url[i])
            #等待頁(yè)面加載完成
            time.sleep(1)
            driver.save_screenshot(r"C:\Users\Archer\Desktop\網(wǎng)頁(yè)截圖\img"+name[i]+".png")
        except:
            continue
    end=time.time()
    print("單線程爬蟲(chóng)所用時(shí)間:",end-start)

getshot(link,title)

多線程爬蟲(chóng)

參考資料
Python多線程

import threading
import time
import queue as Queue
from selenium import webdriver

start=time.time()
#截圖函數(shù)迎吵,設(shè)置get的超時(shí),以防一直取不到卡死
def getshot(name,url):
    url=url.get(timeout=2)
    picname=name+" "+str(time.time())
    driver=webdriver.Chrome(executable_path=r"C:\Users\Archer\AppData\Local\Google\Chrome\Application\chromedriver")
    driver.maximize_window()
    try:
        driver.get(url)
        #等待頁(yè)面加載完成
        time.sleep(1)
        driver.save_screenshot(r"C:\Users\Archer\Desktop\網(wǎng)頁(yè)截圖\img"+picname+".png")
        driver.quit()
    except:
        print(name+"出錯(cuò)")

class myThread(threading.Thread):
    def __init__(self,name,url):
        threading.Thread.__init__(self)
        self.name=name
        self.url=url
    def run(self):
        while True:
            try:
                getshot(self.name,self.url)
            except:
                break

threadlist=["Thread-1","Thread-2","Thread-3","Thread-4","Thread-5"]
workQueue=Queue.Queue(200)
threads=[]

#創(chuàng)建新線程
for tName in threadlist:
    thread=myThread(tName,workQueue)
    thread.start()
    threads.append(thread)
#填充隊(duì)列
for i in range(len(link)):
    workQueue.put(link[i])
#等待所有線程完成
for t in threads:
    t.join()

end=time.time()
print("Queue多線程爬蟲(chóng)所用時(shí)間:",end-start)

多進(jìn)程爬蟲(chóng)

參考資料
多進(jìn)程在運(yùn)行的時(shí)候只有一個(gè)子進(jìn)程會(huì)運(yùn)行,怎么解決
用python進(jìn)行多進(jìn)程編程時(shí)蔫巩,只有主進(jìn)程可以運(yùn)行,子進(jìn)程貌似沒(méi)有運(yùn)行是什么原因
面試總結(jié)垃瞧,多進(jìn)程和多線程的區(qū)別

#如果CPU是單核个从,就無(wú)法進(jìn)行多進(jìn)程并行嗦锐,需要先了解計(jì)算機(jī)CPU的核心數(shù)量
from multiprocessing import cpu_count
print(cpu_count()) #蛋肥的電腦是8核
#Windows 以下代碼需寫成.py文件沪曙,然后用cmd啟動(dòng)(蛋肥用的Anaconda Powershell Prompt)
from multiprocessing import Process,Queue
import time
from selenium import webdriver

start=time.time()
#截圖函數(shù)液走,設(shè)置get的超時(shí),以防一直取不到卡死
def getshot(name,url):
    url=url.get(timeout=2)
    picname=name+" "+str(time.time())
    driver=webdriver.Chrome(executable_path=r"C:\Users\Archer\AppData\Local\Google\Chrome\Application\chromedriver")
    driver.maximize_window()
    try:
        driver.get(url)
        #等待頁(yè)面加載完成
        time.sleep(1)
        driver.save_screenshot(r"C:\Users\Archer\Desktop\網(wǎng)頁(yè)截圖\img"+picname+".png")
        driver.quit()
    except:
        print(name+"出錯(cuò)")

class myProcess(Process):
    def __init__(self,name,url):
        Process.__init__(self)
        self.name=name
        self.url=url
    def run(self):
        while True:
            try:
                print(self.name)
                getshot(self.name,self.url)
            except:
                break
 
#要寫if嘱根,具體原因還沒(méi)完全搞懂               
if __name__=="__main__": 
    processlist=["Process-1","Process-2","Process-3","Process-4","Process-5"]
    workQueue=Queue(200)
    processes=[]
    
    #填充隊(duì)列
    for i in range(len(link)):
        workQueue.put(link[i])
    #創(chuàng)建新進(jìn)程
    for pName in processlist:
        process=myProcess(pName,workQueue)
        processes.append(process)
    for t in processes:
        t.start()
    for t in processes:
        t.join()

    end=time.time()
    print("Queue多進(jìn)程爬蟲(chóng)所用時(shí)間:",end-start)

多協(xié)程爬蟲(chóng)

參考資料
Python中g(shù)event模塊使用及出現(xiàn)MonkeyPatchWarning
Python的最大遞歸深度錯(cuò)誤maximum recursion depth exceeded while calling a Python object

#monkey必須放在最前面儿子,必須在獲取網(wǎng)址信息代碼(requests)的前面
import gevent
from gevent import monkey
monkey.patch_all()
#設(shè)置最大遞歸深度限制
import sys  
sys.setrecursionlimit(1000000) 

from gevent.queue import Queue,Empty
import time
from selenium import webdriver

start=time.time()
#截圖函數(shù),設(shè)置get的超時(shí)割岛,以防一直取不到卡死
def getshot(index):
    while not workQueue.empty():
        url=workQueue.get(timeout=2)
        picname="Process-"+str(index)+str(time.time())
        driver=webdriver.Chrome(executable_path=r"C:\Users\Archer\AppData\Local\Google\Chrome\Application\chromedriver")
        driver.maximize_window()
        try:
            driver.get(url)
            #等待頁(yè)面加載完成
            time.sleep(1)
            driver.save_screenshot(r"C:\Users\Archer\Desktop\網(wǎng)頁(yè)截圖\img"+picname+".png")
            driver.quit()
        except:
            print("出錯(cuò)")

def boss():
    #填充隊(duì)列
    for i in range(len(link)):
        workQueue.put_nowait(link[i])

if __name__=="__main__": 
    workQueue=Queue(10000)
    gevent.spawn(boss).join()
    jobs=[]
    for i in range(5):
        jobs.append(gevent.spawn(getshot,i))
    gevent.joinall(jobs)

    end=time.time()
    print("Queue多協(xié)程爬蟲(chóng)所用時(shí)間:",end-start)

爬取結(jié)果

爬取時(shí)長(zhǎng)對(duì)比

部分網(wǎng)頁(yè)截圖

進(jìn)一步學(xué)習(xí)

進(jìn)程、線程和協(xié)程之間的區(qū)別和聯(lián)系
面向?qū)ο蠡靖拍?/a>

總結(jié)

  • 可通過(guò)多線程惠爽、多進(jìn)程、多協(xié)程的方式提升數(shù)據(jù)爬取的速度婚肆,但需合理選擇數(shù)量,一味地增加可能會(huì)適得其反用僧。
  • 序言:七十年代末责循,一起剝皮案震驚了整個(gè)濱河市院仿,隨后出現(xiàn)的幾起案子歹垫,更是在濱河造成了極大的恐慌健芭,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,723評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件若贮,死亡現(xiàn)場(chǎng)離奇詭異谴麦,居然都是意外死亡伸头,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門面哼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)魔策,“玉大人闯袒,你說(shuō)我怎么就攤上這事∑溽悖” “怎么了喷户?”我有些...
    開(kāi)封第一講書人閱讀 152,998評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵摩骨,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我昌罩,道長(zhǎng)灾馒,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 55,323評(píng)論 1 279
  • 正文 為了忘掉前任轨功,我火速辦了婚禮古涧,結(jié)果婚禮上羡滑,老公的妹妹穿的比我還像新娘算芯。我一直安慰自己,他們只是感情好职祷,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布有梆。 她就那樣靜靜地躺著意系,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 49,079評(píng)論 1 285
  • 那天陨囊,我揣著相機(jī)與錄音蜘醋,去河邊找鬼咏尝。 笑死,一個(gè)胖子當(dāng)著我的面吹牛胎食,可吹牛的內(nèi)容都是我干的厕怜。 我是一名探鬼主播蕾总,決...
    沈念sama閱讀 38,389評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼生百,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了缀程?” 一聲冷哼從身側(cè)響起蜡坊,我...
    開(kāi)封第一講書人閱讀 37,019評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤秕衙,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后鹦牛,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體勇吊,經(jīng)...
    沈念sama閱讀 43,519評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡汉规,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了晶伦。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,100評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡族沃,死狀恐怖脆淹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情盖溺,我是刑警寧澤,帶...
    沈念sama閱讀 33,738評(píng)論 4 324
  • 正文 年R本政府宣布锯玛,位于F島的核電站咐柜,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏拙友。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評(píng)論 3 307
  • 文/蒙蒙 一遗契、第九天 我趴在偏房一處隱蔽的房頂上張望牍蜂。 院中可真熱鬧泰涂,春花似錦、人聲如沸逼蒙。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,289評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)批什。三九已至,卻和暖如春社搅,著一層夾襖步出監(jiān)牢的瞬間乳规,已是汗流浹背驯妄。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,517評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留源织,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,547評(píng)論 2 354
  • 正文 我出身青樓缘屹,卻偏偏與公主長(zhǎng)得像侠仇,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子互亮,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容