實(shí)戰(zhàn):異步爬取之異步的簡(jiǎn)單使用

一嫩痰、使用異步的注意事項(xiàng)

  1. 異步代碼中不能有耗時(shí)的 I/O操作剿吻,像文件讀寫、網(wǎng)絡(luò)請(qǐng)求串纺、數(shù)據(jù)庫(kù)讀寫等操作都需要使用對(duì)應(yīng)的異步庫(kù)來代替丽旅。
  2. 異步代碼要盡可能短小椰棘,短小的意思就是功能要盡可能細(xì)分,前面講過異步在任務(wù)量較少的時(shí)候性能并不能達(dá)到最優(yōu)榄笙,我們可以通過合理地拆分代碼來增加任務(wù)量邪狞,從而達(dá)到提高性能的目的。

二茅撞、使用異步需要了解的兩個(gè)重要的類

  1. AbstractEventLoop帆卓,我們可以把它簡(jiǎn)稱為 EventLoop類或者事件循環(huán)。事件循環(huán)是整個(gè)異步的基礎(chǔ)乡翅,所有的異步操作都在事件循環(huán)里完成鳞疲。

    這里我們需要了解并學(xué)會(huì)使用它的如下幾個(gè)方法:

    • run_until_complete(Future) 該方法接受一個(gè)或多個(gè) Future對(duì)象作為參數(shù),然后運(yùn)行這些對(duì)象直到全部完成并返回它們的結(jié)果
    • run_forever() 讓事件循環(huán)一直運(yùn)行下去蠕蚜,直到 stop() 方法被調(diào)用尚洽,當(dāng) stop() 方法被調(diào)用時(shí),會(huì)繼續(xù)執(zhí)行完正在執(zhí)行的任務(wù)靶累,但是這些任務(wù)的回調(diào)和未被執(zhí)行的任務(wù)將不再執(zhí)行腺毫。
    • create_task()create_future() 光看名字可能大家會(huì)誤以為這兩個(gè)方法的功能是創(chuàng)建一個(gè) Task類或者 Future類并將其返回挣柬,事實(shí)上這兩個(gè)方法的功能確實(shí)包括這個(gè)潮酒,但是除此之外它們還會(huì)將創(chuàng)建的對(duì)象添加到事件循環(huán)中去。
  2. Future邪蛔,F(xiàn)uture對(duì)象類似于 JavaScript里的 Promise對(duì)象急黎,簡(jiǎn)單來說就是該對(duì)象承諾未來的某個(gè)時(shí)候會(huì)返回一個(gè)結(jié)果,但是具體的時(shí)間是不確定的侧到。

    所以我們一般在回調(diào)函數(shù)里使用 Feture對(duì)象勃教,因?yàn)檫@時(shí)候 Feture對(duì)象一定有返回結(jié)果。

    • add_done_callback(func) 這個(gè)方法為 Future對(duì)象添加一個(gè)回調(diào)函數(shù)匠抗,該函數(shù)接收一個(gè) Future對(duì)象作為第一個(gè)參數(shù)故源,在函數(shù)里我們可以通過這個(gè)對(duì)象來取得其執(zhí)行結(jié)果。
  3. 使用過 asyncio庫(kù)的朋友可能會(huì)疑惑為什么沒有 Task類汞贸,這是因?yàn)?Task 類是 Future 類的子類绳军,我們可以將它們視作具有相同功能的兩個(gè)類

三、使用異步的基本方法

首先矢腻,對(duì)于少量的請(qǐng)求(幾百)我們不推薦使用異步门驾,一般是成千上萬的請(qǐng)求我們才使用異步,比如說爬取全站踏堡。

在同步代碼中我們爬取的一般步驟是:請(qǐng)求頁面---->解析頁面---->獲取結(jié)果---->保存結(jié)果

異步中也是類似的順序猎唁,不過我們需要使用回調(diào)來確保它們按順序執(zhí)行,像下面這樣:

請(qǐng)求頁面---->回調(diào):解析頁面---->獲取結(jié)果---->保存頁面(異步)

比如我們要獲取簡(jiǎn)書用戶的關(guān)注列表顷蟆,我們的代碼順序應(yīng)該是:

請(qǐng)求頁面---->回調(diào):處理頁面---->獲取結(jié)果并打印诫隅,代碼如下:

#-*- coding: utf-8 -*
import asyncio
import aiohttp
import random

from lxml import etree


PER_NUM = 9

async def get_response(url, **kwargs):
    if 'headers' not in kwargs:
        kwargs['headers'] = {
            'User-Agent': "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",
        }

    async with session.get(url, **kwargs) as response:
        print(response.status)
        return await response.read()

def process_response(future):
    dom = etree.HTML(future.result())

    items = dom.xpath('//ul/li//div[@class="info"]')

    for item in items:
        user = {}

        user['uid'] = item.xpath('./a/@href')[0].split('/')[2]
        user['follow_num'] = int(item.xpath('./div/span[1]/text()')[0].replace('關(guān)注', '').strip())
        user['fans_num'] = int(item.xpath('./div/span[2]/text()')[0].replace('粉絲', '').strip())
        user['article_num'] = int(item.xpath('./div/span[3]/text()')[0].replace('文章', '').strip())

def entry_point(param):
    if isinstance(param, asyncio.Future):
        users = param.result()
    else:
        users = param

    for user in users:
        uid = user['uid']
        follow_num = user['follow_num']
        max_page = int(follow_num / PER_NUM) if (follow_num % PER_NUM) == 0 else int(follow_num / PER_NUM)+1
        following_urls = ['http://www.reibang.com/users/{}/following?page={}'.format(uid, i) for i in
                          range(1, max_page+1)]

        for following_url in following_urls:
            task = loop.create_task(get_response(following_url))
            task.add_done_callback(process_response)


loop = asyncio.get_event_loop()
session = aiohttp.ClientSession(loop=loop)

users = [{'uid': 'a3ea268aeb60', 'follow_num': 525, 'fans_num': 2521, 'article_num': 118}]

entry_point(users)

loop.run_forever()

在段代碼中我們通過 entry_point 函數(shù)來將所有的請(qǐng)求添加到事件循環(huán)中,并且為每個(gè)請(qǐng)求添加了一個(gè)回調(diào)函數(shù)來獲取關(guān)注者的信息帐偎,示意圖如下:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末逐纬,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子削樊,更是在濱河造成了極大的恐慌豁生,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,383評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件漫贞,死亡現(xiàn)場(chǎng)離奇詭異甸箱,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)迅脐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門芍殖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人谴蔑,你說我怎么就攤上這事豌骏。” “怎么了隐锭?”我有些...
    開封第一講書人閱讀 157,852評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵窃躲,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我钦睡,道長(zhǎng)蒂窒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,621評(píng)論 1 284
  • 正文 為了忘掉前任荞怒,我火速辦了婚禮洒琢,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘挣输。我一直安慰自己纬凤,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,741評(píng)論 6 386
  • 文/花漫 我一把揭開白布撩嚼。 她就那樣靜靜地躺著停士,像睡著了一般。 火紅的嫁衣襯著肌膚如雪完丽。 梳的紋絲不亂的頭發(fā)上恋技,一...
    開封第一講書人閱讀 49,929評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音逻族,去河邊找鬼蜻底。 笑死,一個(gè)胖子當(dāng)著我的面吹牛聘鳞,可吹牛的內(nèi)容都是我干的薄辅。 我是一名探鬼主播要拂,決...
    沈念sama閱讀 39,076評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼站楚!你這毒婦竟也來了脱惰?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,803評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤窿春,失蹤者是張志新(化名)和其女友劉穎拉一,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體旧乞,經(jīng)...
    沈念sama閱讀 44,265評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蔚润,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,582評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了尺栖。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嫡纠。...
    茶點(diǎn)故事閱讀 38,716評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖决瞳,靈堂內(nèi)的尸體忽然破棺而出货徙,到底是詐尸還是另有隱情,我是刑警寧澤皮胡,帶...
    沈念sama閱讀 34,395評(píng)論 4 333
  • 正文 年R本政府宣布痴颊,位于F島的核電站,受9級(jí)特大地震影響屡贺,放射性物質(zhì)發(fā)生泄漏蠢棱。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,039評(píng)論 3 316
  • 文/蒙蒙 一甩栈、第九天 我趴在偏房一處隱蔽的房頂上張望泻仙。 院中可真熱鬧,春花似錦量没、人聲如沸玉转。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽究抓。三九已至,卻和暖如春袭灯,著一層夾襖步出監(jiān)牢的瞬間刺下,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評(píng)論 1 266
  • 我被黑心中介騙來泰國(guó)打工稽荧, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留橘茉,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,488評(píng)論 2 361
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像畅卓,于是被迫代替她去往敵國(guó)和親擅腰。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,612評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容

  • 1髓介、通過CocoaPods安裝項(xiàng)目名稱項(xiàng)目信息 AFNetworking網(wǎng)絡(luò)請(qǐng)求組件 FMDB本地?cái)?shù)據(jù)庫(kù)組件 SD...
    陽明先生_X自主閱讀 15,969評(píng)論 3 119
  • 1.ios高性能編程 (1).內(nèi)層 最小的內(nèi)層平均值和峰值(2).耗電量 高效的算法和數(shù)據(jù)結(jié)構(gòu)(3).初始化時(shí)...
    歐辰_OSR閱讀 29,340評(píng)論 8 265
  • 第370章 除非惕鼓,慕少凌出手筋现! 張行安望著阮白憤怒得不能自己的小臉唐础,忽而就笑了。 可是矾飞,他的眼中一膨,卻沒有半...
    84ed38744287閱讀 1,306評(píng)論 0 0
  • 最近一直刷《財(cái)富自由之路》,看到多維發(fā)展這篇洒沦;寫到這里豹绪,突然想寫個(gè)前序,這個(gè)專欄已經(jīng)開始兩年了申眼,而且一年半之前自己...
    凈明林閱讀 198評(píng)論 0 0
  • 2018年7月24日括尸,福州巷蚪,天還沒有大亮,前段時(shí)間病了濒翻,每當(dāng)聽著吸引力法則《愛自己心法》的時(shí)候屁柏,感觸頗深:當(dāng)你真的...
    5d9b0618a9c1閱讀 782評(píng)論 2 5