一嫩痰、使用異步的注意事項(xiàng)
- 異步代碼中不能有耗時(shí)的 I/O操作剿吻,像文件讀寫、網(wǎng)絡(luò)請(qǐng)求串纺、數(shù)據(jù)庫(kù)讀寫等操作都需要使用對(duì)應(yīng)的異步庫(kù)來代替丽旅。
- 異步代碼要盡可能短小椰棘,短小的意思就是功能要盡可能細(xì)分,前面講過異步在任務(wù)量較少的時(shí)候性能并不能達(dá)到最優(yōu)榄笙,我們可以通過合理地拆分代碼來增加任務(wù)量邪狞,從而達(dá)到提高性能的目的。
二茅撞、使用異步需要了解的兩個(gè)重要的類
-
AbstractEventLoop
帆卓,我們可以把它簡(jiǎn)稱為 EventLoop類或者事件循環(huán)。事件循環(huán)是整個(gè)異步的基礎(chǔ)乡翅,所有的異步操作都在事件循環(huán)里完成鳞疲。這里我們需要了解并學(xué)會(huì)使用它的如下幾個(gè)方法:
-
run_until_complete(Future)
該方法接受一個(gè)或多個(gè) Future對(duì)象作為參數(shù),然后運(yùn)行這些對(duì)象直到全部完成并返回它們的結(jié)果 -
run_forever()
讓事件循環(huán)一直運(yùn)行下去蠕蚜,直到stop()
方法被調(diào)用尚洽,當(dāng)stop()
方法被調(diào)用時(shí),會(huì)繼續(xù)執(zhí)行完正在執(zhí)行的任務(wù)靶累,但是這些任務(wù)的回調(diào)和未被執(zhí)行的任務(wù)將不再執(zhí)行腺毫。 -
create_task()
、create_future()
光看名字可能大家會(huì)誤以為這兩個(gè)方法的功能是創(chuàng)建一個(gè) Task類或者 Future類并將其返回挣柬,事實(shí)上這兩個(gè)方法的功能確實(shí)包括這個(gè)潮酒,但是除此之外它們還會(huì)將創(chuàng)建的對(duì)象添加到事件循環(huán)中去。
-
-
Future
邪蛔,F(xiàn)uture對(duì)象類似于 JavaScript里的 Promise對(duì)象急黎,簡(jiǎn)單來說就是該對(duì)象承諾未來的某個(gè)時(shí)候會(huì)返回一個(gè)結(jié)果,但是具體的時(shí)間是不確定的侧到。所以我們一般在回調(diào)函數(shù)里使用 Feture對(duì)象勃教,因?yàn)檫@時(shí)候 Feture對(duì)象一定有返回結(jié)果。
-
add_done_callback(func)
這個(gè)方法為 Future對(duì)象添加一個(gè)回調(diào)函數(shù)匠抗,該函數(shù)接收一個(gè) Future對(duì)象作為第一個(gè)參數(shù)故源,在函數(shù)里我們可以通過這個(gè)對(duì)象來取得其執(zhí)行結(jié)果。
-
使用過
asyncio
庫(kù)的朋友可能會(huì)疑惑為什么沒有Task
類汞贸,這是因?yàn)?Task
類是Future
類的子類绳军,我們可以將它們視作具有相同功能的兩個(gè)類
三、使用異步的基本方法
首先矢腻,對(duì)于少量的請(qǐng)求(幾百)我們不推薦使用異步门驾,一般是成千上萬的請(qǐng)求我們才使用異步,比如說爬取全站踏堡。
在同步代碼中我們爬取的一般步驟是:請(qǐng)求頁面---->解析頁面---->獲取結(jié)果---->保存結(jié)果
異步中也是類似的順序猎唁,不過我們需要使用回調(diào)來確保它們按順序執(zhí)行,像下面這樣:
請(qǐng)求頁面---->回調(diào):解析頁面---->獲取結(jié)果---->保存頁面(異步)
比如我們要獲取簡(jiǎn)書用戶的關(guān)注列表顷蟆,我們的代碼順序應(yīng)該是:
請(qǐng)求頁面---->回調(diào):處理頁面---->獲取結(jié)果并打印诫隅,代碼如下:
#-*- coding: utf-8 -*
import asyncio
import aiohttp
import random
from lxml import etree
PER_NUM = 9
async def get_response(url, **kwargs):
if 'headers' not in kwargs:
kwargs['headers'] = {
'User-Agent': "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",
}
async with session.get(url, **kwargs) as response:
print(response.status)
return await response.read()
def process_response(future):
dom = etree.HTML(future.result())
items = dom.xpath('//ul/li//div[@class="info"]')
for item in items:
user = {}
user['uid'] = item.xpath('./a/@href')[0].split('/')[2]
user['follow_num'] = int(item.xpath('./div/span[1]/text()')[0].replace('關(guān)注', '').strip())
user['fans_num'] = int(item.xpath('./div/span[2]/text()')[0].replace('粉絲', '').strip())
user['article_num'] = int(item.xpath('./div/span[3]/text()')[0].replace('文章', '').strip())
def entry_point(param):
if isinstance(param, asyncio.Future):
users = param.result()
else:
users = param
for user in users:
uid = user['uid']
follow_num = user['follow_num']
max_page = int(follow_num / PER_NUM) if (follow_num % PER_NUM) == 0 else int(follow_num / PER_NUM)+1
following_urls = ['http://www.reibang.com/users/{}/following?page={}'.format(uid, i) for i in
range(1, max_page+1)]
for following_url in following_urls:
task = loop.create_task(get_response(following_url))
task.add_done_callback(process_response)
loop = asyncio.get_event_loop()
session = aiohttp.ClientSession(loop=loop)
users = [{'uid': 'a3ea268aeb60', 'follow_num': 525, 'fans_num': 2521, 'article_num': 118}]
entry_point(users)
loop.run_forever()
在段代碼中我們通過 entry_point
函數(shù)來將所有的請(qǐng)求添加到事件循環(huán)中,并且為每個(gè)請(qǐng)求添加了一個(gè)回調(diào)函數(shù)來獲取關(guān)注者的信息帐偎,示意圖如下: