python 異步實(shí)戰(zhàn)(上)

1 什么是異步編程

通過學(xué)習(xí)相關(guān)概念杯道,我們逐步解釋異步編程是什么澡绩。

1.1 阻塞

  • 程序未得到所需計(jì)算資源時(shí)被掛起的狀態(tài)。

  • 程序在等待某個(gè)操作完成期間滑蚯,自身無法繼續(xù)干別的事情浪蹂,則稱該程序在該操作上是阻塞的。

  • 常見的阻塞形式有:網(wǎng)絡(luò)I/O阻塞告材、磁盤I/O阻塞坤次、用戶輸入阻塞等。

阻塞是無處不在的斥赋,包括CPU切換上下文時(shí)浙踢,所有的進(jìn)程都無法真正干事情,它們也會(huì)被阻塞灿渴。(如果是多核CPU則正在執(zhí)行上下文切換操作的核不可被利用。)

1.2 非阻塞

  • 程序在等待某操作過程中胰舆,自身不被阻塞骚露,可以繼續(xù)運(yùn)行干別的事情,則稱該程序在該操作上是非阻塞的缚窿。

  • 非阻塞并不是在任何程序級(jí)別棘幸、任何情況下都可以存在的。

  • 僅當(dāng)程序封裝的級(jí)別可以囊括獨(dú)立的子程序單元時(shí)倦零,它才可能存在非阻塞狀態(tài)误续。

非阻塞的存在是因?yàn)樽枞嬖冢驗(yàn)槟硞€(gè)操作阻塞導(dǎo)致的耗時(shí)與效率低下扫茅,我們才要把它變成非阻塞的蹋嵌。

1.3 同步

  • 不同程序單元為了完成某個(gè)任務(wù),在執(zhí)行過程中需靠某種通信方式以協(xié)調(diào)一致葫隙,稱這些程序單元是同步執(zhí)行的栽烂。

  • 例如購物系統(tǒng)中更新商品庫存,需要用“行鎖”作為通信信號(hào)恋脚,讓不同的更新請(qǐng)求強(qiáng)制排隊(duì)順序執(zhí)行腺办,那更新庫存的操作是同步的。

  • 簡(jiǎn)言之糟描,同步意味著有序怀喉。

1.4 異步

  • 為完成某個(gè)任務(wù),不同程序單元之間過程中無需通信協(xié)調(diào)船响,也能完成任務(wù)的方式躬拢。

  • 不相關(guān)的程序單元之間可以是異步的躲履。

  • 例如,爬蟲下載網(wǎng)頁估灿。調(diào)度程序調(diào)用下載程序后崇呵,即可調(diào)度其他任務(wù),而無需與該下載任務(wù)保持通信以協(xié)調(diào)行為馅袁。不同網(wǎng)頁的下載域慷、保存等操作都是無關(guān)的,也無需相互通知協(xié)調(diào)汗销。這些異步操作的完成時(shí)刻并不確定犹褒。

  • 簡(jiǎn)言之,異步意味著無序弛针。

上文提到的“通信方式”通常是指異步和并發(fā)編程提供的同步原語叠骑,如信號(hào)量、鎖削茁、同步隊(duì)列等等宙枷。我們需知道,雖然這些通信方式是為了讓多個(gè)程序在一定條件下同步執(zhí)行茧跋,但正因?yàn)槭钱惒降拇嬖谖看裕判枰@些通信方式。如果所有程序都是按序執(zhí)行瘾杭,其本身就是同步的诅病,又何需這些同步信號(hào)呢?

1.5 并發(fā)

  • 并發(fā)描述的是程序的組織結(jié)構(gòu)粥烁。指程序要被設(shè)計(jì)成多個(gè)可獨(dú)立執(zhí)行的子任務(wù)贤笆。

  • 以利用有限的計(jì)算機(jī)資源使多個(gè)任務(wù)可以被實(shí)時(shí)或近實(shí)時(shí)執(zhí)行為目的。

1.6 并行

  • 并行描述的是程序的執(zhí)行狀態(tài)讨阻。指多個(gè)任務(wù)同時(shí)被執(zhí)行芥永。

  • 以利用富余計(jì)算資源(多核CPU)加速完成多個(gè)任務(wù)為目的。

并發(fā)提供了一種程序組織結(jié)構(gòu)方式钝吮,讓問題的解決方案可以并行執(zhí)行恤左,但并行執(zhí)行不是必須的。

1.7 概念總結(jié)

  • 并行是為了利用多核加速多任務(wù)完成的進(jìn)度

  • 并發(fā)是為了讓獨(dú)立的子任務(wù)都有機(jī)會(huì)被盡快執(zhí)行搀绣,但不一定能加速整體進(jìn)度

  • 非阻塞是為了提高程序整體執(zhí)行效率

  • 異步是高效地組織非阻塞任務(wù)的方式

要支持并發(fā)飞袋,必須拆分為多任務(wù),不同任務(wù)相對(duì)而言才有阻塞/非阻塞链患、同步/異步巧鸭。所以,并發(fā)麻捻、異步纲仍、非阻塞三個(gè)詞總是如影隨形呀袱。

1.8 異步編程

  • 以進(jìn)程、線程郑叠、協(xié)程夜赵、函數(shù)/方法作為執(zhí)行任務(wù)程序的基本單位,結(jié)合回調(diào)乡革、事件循環(huán)寇僧、信號(hào)量等機(jī)制,以提高程序整體執(zhí)行效率和并發(fā)能力的編程方式沸版。

如果在某程序的運(yùn)行時(shí)嘁傀,能根據(jù)已經(jīng)執(zhí)行的指令準(zhǔn)確判斷它接下來要進(jìn)行哪個(gè)具體操作,那它是同步程序视粮,反之則為異步程序细办。(無序與有序的區(qū)別)

同步/異步、阻塞/非阻塞并非水火不容蕾殴,要看討論的程序所處的封裝級(jí)別笑撞。例如購物程序在處理多個(gè)用戶的瀏覽請(qǐng)求可以是異步的,而更新庫存時(shí)必須是同步的钓觉。

1.9 異步之難(nán)

  • 控制不住“計(jì)幾”寫的程序茴肥,因?yàn)槠鋱?zhí)行順序不可預(yù)料,當(dāng)下正要發(fā)生什么事件不可預(yù)料议谷。在并行情況下更為復(fù)雜和艱難。

所以堕虹,幾乎所有的異步框架都將異步編程模型簡(jiǎn)化一次只允許處理一個(gè)事件卧晓。故而有關(guān)異步的討論幾乎都集中在了單線程內(nèi)。

  • 如果某事件處理程序需要長時(shí)間執(zhí)行赴捞,所有其他部分都會(huì)被阻塞逼裆。

所以,一旦采取異步編程赦政,每個(gè)異步調(diào)用必須“足夠小”胜宇,不能耗時(shí)太久。如何拆分異步任務(wù)成了難題恢着。

  • 程序下一步行為往往依賴上一步執(zhí)行結(jié)果桐愉,如何知曉上次異步調(diào)用已完成并獲取結(jié)果?

  • 回調(diào)(Callback)成了必然選擇掰派。那又需要面臨“回調(diào)地獄”的折磨从诲。

  • 同步代碼改為異步代碼,必然破壞代碼結(jié)構(gòu)靡羡。

  • 解決問題的邏輯也要轉(zhuǎn)變系洛,不再是一條路走到黑俊性,需要精心安排異步任務(wù)。

2 苦心異步為哪般

如上文所述描扯,異步編程面臨諸多難點(diǎn)定页,Python 之父親自上陣打磨4年才使 asyncio 模塊在Python 3.6中“轉(zhuǎn)正”,如此苦心為什么绽诚?答案只有一個(gè):它值得典徊!下面我們看看為何而值得。

2.1 CPU的時(shí)間觀

image

我們將一個(gè) 2.6GHz 的 CPU 擬人化憔购,假設(shè)它執(zhí)行一條命令的時(shí)間宫峦,他它感覺上過了一秒鐘。CPU是計(jì)算機(jī)的處理核心玫鸟,也是最寶貴的資源导绷,如果有浪費(fèi)CPU的運(yùn)行時(shí)間,導(dǎo)致其利用率不足屎飘,那程序效率必然低下(因?yàn)閷?shí)際上有資源可以使效率更高)妥曲。

如上圖所示,在千兆網(wǎng)上傳輸2KB數(shù)據(jù)钦购,CPU感覺過了14個(gè)小時(shí)檐盟,如果是在10M的公網(wǎng)上呢?那效率會(huì)低百倍押桃!如果在這么長的一段時(shí)間內(nèi)葵萎,CPU只是傻等結(jié)果而不能去干其他事情,是不是在浪費(fèi)CPU的青春唱凯?

魯迅說羡忘,浪費(fèi)“CPU”的時(shí)間等于謀財(cái)害命。而兇手就是程序猿磕昼。

2.2 面臨的問題

  • 成本問題

如果一個(gè)程序不能有效利用一臺(tái)計(jì)算機(jī)資源卷雕,那必然需要更多的計(jì)算機(jī)通過運(yùn)行更多的程序?qū)嵗齺韽浹a(bǔ)需求缺口。例如我前不久主導(dǎo)重寫的項(xiàng)目票从,使用Python異步編程漫雕,改版后由原來的7臺(tái)服務(wù)器削減至3臺(tái),成本驟降57%峰鄙。一臺(tái)AWS m4.xlarge 型通用服務(wù)器按需付費(fèi)實(shí)例一年價(jià)格約 1.2 萬人民幣浸间。

  • 效率問題

如果不在乎錢的消耗,那也會(huì)在意效率問題吟榴。當(dāng)服務(wù)器數(shù)量堆疊到一定規(guī)模后发框,如果不改進(jìn)軟件架構(gòu)和實(shí)現(xiàn),加機(jī)器是徒勞,而且運(yùn)維成本會(huì)驟然增加梅惯。比如別人家的電商平臺(tái)支持6000單/秒支付宪拥,而自家在下單量才支撐2000單/秒,在雙十一這種活動(dòng)的時(shí)候铣减,錢送上門也賺不到她君。

  • C10k/C10M挑戰(zhàn)

C10k(concurrently handling 10k connections)是一個(gè)在1999年被提出來的技術(shù)挑戰(zhàn),如何在一顆1GHz CPU葫哗,2G內(nèi)存缔刹,1gbps網(wǎng)絡(luò)環(huán)境下,讓單臺(tái)服務(wù)器同時(shí)為1萬個(gè)客戶端提供FTP服務(wù)劣针。而到了2010年后校镐,隨著硬件技術(shù)的發(fā)展,這個(gè)問題被延伸為C10M捺典,即如何利用8核心CPU鸟廓,64G內(nèi)存,在10gbps的網(wǎng)絡(luò)上保持1000萬并發(fā)連接襟己,或是每秒鐘處理100萬的連接引谜。(兩種類型的計(jì)算機(jī)資源在各自的時(shí)代都約為1200美元)

成本和效率問題是從企業(yè)經(jīng)營角度講,C10k/C10M問題則是從技術(shù)角度出發(fā)挑戰(zhàn)軟硬件極限擎浴。C10k/C10M 問題得解员咽,成本問題和效率問題迎刃而解。

2.3 解決方案

《約束理論與企業(yè)優(yōu)化》中指出:“除了瓶頸之外贮预,任何改進(jìn)都是幻覺贝室。

CPU告訴我們,它自己很快仿吞,而上下文切換慢滑频、內(nèi)存讀數(shù)據(jù)慢、磁盤尋址與取數(shù)據(jù)慢茫藏、網(wǎng)絡(luò)傳輸慢……總之误趴,離開CPU 后的一切霹琼,除了一級(jí)高速緩存务傲,都很慢。我們觀察計(jì)算機(jī)的組成可以知道枣申,主要由運(yùn)算器售葡、控制器、存儲(chǔ)器忠藤、輸入設(shè)備挟伙、輸出設(shè)備五部分組成。運(yùn)算器和控制器主要集成在CPU中模孩,除此之外全是I/O尖阔,包括讀寫內(nèi)存贮缅、讀寫磁盤、讀寫網(wǎng)卡全都是I/O介却。I/O成了最大的瓶頸谴供。

異步程序可以提高效率,而最大的瓶頸在I/O齿坷,業(yè)界誕生的解決方案沒出意料:異步I/O吧桂肌,異步I/O吧,異步I/O吧吧永淌!

3 異步I/O進(jìn)化之路

如今崎场,地球上最發(fā)達(dá)、規(guī)模最龐大的計(jì)算機(jī)程序遂蛀,莫過于因特網(wǎng)谭跨。而從CPU的時(shí)間觀中可知,網(wǎng)絡(luò)I/O是最大的I/O瓶頸答恶,除了宕機(jī)沒有比它更慢的饺蚊。所以,諸多異步框架都對(duì)準(zhǔn)的是網(wǎng)絡(luò)I/O悬嗓。

我們從一個(gè)爬蟲例子說起污呼,從因特網(wǎng)上下載10篇網(wǎng)頁。

3.1 同步阻塞方式

最容易想到的解決方案就是依次下載包竹,從建立socket連接到發(fā)送網(wǎng)絡(luò)請(qǐng)求再到讀取響應(yīng)數(shù)據(jù)燕酷,順序進(jìn)行。

image.gif

注:總體耗時(shí)約為4.5秒周瞎。(因網(wǎng)絡(luò)波動(dòng)每次測(cè)試結(jié)果有所變動(dòng)苗缩,本文取多次平均值)

如上圖所示,blocking_way() 的作用是建立 socket 連接声诸,發(fā)送HTTP請(qǐng)求酱讶,然后從 socket 讀取HTTP響應(yīng)并返回?cái)?shù)據(jù)。示例中我們請(qǐng)求了 example.com 的首頁彼乌。在sync_way() 執(zhí)行了10次泻肯,即下載 example.com 首頁10次。

在示例代碼中有兩個(gè)關(guān)鍵點(diǎn)慰照。一是第10行的 sock.connect(('example.com', 80))灶挟,該調(diào)用的作用是向example.com主機(jī)的80端口發(fā)起網(wǎng)絡(luò)連接請(qǐng)求。 二是第14行毒租、第18行的sock.recv(4096)稚铣,該調(diào)用的作用是從socket上讀取4K字節(jié)數(shù)據(jù)。

我們知道,創(chuàng)建網(wǎng)絡(luò)連接惕医,多久能創(chuàng)建完成不是客戶端決定的耕漱,而是由網(wǎng)絡(luò)狀況和服務(wù)端處理能力共同決定。服務(wù)端什么時(shí)候返回了響應(yīng)數(shù)據(jù)并被客戶端接收到可供程序讀取抬伺,也是不可預(yù)測(cè)的孤个。所以sock.connect()sock.recv()這兩個(gè)調(diào)用在默認(rèn)情況下是阻塞的。

注:sock.send()函數(shù)并不會(huì)阻塞太久沛简,它只負(fù)責(zé)將請(qǐng)求數(shù)據(jù)拷貝到TCP/IP協(xié)議棧的系統(tǒng)緩沖區(qū)中就返回齐鲤,并不等待服務(wù)端返回的應(yīng)答確認(rèn)。

假設(shè)網(wǎng)絡(luò)環(huán)境很差椒楣,創(chuàng)建網(wǎng)絡(luò)連接需要1秒鐘给郊,那么sock.connect()就得阻塞1秒鐘,等待網(wǎng)絡(luò)連接成功捧灰。這1秒鐘對(duì)一顆2.6GHz的CPU來講淆九,仿佛過去了83年,然而它不能干任何事情毛俏。sock.recv()也是一樣的必須得等到服務(wù)端的響應(yīng)數(shù)據(jù)已經(jīng)被客戶端接收炭庙。我們下載10篇網(wǎng)頁,這個(gè)阻塞過程就得重復(fù)10次煌寇。如果一個(gè)爬蟲系統(tǒng)每天要下載1000萬篇網(wǎng)頁呢焕蹄?!

上面說了很多阀溶,我們力圖說明一件事:同步阻塞的網(wǎng)絡(luò)交互方式腻脏,效率低十分低下。特別是在網(wǎng)絡(luò)交互頻繁的程序中银锻。這種方式根本不可能挑戰(zhàn)C10K/C10M永品。

3.2 改進(jìn)方式:多進(jìn)程

在一個(gè)程序內(nèi),依次執(zhí)行10次太耗時(shí)击纬,那開10個(gè)一樣的程序同時(shí)執(zhí)行不就行了鼎姐。于是我們想到了多進(jìn)程編程。為什么會(huì)先想到多進(jìn)程呢更振?發(fā)展脈絡(luò)如此炕桨。在更早的操作系統(tǒng)(Linux 2.4)及其以前,進(jìn)程是 OS 調(diào)度任務(wù)的實(shí)體殃饿,是面向進(jìn)程設(shè)計(jì)的OS谋作。

image.gif

注:總體耗時(shí)約為 0.6 秒芋肠。

改善效果立竿見影乎芳。但仍然有問題。總體耗時(shí)并沒有縮減到原來的十分之一奈惑,而是九分之一左右吭净,還有一些時(shí)間耗到哪里去了?進(jìn)程切換開銷肴甸。

進(jìn)程切換開銷不止像“CPU的時(shí)間觀”所列的“上下文切換”那么低寂殉。CPU從一個(gè)進(jìn)程切換到另一個(gè)進(jìn)程,需要把舊進(jìn)程運(yùn)行時(shí)的寄存器狀態(tài)原在、內(nèi)存狀態(tài)全部保存好友扰,再將另一個(gè)進(jìn)程之前保存的數(shù)據(jù)恢復(fù)。對(duì)CPU來講庶柿,幾個(gè)小時(shí)就干等著村怪。當(dāng)進(jìn)程數(shù)量大于CPU核心數(shù)量時(shí),進(jìn)程切換是必然需要的浮庐。

除了切換開銷甚负,多進(jìn)程還有另外的缺點(diǎn)。一般的服務(wù)器在能夠穩(wěn)定運(yùn)行的前提下审残,可以同時(shí)處理的進(jìn)程數(shù)在數(shù)十個(gè)到數(shù)百個(gè)規(guī)模梭域。如果進(jìn)程數(shù)量規(guī)模更大,系統(tǒng)運(yùn)行將不穩(wěn)定搅轿,而且可用內(nèi)存資源往往也會(huì)不足病涨。

多進(jìn)程解決方案在面臨每天需要成百上千萬次下載任務(wù)的爬蟲系統(tǒng),或者需要同時(shí)搞定數(shù)萬并發(fā)的電商系統(tǒng)來說璧坟,并不適合没宾。

除了切換開銷大,以及可支持的任務(wù)規(guī)模小之外沸柔,多進(jìn)程還有其他缺點(diǎn)循衰,如狀態(tài)共享等問題,后文會(huì)有提及褐澎,此處不再細(xì)究会钝。

3.3 繼續(xù)改進(jìn):多線程

由于線程的數(shù)據(jù)結(jié)構(gòu)比進(jìn)程更輕量級(jí),同一個(gè)進(jìn)程可以容納多個(gè)線程工三,從進(jìn)程到線程的優(yōu)化由此展開迁酸。后來的OS也把調(diào)度單位由進(jìn)程轉(zhuǎn)為線程,進(jìn)程只作為線程的容器俭正,用于管理進(jìn)程所需的資源奸鬓。而且OS級(jí)別的線程是可以被分配到不同的CPU核心同時(shí)運(yùn)行的讯檐。

image.gif

注:總體運(yùn)行時(shí)間約0.43秒棺耍。

結(jié)果符合預(yù)期,比多進(jìn)程耗時(shí)要少些疯攒。從運(yùn)行時(shí)間上看,多線程似乎已經(jīng)解決了切換開銷大的問題澡罚。而且可支持的任務(wù)數(shù)量規(guī)模伸但,也變成了數(shù)百個(gè)到數(shù)千個(gè)。

但是留搔,多線程仍有問題更胖,特別是Python里的多線程。首先隔显,Python中的多線程因?yàn)镚IL的存在却妨,它們并不能利用CPU多核優(yōu)勢(shì),一個(gè)Python進(jìn)程中括眠,只允許有一個(gè)線程處于運(yùn)行狀態(tài)管呵。那為什么結(jié)果還是如預(yù)期,耗時(shí)縮減到了十分之一哺窄?

因?yàn)樵谧鲎枞南到y(tǒng)調(diào)用時(shí)捐下,例如sock.connect(),sock.recv()時(shí),當(dāng)前線程會(huì)釋放GIL萌业,讓別的線程有執(zhí)行機(jī)會(huì)坷襟。但是單個(gè)線程內(nèi),在阻塞調(diào)用上還是阻塞的生年。

小提示:Python中 time.sleep 是阻塞的婴程,都知道使用它要謹(jǐn)慎,但在多線程編程中抱婉,time.sleep 并不會(huì)阻塞其他線程档叔。

除了GIL之外,所有的多線程還有通病蒸绩。它們是被OS調(diào)度衙四,調(diào)度策略是搶占式的,以保證同等優(yōu)先級(jí)的線程都有均等的執(zhí)行機(jī)會(huì)患亿,那帶來的問題是:并不知道下一時(shí)刻是哪個(gè)線程被運(yùn)行传蹈,也不知道它正要執(zhí)行的代碼是什么。所以就可能存在競(jìng)態(tài)條件步藕。

例如爬蟲工作線程從任務(wù)隊(duì)列拿待抓取URL的時(shí)候惦界,如果多個(gè)爬蟲線程同時(shí)來取,那這個(gè)任務(wù)到底該給誰咙冗?那就需要用到“鎖”或“同步隊(duì)列”來保證下載任務(wù)不會(huì)被重復(fù)執(zhí)行沾歪。

而且線程支持的多任務(wù)規(guī)模,在數(shù)百到數(shù)千的數(shù)量規(guī)模雾消。在大規(guī)模的高頻網(wǎng)絡(luò)交互系統(tǒng)中灾搏,仍然有些吃力挫望。當(dāng)然,多線程最主要的問題還是競(jìng)態(tài)條件确镊。

3.4 非阻塞方式

終于,我們來到了非阻塞解決方案范删。先來看看最原始的非阻塞如何工作的蕾域。

image.gif

注:總體耗時(shí)約4.3秒。

首先注意到兩點(diǎn)到旦,就感覺被騙了旨巷。一是耗時(shí)與同步阻塞相當(dāng),二是代碼更復(fù)雜添忘。要非阻塞何用采呐?且慢。

上圖第9行代碼sock.setblocking(False)告訴OS搁骑,讓socket上阻塞調(diào)用都改為非阻塞的方式斧吐。之前我們說到,非阻塞就是在做一件事的時(shí)候仲器,不阻礙調(diào)用它的程序做別的事情煤率。上述代碼在執(zhí)行完 sock.connect()sock.recv() 后的確不再阻塞,可以繼續(xù)往下執(zhí)行請(qǐng)求準(zhǔn)備的代碼或者是執(zhí)行下一次讀取乏冀。

代碼變得更復(fù)雜也是上述原因所致蝶糯。第11行要放在try語句內(nèi),是因?yàn)?code>socket在發(fā)送非阻塞連接請(qǐng)求過程中辆沦,系統(tǒng)底層也會(huì)拋出異常昼捍。connect()被調(diào)用之后,立即可以往下執(zhí)行第15和16行的代碼肢扯。

需要while循環(huán)不斷嘗試 send()妒茬,是因?yàn)?code>connect()已經(jīng)非阻塞,在send()之時(shí)并不知道 socket 的連接是否就緒蔚晨,只有不斷嘗試郊闯,嘗試成功為止,即發(fā)送數(shù)據(jù)成功了蛛株。recv()調(diào)用也是同理团赁。

雖然 connect()recv() 不再阻塞主程序,空出來的時(shí)間段CPU沒有空閑著谨履,但并沒有利用好這空閑去做其他有意義的事情欢摄,而是在循環(huán)嘗試讀寫 socket (不停判斷非阻塞調(diào)用的狀態(tài)是否就緒)。還得處理來自底層的可忽略的異常笋粟。也不能同時(shí)處理多個(gè) socket 怀挠。

然后10次下載任務(wù)仍然按序進(jìn)行析蝴。所以總體執(zhí)行時(shí)間和同步阻塞相當(dāng)。如果非得這樣子绿淋,那還不如同步阻塞算了闷畸。

3.5 非阻塞改進(jìn)

3.5.1 epoll

判斷非阻塞調(diào)用是否就緒如果 OS 能做,是不是應(yīng)用程序就可以不用自己去等待和判斷了吞滞,就可以利用這個(gè)空閑去做其他事情以提高效率佑菩。

所以OS將I/O狀態(tài)的變化都封裝成了事件,如可讀事件裁赠、可寫事件殿漠。并且提供了專門的系統(tǒng)模塊讓應(yīng)用程序可以接收事件通知。這個(gè)模塊就是select佩捞。讓應(yīng)用程序可以通過select注冊(cè)文件描述符和回調(diào)函數(shù)绞幌。當(dāng)文件描述符的狀態(tài)發(fā)生變化時(shí),select 就調(diào)用事先注冊(cè)的回調(diào)函數(shù)一忱。

select因其算法效率比較低莲蜘,后來改進(jìn)成了poll,再后來又有進(jìn)一步改進(jìn)帘营,BSD內(nèi)核改進(jìn)成了kqueue模塊菇夸,而Linux內(nèi)核改進(jìn)成了epoll模塊。這四個(gè)模塊的作用都相同仪吧,暴露給程序員使用的API也幾乎一致庄新,區(qū)別在于kqueueepoll 在處理大量文件描述符時(shí)效率更高。

鑒于 Linux 服務(wù)器的普遍性薯鼠,以及為了追求更高效率择诈,所以我們常常聽聞被探討的模塊都是 epoll

3.5.2 回調(diào)(Callback)

把I/O事件的等待和監(jiān)聽任務(wù)交給了 OS出皇,那 OS 在知道I/O狀態(tài)發(fā)生改變后(例如socket連接已建立成功可發(fā)送數(shù)據(jù))羞芍,它又怎么知道接下來該干嘛呢?只能回調(diào)郊艘。

需要我們將發(fā)送數(shù)據(jù)與讀取數(shù)據(jù)封裝成獨(dú)立的函數(shù)荷科,讓epoll代替應(yīng)用程序監(jiān)聽socket狀態(tài)時(shí),得告訴epoll:“如果socket狀態(tài)變?yōu)榭梢酝飳憯?shù)據(jù)(連接建立成功了)纱注,請(qǐng)調(diào)用HTTP請(qǐng)求發(fā)送函數(shù)畏浆。如果socket 變?yōu)榭梢宰x數(shù)據(jù)了(客戶端已收到響應(yīng)),請(qǐng)調(diào)用響應(yīng)處理函數(shù)狞贱】袒瘢”

于是我們利用epoll結(jié)合回調(diào)機(jī)制重構(gòu)爬蟲代碼:

image.gif

此處和前面稍有不同的是,我們將下載不同的10個(gè)頁面瞎嬉,相對(duì)URL路徑存放于urls_todo集合中⌒保現(xiàn)在看看改進(jìn)在哪厚柳。

首先,不斷嘗試send()recv() 的兩個(gè)循環(huán)被消滅掉了沐兵。

其次别垮,導(dǎo)入了selectors模塊,并創(chuàng)建了一個(gè)DefaultSelector 實(shí)例扎谎。Python標(biāo)準(zhǔn)庫提供的selectors模塊是對(duì)底層select/poll/epoll/kqueue的封裝碳想。DefaultSelector類會(huì)根據(jù) OS 環(huán)境自動(dòng)選擇最佳的模塊,那在 Linux 2.5.44 及更新的版本上都是epoll了簿透。

然后移袍,在第25行和第31行分別注冊(cè)了socket可寫事件(EVENT_WRITE)和可讀事件(EVENT_READ)發(fā)生后應(yīng)該采取的回調(diào)函數(shù)解藻。

雖然代碼結(jié)構(gòu)清晰了老充,阻塞操作也交給OS去等待和通知了,但是螟左,我們要抓取10個(gè)不同頁面啡浊,就得創(chuàng)建10個(gè)Crawler實(shí)例,就有20個(gè)事件將要發(fā)生胶背,那如何從selector里獲取當(dāng)前正發(fā)生的事件巷嚣,并且得到對(duì)應(yīng)的回調(diào)函數(shù)去執(zhí)行呢?

3.5.3 事件循環(huán)(Event Loop)

為了解決上述問題钳吟,那我們只得采用老辦法廷粒,寫一個(gè)循環(huán),去訪問selector模塊红且,等待它告訴我們當(dāng)前是哪個(gè)事件發(fā)生了坝茎,應(yīng)該對(duì)應(yīng)哪個(gè)回調(diào)。這個(gè)等待事件通知的循環(huán)暇番,稱之為事件循環(huán)嗤放。

image.gif

上述代碼中,我們用stopped全局變量控制事件循環(huán)何時(shí)停止壁酬。當(dāng)urls_todo消耗完畢后次酌,會(huì)標(biāo)記stoppedTrue

重要的是第49行代碼舆乔,selector.select() 是一個(gè)阻塞調(diào)用岳服,因?yàn)槿绻录话l(fā)生,那應(yīng)用程序就沒事件可處理希俩,所以就干脆阻塞在這里等待事件發(fā)生派阱。那可以推斷,如果只下載一篇網(wǎng)頁斜纪,一定要connect()之后才能send()繼而recv()贫母,那它的效率和阻塞的方式是一樣的文兑。因?yàn)椴辉?code>connect()/recv()上阻塞,也得在select()上阻塞腺劣。

所以绿贞,selector機(jī)制(后文以此稱呼代指epoll/kqueue)是設(shè)計(jì)用來解決大量并發(fā)連接的。當(dāng)系統(tǒng)中有大量非阻塞調(diào)用橘原,能隨時(shí)產(chǎn)生事件的時(shí)候籍铁,selector機(jī)制才能發(fā)揮最大的威力。

下面是如何啟創(chuàng)建10個(gè)下載任務(wù)和啟動(dòng)事件循環(huán)的:

image.gif

注:總體耗時(shí)約0.45秒趾断。

上述執(zhí)行結(jié)果令人振奮拒名。在單線程內(nèi)用 事件循環(huán)+回調(diào) 搞定了10篇網(wǎng)頁同時(shí)下載的問題。這芋酌,已經(jīng)是異步編程了增显。雖然有一個(gè)for 循環(huán)順序地創(chuàng)建Crawler 實(shí)例并調(diào)用 fetch 方法,但是fetch 內(nèi)僅有connect()和注冊(cè)可寫事件脐帝,而且從執(zhí)行時(shí)間明顯可以推斷同云,多個(gè)下載任務(wù)確實(shí)在同時(shí)進(jìn)行!

上述代碼異步執(zhí)行的過程:

  1. 創(chuàng)建Crawler 實(shí)例堵腹;

  2. 調(diào)用fetch方法炸站,會(huì)創(chuàng)建socket連接和在selector上注冊(cè)可寫事件;

  3. fetch內(nèi)并無阻塞操作疚顷,該方法立即返回旱易;

  4. 重復(fù)上述3個(gè)步驟,將10個(gè)不同的下載任務(wù)都加入事件循環(huán)腿堤;

  5. 啟動(dòng)事件循環(huán)阀坏,進(jìn)入第1輪循環(huán),阻塞在事件監(jiān)聽上释液;

  6. 當(dāng)某個(gè)下載任務(wù)EVENT_WRITE被觸發(fā)全释,回調(diào)其connected方法,第一輪事件循環(huán)結(jié)束误债;

  7. 進(jìn)入第2輪事件循環(huán)浸船,當(dāng)某個(gè)下載任務(wù)有事件觸發(fā),執(zhí)行其回調(diào)函數(shù)寝蹈;此時(shí)已經(jīng)不能推測(cè)是哪個(gè)事件發(fā)生李命,因?yàn)橛锌赡苁巧洗?code>connected里的EVENT_READ先被觸發(fā),也可能是其他某個(gè)任務(wù)的EVENT_WRITE被觸發(fā)箫老;(此時(shí)封字,原來在一個(gè)下載任務(wù)上會(huì)阻塞的那段時(shí)間被利用起來執(zhí)行另一個(gè)下載任務(wù)了

  8. 循環(huán)往復(fù),直至所有下載任務(wù)被處理完成

  9. 退出事件循環(huán),結(jié)束整個(gè)下載程序

3.5.4 總結(jié)

目前為止阔籽,我們已經(jīng)從同步阻塞學(xué)習(xí)到了異步非阻塞流妻。掌握了在單線程內(nèi)同時(shí)并發(fā)執(zhí)行多個(gè)網(wǎng)絡(luò)I/O阻塞型任務(wù)的黑魔法。而且與多線程相比笆制,連線程切換都沒有了绅这,執(zhí)行回調(diào)函數(shù)是函數(shù)調(diào)用開銷,在線程的棧內(nèi)完成在辆,因此性能也更好证薇,單機(jī)支持的任務(wù)規(guī)模也變成了數(shù)萬到數(shù)十萬個(gè)。(不過我們知道:沒有免費(fèi)午餐匆篓,也沒有銀彈浑度。)

部分編程語言中,對(duì)異步編程的支持就止步于此(不含語言官方之外的擴(kuò)展)鸦概。需要程序猿直接使用epoll去注冊(cè)事件和回調(diào)箩张、維護(hù)一個(gè)事件循環(huán),然后大多數(shù)時(shí)間都花在設(shè)計(jì)回調(diào)函數(shù)上完残。

通過本節(jié)的學(xué)習(xí)伏钠,我們應(yīng)該認(rèn)識(shí)到横漏,不論什么編程語言谨设,但凡要做異步編程,上述的“事件循環(huán)+回調(diào)”這種模式是逃不掉的缎浇,盡管它可能用的不是epoll扎拣,也可能不是while循環(huán)。如果你找到了一種不屬于 “等會(huì)兒告訴你” 模型的異步方式素跺,請(qǐng)立即給我打電話(注意二蓝,打電話是Call)。

為什么我們?cè)谀承┊惒骄幊讨胁]有看到 CallBack 模式呢指厌?這就是我們接下來要探討的問題刊愚。本節(jié)是學(xué)習(xí)異步編程的一個(gè)終點(diǎn),也是另一個(gè)起點(diǎn)踩验。畢竟咱們講 Python 異步編程鸥诽,還沒提到其主角協(xié)程的用武之地。

4 Python 對(duì)異步I/O的優(yōu)化之路

我們將在本節(jié)學(xué)習(xí)到 Python 生態(tài)對(duì)異步編程的支持是如何繼承前文所述的“事件循環(huán)+回調(diào)”模式演變到asyncio的原生協(xié)程模式箕憾。

4.1 回調(diào)之痛牡借,以終為始

在第3節(jié)中,我們已經(jīng)學(xué)會(huì)了“事件循環(huán)+回調(diào)”的基本運(yùn)行原理袭异,可以基于這種方式在單線程內(nèi)實(shí)現(xiàn)異步編程钠龙。也確實(shí)能夠大大提高程序運(yùn)行效率。但是,剛才所學(xué)的只是最基本的碴里,然而在生產(chǎn)項(xiàng)目中沈矿,要應(yīng)對(duì)的復(fù)雜度會(huì)大大增加∫б福考慮如下問題:

  • 如果回調(diào)函數(shù)執(zhí)行不正常該如何细睡?

  • 如果回調(diào)里面還要嵌套回調(diào)怎么辦?要嵌套很多層怎么辦帝火?

  • 如果嵌套了多層溜徙,其中某個(gè)環(huán)節(jié)出錯(cuò)了會(huì)造成什么后果?

  • 如果有個(gè)數(shù)據(jù)需要被每個(gè)回調(diào)都處理怎么辦犀填?

  • ……

在實(shí)際編程中蠢壹,上述系列問題不可避免。在這些問題的背后隱藏著回調(diào)編程模式的一些缺點(diǎn)

  • 回調(diào)層次過多時(shí)代碼可讀性差

    def callback_1():
      # processing ...
      def callback_2():
          # processing.....
          def callback_3():
              # processing ....
              def callback_4():
                  #processing .....
                  def callback_5():
                      # processing ......
                  async_function(callback_5)
              async_function(callback_4)
          async_function(callback_3)
      async_function(callback_2)
    async_function(callback_1)
    
  • 破壞代碼結(jié)構(gòu)
    寫同步代碼時(shí)九巡,關(guān)聯(lián)的操作時(shí)自上而下運(yùn)行:

    do_a()
    do_b()
    

    如果 b 處理依賴于 a 處理的結(jié)果图贸,而 a 過程是異步調(diào)用,就不知 a 何時(shí)能返回值冕广,需要將后續(xù)的處理過程以callback的方式傳遞給 a 疏日,讓 a 執(zhí)行完以后可以執(zhí)行 b。代碼變化為:

    do_a(do_b())
    

    如果整個(gè)流程中全部改為異步處理撒汉,而流程比較長的話沟优,代碼邏輯就會(huì)成為這樣:

    do_a(do_b(do_c(do_d(do_e(do_f(......))))))
    

    上面實(shí)際也是回調(diào)地獄式的風(fēng)格,但這不是主要矛盾睬辐。主要在于挠阁,原本從上而下的代碼結(jié)構(gòu),要改成從內(nèi)到外的溯饵。先f侵俗,再e,再d丰刊,…隘谣,直到最外層 a 執(zhí)行完成。在同步版本中啄巧,執(zhí)行完a后執(zhí)行b寻歧,這是線程的指令指針控制著的流程,而在回調(diào)版本中棵帽,流程就是程序猿需要注意和安排的熄求。

  • 共享狀態(tài)管理困難
    回顧第3節(jié)爬蟲代碼,同步阻塞版的sock對(duì)象從頭使用到尾逗概,而在回調(diào)的版本中弟晚,我們必須在Crawler實(shí)例化后的對(duì)象self里保存它自己的sock對(duì)象。如果不是采用OOP的編程風(fēng)格,那需要把要共享的狀態(tài)接力似的傳遞給每一個(gè)回調(diào)卿城。多個(gè)異步調(diào)用之間枚钓,到底要共享哪些狀態(tài),事先就得考慮清楚瑟押,精心設(shè)計(jì)搀捷。

  • 錯(cuò)誤處理困難
    一連串的回調(diào)構(gòu)成一個(gè)完整的調(diào)用鏈。例如上述的 a 到 f多望。假如 d 拋了異常怎么辦嫩舟?整個(gè)調(diào)用鏈斷掉,接力傳遞的狀態(tài)也會(huì)丟失怀偷,這種現(xiàn)象稱為調(diào)用棧撕裂家厌。 c 不知道該干嘛,繼續(xù)異常椎工,然后是 b 異常饭于,接著 a 異常。好嘛维蒙,報(bào)錯(cuò)日志就告訴你掰吕,a 調(diào)用出錯(cuò)了,但實(shí)際是 d 出錯(cuò)颅痊。所以殖熟,為了防止棧撕裂,異常必須以數(shù)據(jù)的形式返回八千,而不是直接拋出異常吗讶,然后每個(gè)回調(diào)中需要檢查上次調(diào)用的返回值燎猛,以防錯(cuò)誤吞沒恋捆。

如果說代碼風(fēng)格難看是小事,但棧撕裂和狀態(tài)管理困難這兩個(gè)缺點(diǎn)會(huì)讓基于回調(diào)的異步編程很艱難重绷。所以不同編程語言的生態(tài)都在致力于解決這個(gè)問題沸停。才誕生了后來的PromiseCo-routine等解決方案昭卓。

Python 生態(tài)也以終為始愤钾,秉承著“程序猿不必難程序猿”的原則,讓語言和框架開發(fā)者苦逼一點(diǎn)候醒,也要讓應(yīng)用開發(fā)者舒坦能颁。在事件循環(huán)+回調(diào)的基礎(chǔ)上衍生出了基于協(xié)程的解決方案,代表作有 Tornado倒淫、Twisted伙菊、asyncio 等。接下來我們隨著 Python 生態(tài)異步編程的發(fā)展過程,深入理解Python異步編程镜硕。

4.2 核心問題

通過前面的學(xué)習(xí)运翼,我們清楚地認(rèn)識(shí)到異步編程最大的困難:異步任務(wù)何時(shí)執(zhí)行完畢?接下來要對(duì)異步調(diào)用的返回結(jié)果做什么操作兴枯?

上述問題我們已經(jīng)通過事件循環(huán)和回調(diào)解決了血淌。但是回調(diào)會(huì)讓程序變得復(fù)雜。要異步财剖,必回調(diào)悠夯,又是否有辦法規(guī)避其缺點(diǎn)呢?那需要弄清楚其本質(zhì)躺坟,為什么回調(diào)是必須的疗疟?還有使用回調(diào)時(shí)克服的那些缺點(diǎn)又是為了什么?

答案是程序?yàn)榱酥雷约阂呀?jīng)干了什么瞳氓?正在干什么策彤?將來要干什么?換言之匣摘,程序得知道當(dāng)前所處的狀態(tài)店诗,而且要將這個(gè)狀態(tài)在不同的回調(diào)之間延續(xù)下去。

多個(gè)回調(diào)之間的狀態(tài)管理困難音榜,那讓每個(gè)回調(diào)都能管理自己的狀態(tài)怎么樣庞瘸?鏈?zhǔn)秸{(diào)用會(huì)有棧撕裂的困難,讓回調(diào)之間不再鏈?zhǔn)秸{(diào)用怎樣赠叼?不鏈?zhǔn)秸{(diào)用的話擦囊,那又如何讓被調(diào)用者知道已經(jīng)完成了?那就讓這個(gè)回調(diào)通知那個(gè)回調(diào)如何嘴办?而且一個(gè)回調(diào)瞬场,不就是一個(gè)待處理任務(wù)嗎?

任務(wù)之間得相互通知涧郊,每個(gè)任務(wù)得有自己的狀態(tài)贯被。那不就是很古老的編程技法:協(xié)作式多任務(wù)?然而要在單線程內(nèi)做調(diào)度妆艘,啊哈彤灶,協(xié)程!每個(gè)協(xié)程具有自己的棧幀批旺,當(dāng)然能知道自己處于什么狀態(tài)幌陕,協(xié)程之間可以協(xié)作那自然可以通知?jiǎng)e的協(xié)程。

4.3 協(xié)程

  • 協(xié)程(Co-routine)汽煮,即是協(xié)作式的例程搏熄。

它是非搶占式的多任務(wù)子例程的概括茅诱,可以允許有多個(gè)入口點(diǎn)在例程中確定的位置來控制程序的暫停與恢復(fù)執(zhí)行。

例程是什么搬卒?編程語言定義的可被調(diào)用的代碼段瑟俭,為了完成某個(gè)特定功能而封裝在一起的一系列指令。一般的編程語言都用稱為函數(shù)或方法的代碼結(jié)構(gòu)來體現(xiàn)契邀。

4.4 基于生成器的協(xié)程

早期的 Pythoner 發(fā)現(xiàn) Python 中有種特殊的對(duì)象——生成器(Generator)摆寄,它的特點(diǎn)和協(xié)程很像。每一次迭代之間坯门,會(huì)暫停執(zhí)行微饥,繼續(xù)下一次迭代的時(shí)候還不會(huì)丟失先前的狀態(tài)。

為了支持用生成器做簡(jiǎn)單的協(xié)程古戴,Python 2.5 對(duì)生成器進(jìn)行了增強(qiáng)(PEP 342)欠橘,該增強(qiáng)提案的標(biāo)題是 “Coroutines via Enhanced Generators”。有了PEP 342的加持现恼,生成器可以通過yield 暫停執(zhí)行和向外返回?cái)?shù)據(jù)肃续,也可以通過send()向生成器內(nèi)發(fā)送數(shù)據(jù),還可以通過throw()向生成器內(nèi)拋出異常以便隨時(shí)終止生成器的運(yùn)行叉袍。

接下來始锚,我們用基于生成器的協(xié)程來重構(gòu)先前的爬蟲代碼。

4.4.1 未來對(duì)象(Future)

不用回調(diào)的方式了喳逛,怎么知道異步調(diào)用的結(jié)果呢瞧捌?先設(shè)計(jì)一個(gè)對(duì)象,異步調(diào)用執(zhí)行完的時(shí)候润文,就把結(jié)果放在它里面姐呐。這種對(duì)象稱之為未來對(duì)象。

image.gif

未來對(duì)象有一個(gè)result屬性典蝌,用于存放未來的執(zhí)行結(jié)果曙砂。還有個(gè)set_result()方法,是用于設(shè)置result的赠法,并且會(huì)在給result綁定值以后運(yùn)行事先給future添加的回調(diào)麦轰。回調(diào)是通過未來對(duì)象的add_done_callback()方法添加的砖织。

不要疑惑此處的callback,說好了不回調(diào)的嘛末荐?難道忘了我們?cè)?jīng)說的要異步侧纯,必回調(diào)。不過也別急甲脏,此處的回調(diào)眶熬,和先前學(xué)到的回調(diào)妹笆,還真有點(diǎn)不一樣。

4.4.2 重構(gòu) Crawler

現(xiàn)在不論如何娜氏,我們有了未來對(duì)象可以代表未來的值拳缠。先用Future來重構(gòu)爬蟲代碼。

image

和先前的回調(diào)版本對(duì)比贸弥,已經(jīng)有了較大差異窟坐。fetch 方法內(nèi)有了yield表達(dá)式,使它成為了生成器绵疲。我們知道生成器需要先調(diào)用next()迭代一次或者是先send(None)啟動(dòng)哲鸳,遇到yield之后便暫停。那這fetch生成器如何再次恢復(fù)執(zhí)行呢盔憨?至少 FutureCrawler都沒看到相關(guān)代碼徙菠。

4.4.3 任務(wù)對(duì)象(Task)

為了解決上述問題,我們只需遵循一個(gè)編程規(guī)則:?jiǎn)我宦氊?zé)郁岩,每種角色各司其職婿奔,如果還有工作沒有角色來做,那就創(chuàng)建一個(gè)角色去做问慎。沒人來恢復(fù)這個(gè)生成器的執(zhí)行么脸秽?沒人來管理生成器的狀態(tài)么?創(chuàng)建一個(gè)蝴乔,就叫Task好了记餐,很合適的名字。

image.gif

上述代碼中Task封裝了coro對(duì)象薇正,即初始化時(shí)傳遞給他的對(duì)象片酝,被管理的任務(wù)是待執(zhí)行的協(xié)程,故而這里的coro就是fetch()生成器挖腰。它還有個(gè)step()方法雕沿,在初始化的時(shí)候就會(huì)執(zhí)行一遍。step()內(nèi)會(huì)調(diào)用生成器的send()方法猴仑,初始化第一次發(fā)送的是None就驅(qū)動(dòng)了corofetch()的第一次執(zhí)行审轮。

send()完成之后,得到下一次的future辽俗,然后給下一次的future添加step()回調(diào)疾渣。原來add_done_callback()不是給寫爬蟲業(yè)務(wù)邏輯用的。此前的callback可就干的是業(yè)務(wù)邏輯呀崖飘。

再看fetch()生成器榴捡,其內(nèi)部寫完了所有的業(yè)務(wù)邏輯,包括如何發(fā)送請(qǐng)求朱浴,如何讀取響應(yīng)吊圾。而且注冊(cè)給selector的回調(diào)相當(dāng)簡(jiǎn)單达椰,就是給對(duì)應(yīng)的future對(duì)象綁定結(jié)果值。兩個(gè)yield表達(dá)式都是返回對(duì)應(yīng)的future對(duì)象项乒,然后返回Task.step()之內(nèi)啰劲,這樣Task, Future, Coroutine三者精妙地串聯(lián)在了一起。

初始化Task對(duì)象以后檀何,把fetch()給驅(qū)動(dòng)到了第44行yied f就完事了蝇裤,接下來怎么繼續(xù)?

4.4.4 事件循環(huán)(Event Loop)驅(qū)動(dòng)協(xié)程運(yùn)行

該事件循環(huán)上場(chǎng)了埃碱。接下來狼渊,只需等待已經(jīng)注冊(cè)的EVENT_WRITE事件發(fā)生礼华。事件循環(huán)就像心臟一般给猾,只要它開始跳動(dòng)乏梁,整個(gè)程序就會(huì)持續(xù)運(yùn)行。

image.gif

注:總體耗時(shí)約0.43秒似炎。

現(xiàn)在loop有了些許變化辛萍,callback()不再傳遞event_keyevent_mask參數(shù)。也就是說羡藐,這里的回調(diào)根本不關(guān)心是誰觸發(fā)了這個(gè)事件贩毕,結(jié)合fetch()可以知道,它只需完成對(duì)future設(shè)置結(jié)果值即可f.set_result()仆嗦。而且future是誰它也不關(guān)心辉阶,因?yàn)?strong>協(xié)程能夠保存自己的狀態(tài),知道自己的future是哪個(gè)瘩扼。也不用關(guān)心到底要設(shè)置什么值谆甜,因?yàn)橐O(shè)置什么值也是協(xié)程內(nèi)安排的。

此時(shí)的loop()集绰,真的成了一個(gè)心臟规辱,它只管往外泵血,不論這份血液是要輸送給大腦還是要給腳趾栽燕,只要它還在跳動(dòng)罕袋,生命就能延續(xù)。

4.4.5 生成器協(xié)程風(fēng)格和回調(diào)風(fēng)格對(duì)比總結(jié)

在回調(diào)風(fēng)格中:

  • 存在鏈?zhǔn)交卣{(diào)(雖然示例中嵌套回調(diào)只有一層)

  • 請(qǐng)求和響應(yīng)也不得不分為兩個(gè)回調(diào)以至于破壞了同步代碼那種結(jié)構(gòu)

  • 程序員必須在回調(diào)之間維護(hù)必須的狀態(tài)碍岔。

還有更多示例中沒有展示浴讯,但確實(shí)存在的問題,參見4.1節(jié)付秕。

而基于生成器協(xié)程的風(fēng)格:

  • 無鏈?zhǔn)秸{(diào)用

  • selector的回調(diào)里只管給future設(shè)置值兰珍,不再關(guān)心業(yè)務(wù)邏輯

  • loop 內(nèi)回調(diào)callback()不再關(guān)注是誰觸發(fā)了事件

  • 已趨近于同步代碼的結(jié)構(gòu)

  • 無需程序員在多個(gè)協(xié)程之間維護(hù)狀態(tài),例如哪個(gè)才是自己的sock

4.4.6 碉堡了询吴,但是代碼很丑掠河!能不能重構(gòu)?

如果說fetch的容錯(cuò)能力要更強(qiáng)猛计,業(yè)務(wù)功能也需要更完善唠摹,怎么辦?而且技術(shù)處理的部分(socket相關(guān)的)和業(yè)務(wù)處理的部分(請(qǐng)求與返回?cái)?shù)據(jù)的處理)混在一起奉瘤。

  • 創(chuàng)建socket連接可以抽象復(fù)用吧勾拉?

  • 循環(huán)讀取整個(gè)response可以抽象復(fù)用吧?

  • 循環(huán)內(nèi)處理socket.recv()的可以抽象復(fù)用吧盗温?

但是這些關(guān)鍵節(jié)點(diǎn)的地方都有yield藕赞,抽離出來的代碼也需要是生成器。而且fetch()自己也得是生成器卖局。生成器里玩生成器斧蜕,代碼好像要寫得更丑才可以……

Python 語言的設(shè)計(jì)者們也認(rèn)識(shí)到了這個(gè)問題,再次秉承著“程序猿不必為難程序猿”的原則砚偶,他們搗鼓出了一個(gè)yield from來解決生成器里玩生成器的問題批销。

4.5 用 yield from 改進(jìn)生成器協(xié)程

4.5.1 yield from語法介紹

yield from 是Python 3.3 新引入的語法(PEP 380)。它主要解決的就是在生成器里玩生成器不方便的問題染坯。它有兩大主要功能均芽。

第一個(gè)功能是:讓嵌套生成器不必通過循環(huán)迭代yield,而是直接yield from单鹿。以下兩種在生成器里玩子生成器的方式是等價(jià)的掀宋。

def gen_one():
    subgen = range(10)    yield from subgendef gen_two():
    subgen = range(10)    for item in subgen:        yield item

第二個(gè)功能就是在子生成器和原生成器的調(diào)用者之間打開雙向通道,兩者可以直接通信仲锄。

def gen():
    yield from subgen()def subgen():
    while True:
        x = yield
        yield x+1def main():
    g = gen()
    next(g)                # 驅(qū)動(dòng)生成器g開始執(zhí)行到第一個(gè) yield
    retval = g.send(1)     # 看似向生成器 gen() 發(fā)送數(shù)據(jù)
    print(retval)          # 返回2
    g.throw(StopIteration) # 看似向gen()拋入異常

通過上述代碼清晰地理解了yield from的雙向通道功能劲妙。關(guān)鍵字yield fromgen()內(nèi)部為subgen()main()開辟了通信通道。main()里可以直接將數(shù)據(jù)1發(fā)送給subgen(),subgen()也可以將計(jì)算后的數(shù)據(jù)2返回到main()里昼窗,main()里也可以直接向subgen()拋入異常以終止subgen()是趴。

順帶一提,yield from 除了可以 yield from <generator> 還可以 yield from <iterable>澄惊。

4.5.2 重構(gòu)代碼

抽象socket連接的功能:

image.gif

抽象單次recv()和讀取完整的response功能:

image.gif

三個(gè)關(guān)鍵點(diǎn)的抽象已經(jīng)完成唆途,現(xiàn)在重構(gòu)Crawler類:

image.gif

上面代碼整體來講沒什么問題,可復(fù)用的代碼已經(jīng)抽象出去掸驱,作為子生成器也可以使用 yield from 語法來獲取值肛搬。但另外有個(gè)點(diǎn)需要注意:在第24和第35行返回future對(duì)象的時(shí)候,我們了yield from f 而不是原來的yield f毕贼。yield可以直接作用于普通Python對(duì)象温赔,而yield from卻不行,所以我們對(duì)Future還要進(jìn)一步改造鬼癣,把它變成一個(gè)iterable對(duì)象就可以了陶贼。

image.gif

只是增加了__iter__()方法的實(shí)現(xiàn)啤贩。如果不把Future改成iterable也是可以的,還是用原來的yield f即可拜秧。那為什么需要改進(jìn)呢痹屹?

首先,我們是在基于生成器做協(xié)程枉氮,而生成器還得是生成器志衍,如果繼續(xù)混用yieldyield from 做協(xié)程,代碼可讀性和可理解性都不好聊替。其次楼肪,如果不改,協(xié)程內(nèi)還得關(guān)心它等待的對(duì)象是否可被yield惹悄,如果協(xié)程里還想繼續(xù)返回協(xié)程怎么辦春叫?如果想調(diào)用普通函數(shù)動(dòng)態(tài)生成一個(gè)Future對(duì)象再返回怎么辦?

所以俘侠,在Python 3.3 引入yield from新語法之后象缀,就不再推薦用yield去做協(xié)程。全都使用yield from由于其雙向通道的功能爷速,可以讓我們?cè)趨f(xié)程間隨心所欲地傳遞數(shù)據(jù)央星。

4.5.3 yield from改進(jìn)協(xié)程總結(jié)

yield from改進(jìn)基于生成器的協(xié)程,代碼抽象程度更高惫东。使業(yè)務(wù)邏輯相關(guān)的代碼更精簡(jiǎn)莉给。由于其雙向通道功能可以讓協(xié)程之間隨心所欲傳遞數(shù)據(jù),使Python異步編程的協(xié)程解決方案大大向前邁進(jìn)了一步廉沮。

于是Python語言開發(fā)者們充分利用yield from颓遏,使 Guido 主導(dǎo)的Python異步編程框架Tulip迅速脫胎換骨,并迫不及待得讓它在 Python 3.4 中換了個(gè)名字asyncio以“實(shí)習(xí)生”角色出現(xiàn)在標(biāo)準(zhǔn)庫中滞时。

4.5.4 asyncio 介紹

asyncio是Python 3.4 試驗(yàn)性引入的異步I/O框架(PEP 3156)叁幢,提供了基于協(xié)程做異步I/O編寫單線程并發(fā)代碼的基礎(chǔ)設(shè)施。其核心組件有事件循環(huán)(Event Loop)坪稽、協(xié)程(Coroutine)曼玩、任務(wù)(Task)、未來對(duì)象(Future)以及其他一些擴(kuò)充和輔助性質(zhì)的模塊窒百。

在引入asyncio的時(shí)候黍判,還提供了一個(gè)裝飾器@asyncio.coroutine用于裝飾使用了yield from的函數(shù),以標(biāo)記其為協(xié)程篙梢。但并不強(qiáng)制使用這個(gè)裝飾器顷帖。

雖然發(fā)展到 Python 3.4 時(shí)有了yield from的加持讓協(xié)程更容易了,但是由于協(xié)程在Python中發(fā)展的歷史包袱所致,很多人仍然弄不明白生成器協(xié)程的聯(lián)系與區(qū)別贬墩,也弄不明白yieldyield from 的區(qū)別榴嗅。這種混亂的狀態(tài)也違背Python之禪的一些準(zhǔn)則。

于是Python設(shè)計(jì)者們又快馬加鞭地在 3.5 中新增了async/await語法(PEP 492)震糖,對(duì)協(xié)程有了明確而顯式的支持录肯,稱之為原生協(xié)程趴腋。async/awaityield from這兩種風(fēng)格的協(xié)程底層復(fù)用共同的實(shí)現(xiàn)吊说,而且相互兼容。

在Python 3.6 中asyncio庫“轉(zhuǎn)正”优炬,不再是實(shí)驗(yàn)性質(zhì)的颁井,成為標(biāo)準(zhǔn)庫的正式一員。

4.6 總結(jié)

行至此處蠢护,我們已經(jīng)掌握了asyncio的核心原理雅宾,學(xué)習(xí)了它的原型,也學(xué)習(xí)了異步I/O在 CPython 官方支持的生態(tài)下是如何一步步發(fā)展至今的葵硕。

實(shí)際上眉抬,真正的asyncio比我們前幾節(jié)中學(xué)到的要復(fù)雜得多,它還實(shí)現(xiàn)了零拷貝懈凹、公平調(diào)度蜀变、異常處理、任務(wù)狀態(tài)管理等等使 Python 異步編程更完善的內(nèi)容介评。理解原理和原型對(duì)我們后續(xù)學(xué)習(xí)有莫大的幫助库北。

5 asyncio和原生協(xié)程初體驗(yàn)

本節(jié)中,我們將初步體驗(yàn)asyncio庫和新增語法async/await給我們帶來的便利们陆。由于Python2-3的過度期間寒瓦,Python3.0-3.4的使用者并不是太多,也為了不讓更多的人困惑坪仇,也因?yàn)?code>aysncio在3.6才轉(zhuǎn)正杂腰,所以更深入學(xué)習(xí)asyncio庫的時(shí)候我們將使用async/await定義的原生協(xié)程風(fēng)格,yield from風(fēng)格的協(xié)程不再闡述(實(shí)際上它們可用很小的代價(jià)相互代替)椅文。

image

對(duì)比生成器版的協(xié)程喂很,使用asyncio庫后變化很大:

  • 沒有了yieldyield from,而是async/await

  • 沒有了自造的loop()雾袱,取而代之的是asyncio.get_event_loop()

  • 無需自己在socket上做異步操作恤筛,不用顯式地注冊(cè)和注銷事件,aiohttp庫已經(jīng)代勞

  • 沒有了顯式的 FutureTask芹橡,asyncio已封裝

  • 更少量的代碼毒坛,更優(yōu)雅的設(shè)計(jì)

說明:我們這里發(fā)送和接收HTTP請(qǐng)求不再自己操作socket的原因是,在實(shí)際做業(yè)務(wù)項(xiàng)目的過程中,要處理妥善地HTTP協(xié)議會(huì)很復(fù)雜煎殷,我們需要的是功能完善的異步HTTP客戶端屯伞,業(yè)界已經(jīng)有了成熟的解決方案,DRY不是嗎豪直?

和同步阻塞版的代碼對(duì)比:

  • 異步化

  • 代碼量相當(dāng)(引入aiohttp框架后更少)

  • 代碼邏輯同樣簡(jiǎn)單劣摇,跟同步代碼一樣的結(jié)構(gòu)、一樣的邏輯

  • 接近10倍的性能提升

結(jié)語

到此為止弓乙,我們已經(jīng)深入地學(xué)習(xí)了異步編程是什么末融、為什么、在Python里是怎么樣發(fā)展的暇韧。我們找到了一種讓代碼看起來跟同步代碼一樣簡(jiǎn)單勾习,而效率卻提升N倍(具體提升情況取決于項(xiàng)目規(guī)模、網(wǎng)絡(luò)環(huán)境懈玻、實(shí)現(xiàn)細(xì)節(jié))的異步編程方法巧婶。它也沒有回調(diào)的那些缺點(diǎn)。

本系列教程接下來的一篇將是學(xué)習(xí)asyncio庫如何的使用涂乌,快速掌握它的主要內(nèi)容艺栈。后續(xù)我們還會(huì)深入探究asyncio的優(yōu)點(diǎn)與缺點(diǎn),也會(huì)探討Python生態(tài)中其他異步I/O方案和asyncio的區(qū)別湾盒。

參考資料

  • 《A Web Crawler With asyncio Coroutines》

  • 《讓 CPU 告訴你硬盤和網(wǎng)絡(luò)到底有多慢》

轉(zhuǎn)自:
https://mp.weixin.qq.com/s?__biz=MzIxMjY5NTE0MA==&mid=2247483720&idx=1&sn=f016c06ddd17765fd50b705fed64429c

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末湿右,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子历涝,更是在濱河造成了極大的恐慌诅需,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件荧库,死亡現(xiàn)場(chǎng)離奇詭異堰塌,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)分衫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門场刑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蚪战,你說我怎么就攤上這事牵现。” “怎么了邀桑?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵瞎疼,是天一觀的道長。 經(jīng)常有香客問我壁畸,道長贼急,這世上最難降的妖魔是什么茅茂? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮太抓,結(jié)果婚禮上空闲,老公的妹妹穿的比我還像新娘。我一直安慰自己走敌,他們只是感情好碴倾,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著掉丽,像睡著了一般跌榔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上机打,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天矫户,我揣著相機(jī)與錄音,去河邊找鬼残邀。 笑死,一個(gè)胖子當(dāng)著我的面吹牛柑蛇,可吹牛的內(nèi)容都是我干的芥挣。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼耻台,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼空免!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起盆耽,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤蹋砚,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后摄杂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體坝咐,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年析恢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了墨坚。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡映挂,死狀恐怖泽篮,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情柑船,我是刑警寧澤帽撑,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站鞍时,受9級(jí)特大地震影響亏拉,放射性物質(zhì)發(fā)生泄漏历恐。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一专筷、第九天 我趴在偏房一處隱蔽的房頂上張望弱贼。 院中可真熱鬧,春花似錦磷蛹、人聲如沸吮旅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽庇勃。三九已至,卻和暖如春槽驶,著一層夾襖步出監(jiān)牢的瞬間责嚷,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國打工掂铐, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留罕拂,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓全陨,卻偏偏與公主長得像爆班,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子辱姨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355