異步

上篇

了解 異步編程及其緊密相關(guān)的概念,如阻塞/非阻塞抡锈、同步/異步怜珍、并發(fā)/并行等
理解 異步編程是什么,以及異步編程的困難之處
理解 為什么需要異步編程
熟悉 如何從同步阻塞發(fā)展到異步非阻塞的
掌握 epoll + Callback + Event loop是如何工作的
掌握 Python 是如何逐步從回調(diào)到生成器再到原生協(xié)程以支持異步編程的
掌握 asyncio 的工作原理

中篇

掌握 asyncio 標準庫基本使用
掌握 asyncio 的事件循環(huán)
掌握 協(xié)程與任務(wù)如何使用與管理(如調(diào)度與取消調(diào)度)
掌握 同步原語的使用(Lock到推、Event考赛、Condition、Queue)
掌握 asyncio和多進程莉测、多線程結(jié)合使用

下篇

理解 GIL 對異步編程的影響
理解 asyncio 踩坑經(jīng)驗
理解 回調(diào)颜骤、協(xié)程、綠程(Green-Thread)捣卤、線程對比總結(jié)
掌握 多進程忍抽、多線程、協(xié)程各自的適用場景
了解 Gevent/libev董朝、uvloop/libuv 與asyncio的區(qū)別和聯(lián)系
掌握 Python 異步編程的一些指導細則

1 什么是異步編程

1.1 阻塞

  • 程序未得到所需計算資源時被掛起的狀態(tài)鸠项。
  • 程序在等待某個操作完成期間,自身無法繼續(xù)干別的事情子姜,則稱該程序在該操作上是阻塞的祟绊。
  • 常見的阻塞形式有:網(wǎng)絡(luò)I/O阻塞、磁盤I/O阻塞哥捕、用戶輸入阻塞等牧抽。

阻塞是無處不在的,包括CPU切換上下文時扭弧,所有的進程都無法真正干事情阎姥,它們也會被阻塞。(如果是多核CPU則正在執(zhí)行上下文切換操作的核不可被利用鸽捻。)

1.2 非阻塞

  • 程序在等待某操作過程中呼巴,自身不被阻塞泽腮,可以繼續(xù)運行干別的事情,則稱該程序在該操作上是非阻塞的衣赶。
  • 非阻塞并不是在任何程序級別诊赊、任何情況下都可以存在的。
  • 僅當程序封裝的級別可以囊括獨立的子程序單元時府瞄,它才可能存在非阻塞狀態(tài)碧磅。

非阻塞的存在是因為阻塞存在,正因為某個操作阻塞導致的耗時與效率低下遵馆,我們才要把它變成非阻塞的鲸郊。

1.3 同步

  • 不同程序單元為了完成某個任務(wù),在執(zhí)行過程中需靠某種通信方式以協(xié)調(diào)一致货邓,稱這些程序單元是同步執(zhí)行的秆撮。
  • 例如購物系統(tǒng)中更新商品庫存,需要用“行鎖”作為通信信號换况,讓不同的更新請求強制排隊順序執(zhí)行职辨,那更新庫存的操作是同步的。
  • 簡言之戈二,同步意味著有序舒裤。

1.4 異步

  • 為完成某個任務(wù),不同程序單元之間過程中無需通信協(xié)調(diào)觉吭,也能完成任務(wù)的方式腾供。
  • 不相關(guān)的程序單元之間可以是異步的。
  • 例如鲜滩,爬蟲下載網(wǎng)頁台腥。調(diào)度程序調(diào)用下載程序后,即可調(diào)度其他任務(wù)绒北,而無需與該下載任務(wù)保持通信以協(xié)調(diào)行為。不同網(wǎng)頁的下載察署、保存等操作都是無關(guān)的闷游,也無需相互通知協(xié)調(diào)。這些異步操作的完成時刻并不確定贴汪。
  • 簡言之脐往,異步意味著無序。

上文提到的“通信方式”通常是指異步和并發(fā)編程提供的同步原語扳埂,如信號量业簿、鎖、同步隊列等等阳懂。我們需知道梅尤,雖然這些通信方式是為了讓多個程序在一定條件下同步執(zhí)行柜思,但正因為是異步的存在,才需要這些通信方式巷燥。如果所有程序都是按序執(zhí)行赡盘,其本身就是同步的,又何需這些同步信號呢缰揪?

1.5 并發(fā)

  • 并發(fā)描述的是程序的組織結(jié)構(gòu)陨享。指程序要被設(shè)計成多個可獨立執(zhí)行的子任務(wù)。
  • 以利用有限的計算機資源使多個任務(wù)可以被實時或近實時執(zhí)行為目的钝腺。

1.6 并行

  • 并行描述的是程序的執(zhí)行狀態(tài)抛姑。指多個任務(wù)同時被執(zhí)行。
  • 以利用富余計算資源(多核CPU)加速完成多個任務(wù)為目的艳狐。

并發(fā)提供了一種程序組織結(jié)構(gòu)方式定硝,讓問題的解決方案可以并行執(zhí)行,但并行執(zhí)行不是必須的僵驰。

1.7 概念總結(jié)

  • 并行是為了利用多核加速多任務(wù)完成的進度
  • 并發(fā)是為了讓獨立的子任務(wù)都有機會被盡快執(zhí)行喷斋,但不一定能加速整體進度
  • 非阻塞是為了提高程序整體執(zhí)行效率
  • 異步是高效地組織非阻塞任務(wù)的方式

要支持并發(fā),必須拆分為多任務(wù)蒜茴,不同任務(wù)相對而言才有阻塞/非阻塞星爪、同步/異步。所以粉私,并發(fā)顽腾、異步非阻塞三個詞總是如影隨形诺核。

1.8 異步編程

  • 以進程抄肖、線程、協(xié)程窖杀、函數(shù)/方法作為執(zhí)行任務(wù)程序的基本單位漓摩,結(jié)合回調(diào)、事件循環(huán)入客、信號量等機制管毙,以提高程序整體執(zhí)行效率和并發(fā)能力的編程方式。
    如果在某程序的運行時桌硫,能根據(jù)已經(jīng)執(zhí)行的指令準確判斷它接下來要進行哪個具體操作夭咬,那它是同步程序,反之則為異步程序铆隘。(無序與有序的區(qū)別)

同步/異步卓舵、阻塞/非阻塞并非水火不容,要看討論的程序所處的封裝級別膀钠。例如購物程序在處理多個用戶的瀏覽請求可以是異步的掏湾,而更新庫存時必須是同步的裹虫。

1.9 異步之難(nán)

  • 控制不住“計幾”寫的程序,因為其執(zhí)行順序不可預(yù)料忘巧,當下正要發(fā)生什么事件不可預(yù)料恒界。在并行情況下更為復(fù)雜和艱難。

所以砚嘴,幾乎所有的異步框架都將異步編程模型簡化:一次只允許處理一個事件十酣。故而有關(guān)異步的討論幾乎都集中在了單線程內(nèi)。

  • 如果某事件處理程序需要長時間執(zhí)行际长,所有其他部分都會被阻塞耸采。

所以,一旦采取異步編程工育,每個異步調(diào)用必須“足夠小”虾宇,不能耗時太久。如何拆分異步任務(wù)成了難題如绸。

  • 程序下一步行為往往依賴上一步執(zhí)行結(jié)果嘱朽,如何知曉上次異步調(diào)用已完成并獲取結(jié)果?
  • 回調(diào)(Callback)成了必然選擇怔接。那又需要面臨“回調(diào)地獄”的折磨搪泳。
  • 同步代碼改為異步代碼,必然破壞代碼結(jié)構(gòu)扼脐。

解決問題的邏輯也要轉(zhuǎn)變岸军,不再是一條路走到黑,需要精心安排異步任務(wù)瓦侮。

2 苦心異步為哪般

Python 之父親自上陣打磨4年才使 asyncio 模塊在Python 3.6中“轉(zhuǎn)正”艰赞,如此苦心為什么?答案只有一個:它值得肚吏!

2.1 CPU的時間觀

我們將一個 2.6GHz 的 CPU 擬人化方妖,假設(shè)它執(zhí)行一條命令的時間,他它感覺上過了一秒鐘罚攀。CPU是計算機的處理核心吁断,也是最寶貴的資源,如果有浪費CPU的運行時間坞生,導致其利用率不足,那程序效率必然低下(因為實際上有資源可以使效率更高)掷伙。

如上圖所示是己,在千兆網(wǎng)上傳輸2KB數(shù)據(jù),CPU感覺過了14個小時任柜,如果是在10M的公網(wǎng)上呢卒废?那效率會低百倍沛厨!如果在這么長的一段時間內(nèi),CPU只是傻等結(jié)果而不能去干其他事情摔认,是不是在浪費CPU的青春逆皮?

2.2 面臨的問題

  • 成本問題

如果一個程序不能有效利用一臺計算機資源,那必然需要更多的計算機通過運行更多的程序?qū)嵗齺韽浹a需求缺口参袱。

  • 效率問題

如果不在乎錢的消耗电谣,那也會在意效率問題。當服務(wù)器數(shù)量堆疊到一定規(guī)模后抹蚀,如果不改進軟件架構(gòu)和實現(xiàn)剿牺,加機器是徒勞,而且運維成本會驟然增加环壤。比如別人家的電商平臺支持6000單/秒支付晒来,而自家在下單量才支撐2000單/秒,在雙十一這種活動的時候郑现,錢送上門也賺不到湃崩。

  • C10k/C10M挑戰(zhàn)

C10k(concurrently handling 10k connections)是一個在1999年被提出來的技術(shù)挑戰(zhàn),如何在一顆1GHz CPU接箫,2G內(nèi)存攒读,1gbps網(wǎng)絡(luò)環(huán)境下列牺,讓單臺服務(wù)器同時為1萬個客戶端提供FTP服務(wù)。而到了2010年后泌辫,隨著硬件技術(shù)的發(fā)展九默,這個問題被延伸為C10M驼修,即如何利用8核心CPU殿遂,64G內(nèi)存,在10gbps的網(wǎng)絡(luò)上保持1000萬并發(fā)連接乙各,或是每秒鐘處理100萬的連接墨礁。(兩種類型的計算機資源在各自的時代都約為1200美元)

成本和效率問題是從企業(yè)經(jīng)營角度講,C10k/C10M問題則是從技術(shù)角度出發(fā)挑戰(zhàn)軟硬件極限耳峦。C10k/C10M 問題得解恩静,成本問題和效率問題迎刃而解。

2.3 解決方案

《約束理論與企業(yè)優(yōu)化》中指出:“除了瓶頸之外,任何改進都是幻覺驶乾。

CPU告訴我們邑飒,它自己很快,而上下文切換慢级乐、內(nèi)存讀數(shù)據(jù)慢疙咸、磁盤尋址與取數(shù)據(jù)慢、網(wǎng)絡(luò)傳輸慢……總之风科,離開CPU 后的一切撒轮,除了一級高速緩存,都很慢丐重。我們觀察計算機的組成可以知道扮惦,主要由運算器崖蜜、控制器抡柿、存儲器、輸入設(shè)備囱稽、輸出設(shè)備五部分組成。運算器和控制器主要集成在CPU中吞获,除此之外全是I/O各拷,包括讀寫內(nèi)存、讀寫磁盤、讀寫網(wǎng)卡全都是I/O互例。I/O成了最大的瓶頸媳叨。

異步程序可以提高效率,而最大的瓶頸在I/O痘番,業(yè)界誕生的解決方案沒出意料:異步I/O吧,異步I/O吧昂芜,異步I/O吧吧泌神!

3 異步I/O進化之路

從CPU的時間觀中可知,網(wǎng)絡(luò)I/O是最大的I/O瓶頸幼苛,除了宕機沒有比它更慢的。所以括荡,諸多異步框架都對準的是網(wǎng)絡(luò)I/O。

我們從一個爬蟲例子說起邑闲,從因特網(wǎng)上下載10篇網(wǎng)頁州邢。

3.1 同步阻塞方式

最容易想到的解決方案就是依次下載量淌,從建立socket連接到發(fā)送網(wǎng)絡(luò)請求再到讀取響應(yīng)數(shù)據(jù),順序進行裙秋。

注:總體耗時約為4.5秒。(因網(wǎng)絡(luò)波動每次測試結(jié)果有所變動,本文取多次平均值)

如上圖所示,blocking_way() 的作用是建立 socket 連接,發(fā)送HTTP請求铜犬,然后從 socket 讀取HTTP響應(yīng)并返回數(shù)據(jù)癣猾。示例中我們請求了 example.com 的首頁。在sync_way() 執(zhí)行了10次像捶,即下載 example.com 首頁10次释簿。

在示例代碼中有兩個關(guān)鍵點。一是第10行的** sock.connect((‘example.com’, 80)),該調(diào)用的作用是向example.com主機的80端口發(fā)起網(wǎng)絡(luò)連接請求矾瑰。 二是第14行、第18行的sock.recv(4096)**采幌,該調(diào)用的作用是從socket上讀取4K字節(jié)數(shù)據(jù)。

我們知道磨取,創(chuàng)建網(wǎng)絡(luò)連接忙厌,多久能創(chuàng)建完成不是客戶端決定的歼指,而是由網(wǎng)絡(luò)狀況和服務(wù)端處理能力共同決定着饥。服務(wù)端什么時候返回了響應(yīng)數(shù)據(jù)并被客戶端接收到可供程序讀取宰掉,也是不可預(yù)測的孟害。所以sock.connect()和sock.recv()這兩個調(diào)用在默認情況下是阻塞的。

注:sock.send()函數(shù)并不會阻塞太久谎柄,它只負責將請求數(shù)據(jù)拷貝到TCP/IP協(xié)議棧的系統(tǒng)緩沖區(qū)中就返回,并不等待服務(wù)端返回的應(yīng)答確認劈猿。

假設(shè)網(wǎng)絡(luò)環(huán)境很差,創(chuàng)建網(wǎng)絡(luò)連接需要1秒鐘,那么sock.connect()就得阻塞1秒鐘椎例,等待網(wǎng)絡(luò)連接成功。這1秒鐘對一顆2.6GHz的CPU來講撒犀,仿佛過去了83年,然而它不能干任何事情映凳。sock.recv()也是一樣的必須得等到服務(wù)端的響應(yīng)數(shù)據(jù)已經(jīng)被客戶端接收仆救。我們下載10篇網(wǎng)頁,這個阻塞過程就得重復(fù)10次顿痪。如果一個爬蟲系統(tǒng)每天要下載1000萬篇網(wǎng)頁呢?撕阎!

上面說了很多棉饶,我們力圖說明一件事:同步阻塞的網(wǎng)絡(luò)交互方式袜啃,效率低十分低下。特別是在網(wǎng)絡(luò)交互頻繁的程序中熟妓。這種方式根本不可能挑戰(zhàn)C10K/C10M译仗。

3.2 改進方式:多進程

在一個程序內(nèi)阐污,依次執(zhí)行10次太耗時功氨,那開10個一樣的程序同時執(zhí)行不就行了。于是我們想到了多進程編程。為什么會先想到多進程呢钦铁?發(fā)展脈絡(luò)如此。在更早的操作系統(tǒng)(Linux 2.4)及其以前黎比,進程是 OS 調(diào)度任務(wù)的實體,是面向進程設(shè)計的OS。

注:總體耗時約為 0.6 秒。

改善效果立竿見影瘪板。但仍然有問題∥荷恚總體耗時并沒有縮減到原來的十分之一回季,而是九分之一左右颤殴,還有一些時間耗到哪里去了?進程切換開銷矮瘟。

進程切換開銷不止像“CPU的時間觀”所列的“上下文切換”那么低瞳脓。CPU從一個進程切換到另一個進程,需要把舊進程運行時的寄存器狀態(tài)澈侠、內(nèi)存狀態(tài)全部保存好劫侧,再將另一個進程之前保存的數(shù)據(jù)恢復(fù)。對CPU來講哨啃,幾個小時就干等著次坡。當進程數(shù)量大于CPU核心數(shù)量時谚赎,進程切換是必然需要的琳省。

除了切換開銷谆棱,多進程還有另外的缺點截粗。一般的服務(wù)器在能夠穩(wěn)定運行的前提下,可以同時處理的進程數(shù)在數(shù)十個到數(shù)百個規(guī)模磅崭。如果進程數(shù)量規(guī)模更大愉适,系統(tǒng)運行將不穩(wěn)定倒槐,而且可用內(nèi)存資源往往也會不足沼死。

多進程解決方案在面臨每天需要成百上千萬次下載任務(wù)的爬蟲系統(tǒng)若贮,或者需要同時搞定數(shù)萬并發(fā)的電商系統(tǒng)來說弧轧,并不適合。

除了切換開銷大擂橘,以及可支持的任務(wù)規(guī)模小之外,多進程還有其他缺點夯辖,如狀態(tài)共享等問題,后文會有提及,此處不再細究弦疮。

3.3 繼續(xù)改進:多線程

由于線程的數(shù)據(jù)結(jié)構(gòu)比進程更輕量級伺糠,同一個進程可以容納多個線程,從進程到線程的優(yōu)化由此展開赎败。后來的OS也把調(diào)度單位由進程轉(zhuǎn)為線程萧福,進程只作為線程的容器,用于管理進程所需的資源拙友。而且OS級別的線程是可以被分配到不同的CPU核心同時運行的。

注:總體運行時間約0.43秒。

結(jié)果符合預(yù)期渊季,比多進程耗時要少些。從運行時間上看饼疙,多線程似乎已經(jīng)解決了切換開銷大的問題卷要。而且可支持的任務(wù)數(shù)量規(guī)模,也變成了數(shù)百個到數(shù)千個独榴。

但是僧叉,多線程仍有問題,特別是Python里的多線程棺榔。首先瓶堕,Python中的多線程因為GIL的存在,它們并不能利用CPU多核優(yōu)勢症歇,一個Python進程中郎笆,只允許有一個線程處于運行狀態(tài)谭梗。那為什么結(jié)果還是如預(yù)期,耗時縮減到了十分之一题画?

因為在做阻塞的系統(tǒng)調(diào)用時,例如sock.connect(),sock.recv()時德频,當前線程會釋放GIL苍息,讓別的線程有執(zhí)行機會。但是單個線程內(nèi)壹置,在阻塞調(diào)用上還是阻塞的竞思。

小提示:Python中 time.sleep 是阻塞的,都知道使用它要謹慎钞护,但在多線程編程中盖喷,time.sleep 并不會阻塞其他線程。

除了GIL之外难咕,所有的多線程還有通病课梳。它們是被OS調(diào)度,調(diào)度策略是搶占式的余佃,以保證同等優(yōu)先級的線程都有均等的執(zhí)行機會暮刃,那帶來的問題是:并不知道下一時刻是哪個線程被運行,也不知道它正要執(zhí)行的代碼是什么爆土。所以就可能存在競態(tài)條件椭懊。

例如爬蟲工作線程從任務(wù)隊列拿待抓取URL的時候,如果多個爬蟲線程同時來取步势,那這個任務(wù)到底該給誰氧猬?那就需要用到“鎖”或“同步隊列”來保證下載任務(wù)不會被重復(fù)執(zhí)行。

而且線程支持的多任務(wù)規(guī)模坏瘩,在數(shù)百到數(shù)千的數(shù)量規(guī)模盅抚。在大規(guī)模的高頻網(wǎng)絡(luò)交互系統(tǒng)中,仍然有些吃力倔矾。當然泉哈,多線程最主要的問題還是競態(tài)條件

3.4 非阻塞方式

終于破讨,我們來到了非阻塞解決方案丛晦。先來看看最原始的非阻塞如何工作的。

注:總體耗時約4.3秒提陶。

首先注意到兩點烫沙,就感覺被騙了。一是耗時與同步阻塞相當隙笆,二是代碼更復(fù)雜锌蓄。要非阻塞何用升筏?且慢。

上圖第9行代碼sock.setblocking(False)告訴OS瘸爽,讓socket上阻塞調(diào)用都改為非阻塞的方式您访。之前我們說到,非阻塞就是在做一件事的時候剪决,不阻礙調(diào)用它的程序做別的事情灵汪。上述代碼在執(zhí)行完 **sock.connect() **和 sock.recv() 后的確不再阻塞,可以繼續(xù)往下執(zhí)行請求準備的代碼或者是執(zhí)行下一次讀取柑潦。

代碼變得更復(fù)雜也是上述原因所致享言。第11行要放在try語句內(nèi),是因為socket在發(fā)送非阻塞連接請求過程中渗鬼,系統(tǒng)底層也會拋出異常览露。connect()被調(diào)用之后,立即可以往下執(zhí)行第15和16行的代碼譬胎。

需要while循環(huán)不斷嘗試 send()差牛,是因為connect()已經(jīng)非阻塞,在send()之時并不知道 socket 的連接是否就緒堰乔,只有不斷嘗試多糠,嘗試成功為止,即發(fā)送數(shù)據(jù)成功了浩考。recv()調(diào)用也是同理夹孔。

雖然 connect() 和 recv() 不再阻塞主程序,空出來的時間段CPU沒有空閑著析孽,但并沒有利用好這空閑去做其他有意義的事情搭伤,而是在循環(huán)嘗試讀寫 socket (不停判斷非阻塞調(diào)用的狀態(tài)是否就緒)。還得處理來自底層的可忽略的異常袜瞬。也不能同時處理多個 socket 怜俐。

然后10次下載任務(wù)仍然按序進行。所以總體執(zhí)行時間和同步阻塞相當邓尤。如果非得這樣子拍鲤,那還不如同步阻塞算了。

3.5 非阻塞改進

3.5.1 epoll

判斷非阻塞調(diào)用是否就緒如果 OS 能做汞扎,是不是應(yīng)用程序就可以不用自己去等待和判斷了季稳,就可以利用這個空閑去做其他事情以提高效率。

所以OS將I/O狀態(tài)的變化都封裝成了事件澈魄,如可讀事件景鼠、可寫事件。并且提供了專門的系統(tǒng)模塊讓應(yīng)用程序可以接收事件通知痹扇。這個模塊就是select铛漓。讓應(yīng)用程序可以通過select注冊文件描述符和回調(diào)函數(shù)溯香。當文件描述符的狀態(tài)發(fā)生變化時,select 就調(diào)用事先注冊的回調(diào)函數(shù)浓恶。

select因其算法效率比較低玫坛,后來改進成了poll,再后來又有進一步改進包晰,BSD內(nèi)核改進成了kqueue模塊湿镀,而Linux內(nèi)核改進成了epoll模塊。這四個模塊的作用都相同杜窄,暴露給程序員使用的API也幾乎一致肠骆,區(qū)別在于kqueueepoll 在處理大量文件描述符時效率更高算途。

鑒于 Linux 服務(wù)器的普遍性塞耕,以及為了追求更高效率,所以我們常常聽聞被探討的模塊都是 epoll 嘴瓤。

3.5.2 回調(diào)(Callback)

把I/O事件的等待和監(jiān)聽任務(wù)交給了 OS扫外,那 OS 在知道I/O狀態(tài)發(fā)生改變后(例如socket連接已建立成功可發(fā)送數(shù)據(jù)),它又怎么知道接下來該干嘛呢廓脆?只能回調(diào)筛谚。

需要我們將發(fā)送數(shù)據(jù)與讀取數(shù)據(jù)封裝成獨立的函數(shù),讓epoll代替應(yīng)用程序監(jiān)聽socket狀態(tài)時停忿,得告訴epoll:“如果socket狀態(tài)變?yōu)榭梢酝飳憯?shù)據(jù)(連接建立成功了)驾讲,請調(diào)用HTTP請求發(fā)送函數(shù)。如果socket 變?yōu)榭梢宰x數(shù)據(jù)了(客戶端已收到響應(yīng))席赂,請調(diào)用響應(yīng)處理函數(shù)吮铭。”

于是我們利用epoll結(jié)合回調(diào)機制重構(gòu)爬蟲代碼:

此處和前面稍有不同的是颅停,我們將下載不同的10個頁面谓晌,相對URL路徑存放于urls_todo集合中。現(xiàn)在看看改進在哪癞揉。

首先纸肉,不斷嘗試send()recv() 的兩個循環(huán)被消滅掉了。

其次喊熟,導入了selectors模塊柏肪,并創(chuàng)建了一個DefaultSelector 實例。Python標準庫提供的selectors模塊是對底層select/poll/epoll/kqueue的封裝芥牌。DefaultSelector類會根據(jù) OS 環(huán)境自動選擇最佳的模塊预吆,那在 Linux 2.5.44 及更新的版本上都是epoll了。

然后胳泉,在第25行和第31行分別注冊了socket可寫事件(EVENT_WRITE)和可讀事件(EVENT_READ)發(fā)生后應(yīng)該采取的回調(diào)函數(shù)拐叉。

雖然代碼結(jié)構(gòu)清晰了岩遗,阻塞操作也交給OS去等待和通知了,但是凤瘦,我們要抓取10個不同頁面宿礁,就得創(chuàng)建10個Crawler實例,就有20個事件將要發(fā)生蔬芥,那如何從selector里獲取當前正發(fā)生的事件梆靖,并且得到對應(yīng)的回調(diào)函數(shù)去執(zhí)行呢?

3.5.3 事件循環(huán)(Event Loop)

為了解決上述問題笔诵,那我們只得采用老辦法返吻,寫一個循環(huán),去訪問selector模塊乎婿,等待它告訴我們當前是哪個事件發(fā)生了测僵,應(yīng)該對應(yīng)哪個回調(diào)。這個等待事件通知的循環(huán)谢翎,稱之為事件循環(huán)捍靠。

上述代碼中,我們用stopped全局變量控制事件循環(huán)何時停止森逮。當urls_todo消耗完畢后榨婆,會標記stoppedTrue

重要的是第49行代碼褒侧,selector.select() 是一個阻塞調(diào)用良风,因為如果事件不發(fā)生,那應(yīng)用程序就沒事件可處理闷供,所以就干脆阻塞在這里等待事件發(fā)生烟央。那可以推斷,如果只下載一篇網(wǎng)頁这吻,一定要connect()之后才能send()繼而recv()吊档,那它的效率和阻塞的方式是一樣的。因為不在connect()/recv()上阻塞唾糯,也得在select()上阻塞怠硼。

所以,selector機制(后文以此稱呼代指epoll/kqueue)是設(shè)計用來解決大量并發(fā)連接的移怯。當系統(tǒng)中有大量非阻塞調(diào)用香璃,能隨時產(chǎn)生事件的時候,selector機制才能發(fā)揮最大的威力舟误。

下面是如何啟創(chuàng)建10個下載任務(wù)和啟動事件循環(huán)的:

注:總體耗時約0.45秒葡秒。

上述執(zhí)行結(jié)果令人振奮。在單線程內(nèi)用 事件循環(huán)+回調(diào) 搞定了10篇網(wǎng)頁同時下載的問題。這眯牧,已經(jīng)是異步編程了蹋岩。雖然有一個for 循環(huán)順序地創(chuàng)建Crawler 實例并調(diào)用** fetch** 方法,但是fetch 內(nèi)僅有connect()和注冊可寫事件学少,而且從執(zhí)行時間明顯可以推斷剪个,多個下載任務(wù)確實在同時進行!

上述代碼異步執(zhí)行的過程:

  1. 創(chuàng)建Crawler 實例版确;
  2. 調(diào)用fetch方法扣囊,會創(chuàng)建socket連接和在selector上注冊可寫事件;
  3. fetch內(nèi)并無阻塞操作绒疗,該方法立即返回侵歇;
  4. 重復(fù)上述3個步驟,將10個不同的下載任務(wù)都加入事件循環(huán)吓蘑;
  5. 啟動事件循環(huán)惕虑,進入第1輪循環(huán),阻塞在事件監(jiān)聽上士修;
  6. 當某個下載任務(wù)EVENT_WRITE被觸發(fā)枷遂,回調(diào)其connected方法樱衷,第一輪事件循環(huán)結(jié)束棋嘲;
  7. 進入第2輪事件循環(huán),當某個下載任務(wù)有事件觸發(fā)矩桂,執(zhí)行其回調(diào)函數(shù)沸移;此時已經(jīng)不能推測是哪個事件發(fā)生,因為有可能是上次connected里的EVENT_READ先被觸發(fā)侄榴,也可能是其他某個任務(wù)的EVENT_WRITE被觸發(fā)雹锣;(此時,原來在一個下載任務(wù)上會阻塞的那段時間被利用起來執(zhí)行另一個下載任務(wù)了
  8. 循環(huán)往復(fù)癞蚕,直至所有下載任務(wù)被處理完成
  9. 退出事件循環(huán)蕊爵,結(jié)束整個下載程序

3.5.4 總結(jié)

目前為止,我們已經(jīng)從同步阻塞學習到了異步非阻塞桦山。掌握了在單線程內(nèi)同時并發(fā)執(zhí)行多個網(wǎng)絡(luò)I/O阻塞型任務(wù)的黑魔法攒射。而且與多線程相比,連線程切換都沒有了恒水,執(zhí)行回調(diào)函數(shù)是函數(shù)調(diào)用開銷会放,在線程的棧內(nèi)完成,因此性能也更好钉凌,單機支持的任務(wù)規(guī)模也變成了數(shù)萬到數(shù)十萬個咧最。(不過我們知道:沒有免費午餐,也沒有銀彈。)

部分編程語言中矢沿,對異步編程的支持就止步于此(不含語言官方之外的擴展)滥搭。需要程序猿直接使用epoll去注冊事件和回調(diào)、維護一個事件循環(huán)捣鲸,然后大多數(shù)時間都花在設(shè)計回調(diào)函數(shù)上论熙。

通過本節(jié)的學習,我們應(yīng)該認識到摄狱,不論什么編程語言脓诡,但凡要做異步編程,上述的“事件循環(huán)+回調(diào)”這種模式是逃不掉的媒役,盡管它可能用的不是epoll祝谚,也可能不是while循環(huán)。如果你找到了一種不屬于 “等會兒告訴你” 模型的異步方式酣衷,請立即給我打電話(注意交惯,打電話是Call)。

為什么我們在某些異步編程中并沒有看到 CallBack 模式呢穿仪?這就是我們接下來要探討的問題席爽。本節(jié)是學習異步編程的一個終點,也是另一個起點啊片。畢竟咱們講 Python 異步編程只锻,還沒提到其主角協(xié)程的用武之地。

4 Python 對異步I/O的優(yōu)化之路

我們將在本節(jié)學習到 Python 生態(tài)對異步編程的支持是如何繼承前文所述的“事件循環(huán)+回調(diào)”模式演變到asyncio的原生協(xié)程模式紫谷。

4.1 回調(diào)之痛齐饮,以終為始

在第3節(jié)中,我們已經(jīng)學會了“事件循環(huán)+回調(diào)”的基本運行原理笤昨,可以基于這種方式在單線程內(nèi)實現(xiàn)異步編程祖驱。也確實能夠大大提高程序運行效率。但是瞒窒,剛才所學的只是最基本的捺僻,然而在生產(chǎn)項目中,要應(yīng)對的復(fù)雜度會大大增加崇裁∝芭鳎考慮如下問題:

  • 如果回調(diào)函數(shù)執(zhí)行不正常該如何?
  • 如果回調(diào)里面還要嵌套回調(diào)怎么辦寇壳?要嵌套很多層怎么辦醒颖?
  • 如果嵌套了多層,其中某個環(huán)節(jié)出錯了會造成什么后果壳炎?
  • 如果有個數(shù)據(jù)需要被每個回調(diào)都處理怎么辦泞歉?
  • ……

在實際編程中逼侦,上述系列問題不可避免。在這些問題的背后隱藏著回調(diào)編程模式的一些缺點

  • 回調(diào)層次過多時代碼可讀性差
def callback_1():
  # processing ...
  def callback_2():
      # processing.....
      def callback_3():
          # processing ....
          def callback_4():
              #processing .....
              def callback_5():
                  # processing ......
              async_function(callback_5)
          async_function(callback_4)
      async_function(callback_3)
  async_function(callback_2)
async_function(callback_1)
  • 破壞代碼結(jié)構(gòu)

寫同步代碼時腰耙,關(guān)聯(lián)的操作時自上而下運行:

do_a()
do_b()

如果 b 處理依賴于 a 處理的結(jié)果榛丢,而 a 過程是異步調(diào)用,就不知 a 何時能返回值挺庞,需要將后續(xù)的處理過程以callback的方式傳遞給 a 晰赞,讓 a 執(zhí)行完以后可以執(zhí)行 b。代碼變化為:

do_a(do_b())

如果整個流程中全部改為異步處理选侨,而流程比較長的話掖鱼,代碼邏輯就會成為這樣:

do_a(do_b(do_c(do_d(do_e(do_f(......))))))

上面實際也是回調(diào)地獄式的風格,但這不是主要矛盾援制。主要在于戏挡,原本從上而下的代碼結(jié)構(gòu),要改成從內(nèi)到外的晨仑。先f褐墅,再e,再d洪己,…妥凳,直到最外層 a 執(zhí)行完成。在同步版本中答捕,執(zhí)行完a后執(zhí)行b逝钥,這是線程的指令指針控制著的流程,而在回調(diào)版本中噪珊,流程就是程序猿需要注意和安排的位衩。

  • 共享狀態(tài)管理困難
    回顧第3節(jié)爬蟲代碼肴捉,同步阻塞版的sock對象從頭使用到尾,而在回調(diào)的版本中冤吨,我們必須在Crawler實例化后的對象self里保存它自己的sock對象选酗。如果不是采用OOP的編程風格阵难,那需要把要共享的狀態(tài)接力似的傳遞給每一個回調(diào)。多個異步調(diào)用之間芒填,到底要共享哪些狀態(tài)呜叫,事先就得考慮清楚,精心設(shè)計殿衰。
  • 錯誤處理困難
    一連串的回調(diào)構(gòu)成一個完整的調(diào)用鏈朱庆。例如上述的 a 到 f。假如 d 拋了異常怎么辦闷祥?整個調(diào)用鏈斷掉娱颊,接力傳遞的狀態(tài)也會丟失,這種現(xiàn)象稱為調(diào)用棧撕裂。 c 不知道該干嘛箱硕,繼續(xù)異常拴竹,然后是 b 異常,接著 a 異常剧罩。好嘛栓拜,報錯日志就告訴你,a 調(diào)用出錯了惠昔,但實際是 d 出錯幕与。所以,為了防止棧撕裂镇防,異常必須以數(shù)據(jù)的形式返回纽门,而不是直接拋出異常,然后每個回調(diào)中需要檢查上次調(diào)用的返回值营罢,以防錯誤吞沒赏陵。

如果說代碼風格難看是小事,但棧撕裂和狀態(tài)管理困難這兩個缺點會讓基于回調(diào)的異步編程很艱難饲漾。所以不同編程語言的生態(tài)都在致力于解決這個問題蝙搔。才誕生了后來的Promise、Co-routine等解決方案考传。

Python 生態(tài)也以終為始吃型,秉承著“程序猿不必難程序猿”的原則,讓語言和框架開發(fā)者苦逼一點僚楞,也要讓應(yīng)用開發(fā)者舒坦勤晚。在事件循環(huán)+回調(diào)的基礎(chǔ)上衍生出了基于協(xié)程的解決方案,代表作有 Tornado泉褐、Twisted赐写、asyncio 等。接下來我們隨著 Python 生態(tài)異步編程的發(fā)展過程膜赃,深入理解Python異步編程挺邀。

4.2 核心問題

通過前面的學習,我們清楚地認識到異步編程最大的困難:異步任務(wù)何時執(zhí)行完畢跳座?接下來要對異步調(diào)用的返回結(jié)果做什么操作端铛?

上述問題我們已經(jīng)通過事件循環(huán)和回調(diào)解決了。但是回調(diào)會讓程序變得復(fù)雜疲眷。要異步禾蚕,必回調(diào),又是否有辦法規(guī)避其缺點呢狂丝?那需要弄清楚其本質(zhì)换淆,為什么回調(diào)是必須的虚倒?還有使用回調(diào)時克服的那些缺點又是為了什么?

答案是程序為了知道自己已經(jīng)干了什么产舞?正在干什么魂奥?將來要干什么?換言之易猫,程序得知道當前所處的狀態(tài)耻煤,而且要將這個狀態(tài)在不同的回調(diào)之間延續(xù)下去。

多個回調(diào)之間的狀態(tài)管理困難准颓,那讓每個回調(diào)都能管理自己的狀態(tài)怎么樣哈蝇?鏈式調(diào)用會有棧撕裂的困難,讓回調(diào)之間不再鏈式調(diào)用怎樣攘已?不鏈式調(diào)用的話炮赦,那又如何讓被調(diào)用者知道已經(jīng)完成了?那就讓這個回調(diào)通知那個回調(diào)如何样勃?而且一個回調(diào)吠勘,不就是一個待處理任務(wù)嗎?

任務(wù)之間得相互通知峡眶,每個任務(wù)得有自己的狀態(tài)剧防。那不就是很古老的編程技法:協(xié)作式多任務(wù)?然而要在單線程內(nèi)做調(diào)度辫樱,啊哈峭拘,協(xié)程!每個協(xié)程具有自己的棧幀狮暑,當然能知道自己處于什么狀態(tài)鸡挠,協(xié)程之間可以協(xié)作那自然可以通知別的協(xié)程。

4.3 協(xié)程

  • 協(xié)程(Co-routine)搬男,即是協(xié)作式的例程拣展。

它是非搶占式的多任務(wù)子例程的概括,可以允許有多個入口點在例程中確定的位置來控制程序的暫停與恢復(fù)執(zhí)行止后。

例程是什么瞎惫?編程語言定義的可被調(diào)用的代碼段,為了完成某個特定功能而封裝在一起的一系列指令译株。一般的編程語言都用稱為函數(shù)或方法的代碼結(jié)構(gòu)來體現(xiàn)。

4.4 基于生成器的協(xié)程

早期的 Pythoner 發(fā)現(xiàn) Python 中有種特殊的對象——生成器(Generator)挺益,它的特點和協(xié)程很像歉糜。每一次迭代之間,會暫停執(zhí)行望众,繼續(xù)下一次迭代的時候還不會丟失先前的狀態(tài)匪补。

為了支持用生成器做簡單的協(xié)程伞辛,Python 2.5 對生成器進行了增強(PEP 342),該增強提案的標題是 “Coroutines via Enhanced Generators”夯缺。有了PEP 342的加持蚤氏,生成器可以通過yield 暫停執(zhí)行和向外返回數(shù)據(jù),也可以通過send()向生成器內(nèi)發(fā)送數(shù)據(jù)踊兜,還可以通過throw()向生成器內(nèi)拋出異常以便隨時終止生成器的運行竿滨。

接下來,我們用基于生成器的協(xié)程來重構(gòu)先前的爬蟲代碼捏境。

4.4.1 未來對象(Future)

不用回調(diào)的方式了于游,怎么知道異步調(diào)用的結(jié)果呢?先設(shè)計一個對象垫言,異步調(diào)用執(zhí)行完的時候贰剥,就把結(jié)果放在它里面。這種對象稱之為未來對象筷频。

未來對象有一個result屬性蚌成,用于存放未來的執(zhí)行結(jié)果。還有個set_result()方法凛捏,是用于設(shè)置result的笑陈,并且會在給result綁定值以后運行事先給future添加的回調(diào)】回調(diào)是通過未來對象的add_done_callback()方法添加的涵妥。

不要疑惑此處的callback,說好了不回調(diào)的嘛坡锡?難道忘了我們曾經(jīng)說的要異步蓬网,必回調(diào)。不過也別急鹉勒,此處的回調(diào)帆锋,和先前學到的回調(diào),還真有點不一樣禽额。

4.4.2 重構(gòu) Crawler

現(xiàn)在不論如何锯厢,我們有了未來對象可以代表未來的值。先用Future來重構(gòu)爬蟲代碼脯倒。

和先前的回調(diào)版本對比实辑,已經(jīng)有了較大差異。fetch 方法內(nèi)有了yield表達式藻丢,使它成為了生成器剪撬。我們知道生成器需要先調(diào)用next()迭代一次或者是先send(None)啟動,遇到y(tǒng)ield之后便暫停悠反。那這fetch生成器如何再次恢復(fù)執(zhí)行呢残黑?至少 FutureCrawler都沒看到相關(guān)代碼馍佑。

4.4.3 任務(wù)對象(Task)

為了解決上述問題,我們只需遵循一個編程規(guī)則:單一職責梨水,每種角色各司其職拭荤,如果還有工作沒有角色來做,那就創(chuàng)建一個角色去做疫诽。沒人來恢復(fù)這個生成器的執(zhí)行么舅世?沒人來管理生成器的狀態(tài)么?創(chuàng)建一個踊沸,就叫Task好了歇终,很合適的名字。

上述代碼中Task封裝了coro對象逼龟,即初始化時傳遞給他的對象评凝,被管理的任務(wù)是待執(zhí)行的協(xié)程,故而這里的coro就是fetch()生成器腺律。它還有個step()方法奕短,在初始化的時候就會執(zhí)行一遍。step()內(nèi)會調(diào)用生成器的send()方法匀钧,初始化第一次發(fā)送的是None就驅(qū)動了coro即fetch()的第一次執(zhí)行翎碑。

send()完成之后,得到下一次的future之斯,然后給下一次的future添加step()回調(diào)日杈。原來add_done_callback()不是給寫爬蟲業(yè)務(wù)邏輯用的。此前的callback可就干的是業(yè)務(wù)邏輯呀佑刷。

再看fetch()生成器莉擒,其內(nèi)部寫完了所有的業(yè)務(wù)邏輯,包括如何發(fā)送請求瘫絮,如何讀取響應(yīng)涨冀。而且注冊給selector的回調(diào)相當簡單,就是給對應(yīng)的future對象綁定結(jié)果值麦萤。兩個yield表達式都是返回對應(yīng)的future對象鹿鳖,然后返回Task.step()之內(nèi),這樣Task, Future, Coroutine三者精妙地串聯(lián)在了一起壮莹。

初始化Task對象以后翅帜,把fetch()給驅(qū)動到了第44行yied f就完事了,接下來怎么繼續(xù)垛孔?

4.4.4 事件循環(huán)(Event Loop)驅(qū)動協(xié)程運行

該事件循環(huán)上場了藕甩。接下來,只需等待已經(jīng)注冊的EVENT_WRITE事件發(fā)生周荐。事件循環(huán)就像心臟一般狭莱,只要它開始跳動,整個程序就會持續(xù)運行概作。

注:總體耗時約0.43秒腋妙。

現(xiàn)在loop有了些許變化,callback()不再傳遞event_keyevent_mask參數(shù)讯榕。也就是說骤素,這里的回調(diào)根本不關(guān)心是誰觸發(fā)了這個事件,結(jié)合fetch()可以知道愚屁,它只需完成對future設(shè)置結(jié)果值即可f.set_result()济竹。而且future是誰它也不關(guān)心,因為協(xié)程能夠保存自己的狀態(tài)霎槐,知道自己的future是哪個送浊。也不用關(guān)心到底要設(shè)置什么值,因為要設(shè)置什么值也是協(xié)程內(nèi)安排的丘跌。

此時的loop()袭景,真的成了一個心臟,它只管往外泵血闭树,不論這份血液是要輸送給大腦還是要給腳趾耸棒,只要它還在跳動,生命就能延續(xù)报辱。

4.4.5 生成器協(xié)程風格和回調(diào)風格對比總結(jié)

在回調(diào)風格中:

  • 存在鏈式回調(diào)(雖然示例中嵌套回調(diào)只有一層)
  • 請求和響應(yīng)也不得不分為兩個回調(diào)以至于破壞了同步代碼那種結(jié)構(gòu)
  • 程序員必須在回調(diào)之間維護必須的狀態(tài)与殃。

還有更多示例中沒有展示,但確實存在的問題碍现,參見4.1節(jié)幅疼。

而基于生成器協(xié)程的風格:

  • 無鏈式調(diào)用
  • selector的回調(diào)里只管給future設(shè)置值,不再關(guān)心業(yè)務(wù)邏輯
  • loop 內(nèi)回調(diào)callback()不再關(guān)注是誰觸發(fā)了事件
  • 已趨近于同步代碼的結(jié)構(gòu)
  • 無需程序員在多個協(xié)程之間維護狀態(tài)鸵赫,例如哪個才是自己的sock

4.4.6 碉堡了衣屏,但是代碼很丑!能不能重構(gòu)辩棒?

如果說fetch的容錯能力要更強狼忱,業(yè)務(wù)功能也需要更完善,怎么辦一睁?而且技術(shù)處理的部分(socket相關(guān)的)和業(yè)務(wù)處理的部分(請求與返回數(shù)據(jù)的處理)混在一起钻弄。

  • 創(chuàng)建socket連接可以抽象復(fù)用吧?
  • 循環(huán)讀取整個response可以抽象復(fù)用吧者吁?
  • 循環(huán)內(nèi)處理socket.recv()的可以抽象復(fù)用吧窘俺?

但是這些關(guān)鍵節(jié)點的地方都有yield,抽離出來的代碼也需要是生成器复凳。而且fetch()自己也得是生成器瘤泪。生成器里玩生成器灶泵,代碼好像要寫得更丑才可以……

Python 語言的設(shè)計者們也認識到了這個問題,再次秉承著“程序猿不必為難程序猿”的原則对途,他們搗鼓出了一個yield from來解決生成器里玩生成器的問題赦邻。

4.5 用 yield from 改進生成器協(xié)程

4.5.1 yield from語法介紹

yield from 是Python 3.3 新引入的語法(PEP 380)。它主要解決的就是在生成器里玩生成器不方便的問題实檀。它有兩大主要功能惶洲。

第一個功能是:讓嵌套生成器不必通過循環(huán)迭代yield,而是直接yield from膳犹。以下兩種在生成器里玩子生成器的方式是等價的恬吕。

def gen_one():
    subgen = range(10)    yield from subgendef gen_two():
    subgen = range(10)    for item in subgen:        yield item

第二個功能就是在子生成器和原生成器的調(diào)用者之間打開雙向通道,兩者可以直接通信须床。

def gen():
    yield from subgen()def subgen():
    while True:
        x = yield
        yield x+1def main():
    g = gen()
    next(g)                # 驅(qū)動生成器g開始執(zhí)行到第一個 yield
    retval = g.send(1)     # 看似向生成器 gen() 發(fā)送數(shù)據(jù)
    print(retval)          # 返回2
    g.throw(StopIteration) # 看似向gen()拋入異常

通過上述代碼清晰地理解了yield from的雙向通道功能铐料。關(guān)鍵字yield from在gen()內(nèi)部為subgen()和main()開辟了通信通道。main()里可以直接將數(shù)據(jù)1發(fā)送給subgen(),subgen()也可以將計算后的數(shù)據(jù)2返回到main()里侨颈,main()里也可以直接向subgen()拋入異常以終止subgen()余赢。

順帶一提,yield from 除了可以 yield from 還可以 yield from 哈垢。

4.5.2 重構(gòu)代碼

抽象socket連接的功能:

抽象單次recv()和讀取完整的response功能:

三個關(guān)鍵點的抽象已經(jīng)完成妻柒,現(xiàn)在重構(gòu)Crawler類:

上面代碼整體來講沒什么問題,可復(fù)用的代碼已經(jīng)抽象出去耘分,作為子生成器也可以使用 yield from 語法來獲取值举塔。但另外有個點需要注意:在第24和第35行返回future對象的時候,我們了yield from f 而不是原來的yield f求泰。yield可以直接作用于普通Python對象央渣,而yield from卻不行,所以我們對Future還要進一步改造渴频,把它變成一個iterable對象就可以了芽丹。

只是增加了iter()方法的實現(xiàn)。如果不把Future改成iterable也是可以的卜朗,還是用原來的yield f即可拔第。那為什么需要改進呢?

首先场钉,我們是在基于生成器做協(xié)程蚊俺,而生成器還得是生成器,如果繼續(xù)混用yieldyield from 做協(xié)程逛万,代碼可讀性和可理解性都不好泳猬。其次,如果不改,協(xié)程內(nèi)還得關(guān)心它等待的對象是否可被yield得封,如果協(xié)程里還想繼續(xù)返回協(xié)程怎么辦埋心?如果想調(diào)用普通函數(shù)動態(tài)生成一個Future對象再返回怎么辦?

所以呛每,在Python 3.3 引入yield from新語法之后踩窖,就不再推薦用yield去做協(xié)程坡氯。全都使用yield from由于其雙向通道的功能晨横,可以讓我們在協(xié)程間隨心所欲地傳遞數(shù)據(jù)。

4.5.3 yield from改進協(xié)程總結(jié)

yield from改進基于生成器的協(xié)程箫柳,代碼抽象程度更高手形。使業(yè)務(wù)邏輯相關(guān)的代碼更精簡。由于其雙向通道功能可以讓協(xié)程之間隨心所欲傳遞數(shù)據(jù)悯恍,使Python異步編程的協(xié)程解決方案大大向前邁進了一步库糠。

于是Python語言開發(fā)者們充分利用yield from,使 Guido 主導的Python異步編程框架Tulip迅速脫胎換骨涮毫,并迫不及待得讓它在 Python 3.4 中換了個名字asyncio以“實習生”角色出現(xiàn)在標準庫中瞬欧。

4.5.4 asyncio 介紹

asyncio是Python 3.4 試驗性引入的異步I/O框架(PEP 3156),提供了基于協(xié)程做異步I/O編寫單線程并發(fā)代碼的基礎(chǔ)設(shè)施罢防。其核心組件有事件循環(huán)(Event Loop)艘虎、協(xié)程(Coroutine)、任務(wù)(Task)咒吐、未來對象(Future)以及其他一些擴充和輔助性質(zhì)的模塊野建。

在引入asyncio的時候,還提供了一個裝飾器@asyncio.coroutine用于裝飾使用了yield from的函數(shù)恬叹,以標記其為協(xié)程候生。但并不強制使用這個裝飾器。

雖然發(fā)展到 Python 3.4 時有了yield from的加持讓協(xié)程更容易了绽昼,但是由于協(xié)程在Python中發(fā)展的歷史包袱所致唯鸭,很多人仍然弄不明白生成器協(xié)程的聯(lián)系與區(qū)別,也弄不明白yieldyield from 的區(qū)別硅确。這種混亂的狀態(tài)也違背Python之禪的一些準則目溉。

于是Python設(shè)計者們又快馬加鞭地在 3.5 中新增了async/await語法(PEP 492),對協(xié)程有了明確而顯式的支持疏魏,稱之為原生協(xié)程停做。async/awaityield from這兩種風格的協(xié)程底層復(fù)用共同的實現(xiàn),而且相互兼容大莫。

在Python 3.6 中asyncio庫“轉(zhuǎn)正”蛉腌,不再是實驗性質(zhì)的,成為標準庫的正式一員。

4.6 總結(jié)

行至此處烙丛,我們已經(jīng)掌握了asyncio的核心原理舅巷,學習了它的原型,也學習了異步I/O在 CPython 官方支持的生態(tài)下是如何一步步發(fā)展至今的河咽。

實際上钠右,真正的asyncio比我們前幾節(jié)中學到的要復(fù)雜得多,它還實現(xiàn)了零拷貝忘蟹、公平調(diào)度飒房、異常處理、任務(wù)狀態(tài)管理等等使 Python 異步編程更完善的內(nèi)容媚值。理解原理和原型對我們后續(xù)學習有莫大的幫助狠毯。

5 asyncio和原生協(xié)程初體驗

本節(jié)中,我們將初步體驗asyncio庫和新增語法async/await給我們帶來的便利褥芒。由于Python2-3的過度期間嚼松,Python3.0-3.4的使用者并不是太多,也為了不讓更多的人困惑锰扶,也因為aysncio在3.6才轉(zhuǎn)正献酗,所以更深入學習asyncio庫的時候我們將使用async/await定義的原生協(xié)程風格,yield from風格的協(xié)程不再闡述(實際上它們可用很小的代價相互代替)坷牛。

對比生成器版的協(xié)程罕偎,使用asyncio庫后變化很大:

  • 沒有了yield yield from,而是async/await
  • 沒有了自造的loop()漓帅,取而代之的是asyncio.get_event_loop()
  • 無需自己在socket上做異步操作锨亏,不用顯式地注冊和注銷事件,aiohttp庫已經(jīng)代勞
  • 沒有了顯式的** Future** 和** Task忙干,asyncio**已封裝
  • 更少量的代碼器予,更優(yōu)雅的設(shè)計

說明:我們這里發(fā)送和接收HTTP請求不再自己操作socket的原因是,在實際做業(yè)務(wù)項目的過程中捐迫,要處理妥善地HTTP協(xié)議會很復(fù)雜乾翔,我們需要的是功能完善的異步HTTP客戶端,業(yè)界已經(jīng)有了成熟的解決方案施戴,DRY不是嗎反浓?

和同步阻塞版的代碼對比:

  • 異步化
  • 代碼量相當(引入aiohttp框架后更少)
  • 代碼邏輯同樣簡單,跟同步代碼一樣的結(jié)構(gòu)赞哗、一樣的邏輯
  • 接近10倍的性能提升

結(jié)語

到此為止雷则,我們已經(jīng)深入地學習了異步編程是什么、為什么肪笋、在Python里是怎么樣發(fā)展的月劈。我們找到了一種讓代碼看起來跟同步代碼一樣簡單度迂,而效率卻提升N倍(具體提升情況取決于項目規(guī)模、網(wǎng)絡(luò)環(huán)境猜揪、實現(xiàn)細節(jié))的異步編程方法惭墓。它也沒有回調(diào)的那些缺點。

本系列教程接下來的一篇將是學習asyncio庫如何的使用而姐,快速掌握它的主要內(nèi)容腊凶。后續(xù)我們還會深入探究asyncio的優(yōu)點與缺點,也會探討Python生態(tài)中其他異步I/O方案和asyncio的區(qū)別拴念。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末钧萍,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子丈莺,更是在濱河造成了極大的恐慌划煮,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,544評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缔俄,死亡現(xiàn)場離奇詭異,居然都是意外死亡器躏,警方通過查閱死者的電腦和手機俐载,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來登失,“玉大人遏佣,你說我怎么就攤上這事±空悖” “怎么了状婶?”我有些...
    開封第一講書人閱讀 162,764評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長馅巷。 經(jīng)常有香客問我膛虫,道長,這世上最難降的妖魔是什么钓猬? 我笑而不...
    開封第一講書人閱讀 58,193評論 1 292
  • 正文 為了忘掉前任稍刀,我火速辦了婚禮,結(jié)果婚禮上敞曹,老公的妹妹穿的比我還像新娘账月。我一直安慰自己,他們只是感情好澳迫,可當我...
    茶點故事閱讀 67,216評論 6 388
  • 文/花漫 我一把揭開白布局齿。 她就那樣靜靜地躺著,像睡著了一般橄登。 火紅的嫁衣襯著肌膚如雪抓歼。 梳的紋絲不亂的頭發(fā)上担平,一...
    開封第一講書人閱讀 51,182評論 1 299
  • 那天,我揣著相機與錄音锭部,去河邊找鬼暂论。 笑死,一個胖子當著我的面吹牛拌禾,可吹牛的內(nèi)容都是我干的取胎。 我是一名探鬼主播,決...
    沈念sama閱讀 40,063評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼湃窍,長吁一口氣:“原來是場噩夢啊……” “哼闻蛀!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起您市,我...
    開封第一講書人閱讀 38,917評論 0 274
  • 序言:老撾萬榮一對情侶失蹤觉痛,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后茵休,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體薪棒,經(jīng)...
    沈念sama閱讀 45,329評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,543評論 2 332
  • 正文 我和宋清朗相戀三年榕莺,在試婚紗的時候發(fā)現(xiàn)自己被綠了俐芯。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,722評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡钉鸯,死狀恐怖吧史,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情唠雕,我是刑警寧澤贸营,帶...
    沈念sama閱讀 35,425評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站岩睁,受9級特大地震影響钞脂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜笙僚,卻給世界環(huán)境...
    茶點故事閱讀 41,019評論 3 326
  • 文/蒙蒙 一芳肌、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧肋层,春花似錦亿笤、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蒲拉,卻和暖如春肃拜,著一層夾襖步出監(jiān)牢的瞬間痴腌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評論 1 269
  • 我被黑心中介騙來泰國打工燃领, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留士聪,地道東北人。 一個月前我還...
    沈念sama閱讀 47,729評論 2 368
  • 正文 我出身青樓猛蔽,卻偏偏與公主長得像剥悟,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子曼库,可洞房花燭夜當晚...
    茶點故事閱讀 44,614評論 2 353

推薦閱讀更多精彩內(nèi)容