深度學(xué)習(xí)中如何正確地measure inference time

一、引入

network latency是在將深度學(xué)習(xí)網(wǎng)絡(luò)投入實(shí)際應(yīng)用時(shí)需要考慮的重要因素畏线。
文章結(jié)構(gòu)：

the main processes that make GPU execution unique, including asynchronous execution and GPU warm up
share code samples for measuring time correctly on a GPU
review some of the common mistakes people make when quantifying inference time on GPUs

二栖袋、異步執(zhí)行（Asynchronous execution）

我們先來(lái)討論GPU的執(zhí)行機(jī)制拴驮。
在多線程或者多設(shè)備編程中樟插，兩個(gè)獨(dú)立的代碼塊能被并行執(zhí)行；也就是說(shuō)摹菠，第二個(gè)代碼塊可能比第一個(gè)代碼塊先執(zhí)行完。這個(gè)過(guò)程就叫作異步執(zhí)行骗爆。
在深度學(xué)習(xí)中次氨，我們常常需要用到異步執(zhí)行，因?yàn)镚PU操作默認(rèn)是異步的摘投。
更加具體來(lái)說(shuō)煮寡，當(dāng)我們用GPU去調(diào)用一個(gè)函數(shù)的時(shí)候，這些操作會(huì)安排到一個(gè)特定的設(shè)備去排隊(duì)犀呼，但未必會(huì)去其他設(shè)備區(qū)排隊(duì)洲押。這個(gè)機(jī)制允許我們?cè)贑PU或者其他GPU上并行地執(zhí)行運(yùn)算。

下圖左邊為同步執(zhí)行圆凰。進(jìn)程A需要等到進(jìn)程B的回復(fù)才能繼續(xù)執(zhí)行杈帐。右圖為異步執(zhí)行。進(jìn)程A不需要等進(jìn)程B執(zhí)行完就可以繼續(xù)執(zhí)行专钉。

image.png

異步執(zhí)行給深度學(xué)習(xí)提供了便利挑童。當(dāng)我們用多個(gè)batches去進(jìn)行inference時(shí)，當(dāng)?shù)谝粋€(gè)batch被喂到GPU上的網(wǎng)絡(luò)的時(shí)候跃须，第二個(gè)batch能在CPU上進(jìn)行預(yù)處理站叼。

當(dāng)我們用Python里的time庫(kù)計(jì)算時(shí)間時(shí)，這個(gè)measurement是在CPU上運(yùn)行的菇民。因?yàn)镚PU的異步特性尽楔，停止計(jì)算時(shí)間的那行代碼將會(huì)在GPU運(yùn)行完成之前被執(zhí)行。之后我們會(huì)介紹如何在異步運(yùn)行的條件下正確計(jì)算時(shí)間第练。

三阔馋、GPU warm-up

一個(gè)現(xiàn)代化的GPU設(shè)備有不同種耗電狀態(tài)(power states）。當(dāng)GPU不在使用并且persistence mode is not enabled娇掏，GPU會(huì)自動(dòng)reduce its power state to a very low level呕寝，有時(shí)候甚至完全關(guān)閉。在低耗電模式中婴梧，GPU會(huì)關(guān)掉不同pieces of 硬件下梢，包括 memory subsystems, internal subsystems, or even compute cores and caches.

任何嘗試與GPU交互的程序的調(diào)用都將會(huì)導(dǎo)致驅(qū)動(dòng)（the driver）去加載或者初始化GPU客蹋。這個(gè)驅(qū)動(dòng)加載的行為（driver load behavior）是值得注意的。那些觸發(fā)GPU初始化的應(yīng)用會(huì)導(dǎo)致最高3秒的延遲孽江，因?yàn)閠he scrubbing behavior of the error-correcting code讶坯。

舉個(gè)例子，如果我們?nèi)y(cè)試一個(gè)網(wǎng)絡(luò)的時(shí)間岗屏，這個(gè)網(wǎng)絡(luò)跑一個(gè)樣例需要10 milliseconds闽巩，那么跑1000個(gè)樣例會(huì)導(dǎo)致大部分running time都花在了初始化服務(wù)器上。這樣測(cè)出來(lái)的時(shí)間是不準(zhǔn)的担汤。

Nor does it reflect a production environment where usually the GPU is already initialized or working in persistence mode.
在measure time的時(shí)候涎跨，如何deal withGPU的初始化時(shí)間呢？

四崭歧、正確的measure inference time的方式

下面的Pytorch代碼展示了如何正確地measure inference time隅很。
這里用到的網(wǎng)絡(luò)是Efficient-net-b0。在代碼中率碾，我們處理了上面提到的兩個(gè)問(wèn)題（GPU預(yù)熱和異步執(zhí)行）叔营。
在進(jìn)行任何時(shí)間測(cè)量之前，我們?cè)诰W(wǎng)絡(luò)上跑幾個(gè)dummy examples以進(jìn)行”GPU warm up “所宰。這一步會(huì)自動(dòng)初始化GPU并且阻止GPU在我們測(cè)量時(shí)間時(shí)回到省電模式（power saveing mode）绒尊。
然后，我們用 tr.cuda.event去在GPU上測(cè)量時(shí)間仔粥。
這里值得注意的是需要用到torch.cuda.synchronize()這個(gè)函數(shù)婴谱。這個(gè)函數(shù)能夠同步host和device（即：GPU和CPU），因此躯泰，只有在GPU上的進(jìn)程結(jié)束時(shí)谭羔，時(shí)間才會(huì)被記錄。這樣就解決了非同步執(zhí)行的問(wèn)題麦向。

model = EfficientNet.from_pretrained(‘efficientnet-b0’)
device = torch.device(“cuda”)
model.to(device)
dummy_input = torch.randn(1, 3,224,224,dtype=torch.float).to(device)
starter, ender = torch.cuda.Event(enable_timing=True), torch.cuda.Event(enable_timing=True)
repetitions = 300
timings=np.zeros((repetitions,1))
#GPU-WARM-UP：開(kāi)始跑dummy example
for _ in range(10):
   _ = model(dummy_input)
# MEASURE PERFORMANCE
with torch.no_grad():
  for rep in range(repetitions):
     starter.record()
     _ = model(dummy_input)
     ender.record()
     # WAIT FOR GPU SYNC
     torch.cuda.synchronize()
     curr_time = starter.elapsed_time(ender)
     timings[rep] = curr_time
mean_syn = np.sum(timings) / repetitions
std_syn = np.std(timings)
print(mean_syn)

這段代碼里瘟裸，用了torch.cuda.Event(enable_timing=True)這個(gè)命令中的.record來(lái)記錄時(shí)間，并且用torch.cuda.synchronize()進(jìn)行了時(shí)間同步诵竭，最后用curr_time = starter.elapsed_time(ender)來(lái)計(jì)算起止時(shí)間差话告。

五、在測(cè)量時(shí)間時(shí)的常見(jiàn)錯(cuò)誤

當(dāng)我們測(cè)量一個(gè)網(wǎng)絡(luò)的延遲（the latency of a network）時(shí)卵慰，我們的目標(biāo)是只測(cè)量網(wǎng)絡(luò)前向傳播（feed-forward ）消耗的時(shí)間沙郭。這些是進(jìn)行測(cè)量時(shí)可能犯的錯(cuò)誤和可能導(dǎo)致的后果：

1. 在host和device之間傳輸數(shù)據(jù)（即：GPU和CPU）

這個(gè)錯(cuò)誤常常是無(wú)意識(shí)發(fā)生的。比如：一個(gè)張量產(chǎn)生于CPU但是然后在GPU上進(jìn)行inference呵燕。
這個(gè)內(nèi)存分配（memory allocation）會(huì)消耗considerable amount of time棠绘，從而導(dǎo)致inference time變大件相。

這個(gè)錯(cuò)誤會(huì)影響時(shí)間測(cè)量的均值和方差再扭，如下圖氧苍，橫坐標(biāo)是時(shí)間測(cè)量的方法，縱坐標(biāo)是以milliseconds為單位的時(shí)間：

image.png

2. 不使用 GPU warm-up

正如上文提到的泛范，the first run on the GPU prompts its initialization. GPU initialization can take up to 3 seconds, which makes a huge difference when the timing is in terms of milliseconds.

3. 用標(biāo)準(zhǔn)的CPU計(jì)時(shí)法

The most common mistake made is to measure time without synchronization. Even experienced programmers have been known to use the following piece of code.

s = time.time()
 _ = model(dummy_input)
curr_time = (time.time()-s )*1000

這段代碼完全沒(méi)考慮異步執(zhí)行让虐，因此輸出了不正確的時(shí)間。這個(gè)錯(cuò)誤對(duì)時(shí)間測(cè)量的均值和方差影響如下罢荡，橫坐標(biāo)是時(shí)間測(cè)量的方法赡突，縱坐標(biāo)是以milliseconds為單位的時(shí)間：

image.png

4. 只用一個(gè)exmaple來(lái)測(cè)試時(shí)間

神經(jīng)網(wǎng)絡(luò)的前向傳播 has a (small) stochastic component。The variance of the run-time can be significant, especially when measuring a low latency network.
因此区赵，用若干個(gè)樣例來(lái)跑網(wǎng)絡(luò)然后對(duì)結(jié)果取平均是非常重要的（300 examples can be a good number）

六惭缰、吞吐量的測(cè)量（Measuring Throughput）

神經(jīng)網(wǎng)絡(luò)吞吐量的定義為：在一個(gè)時(shí)間單元（如：一秒）內(nèi)網(wǎng)絡(luò)能處理的最大輸入樣例數(shù)。
與延遲（處理單個(gè)樣例）不同的是笼才，為了達(dá)到最大的吞吐量漱受，我們往往希望并行處理盡可能多的樣例。The effective parallelism is obviously data-, model-, and device-dependent.
因此骡送，為了正確地測(cè)量吞吐量昂羡，我們需要進(jìn)行以下兩個(gè)步驟：
（1）估計(jì)最大并行所允許的最佳batch size
（2）在最佳batch size下，測(cè)量網(wǎng)絡(luò)一秒內(nèi)能處理的樣例數(shù)目摔踱。

如何找到最佳batch size虐先？一個(gè)好辦法是在給定數(shù)據(jù)類型下，達(dá)到GPU的memory limit的batch size派敷。這個(gè)batch size肯定與硬件類型和網(wǎng)絡(luò)尺寸相關(guān)蛹批。最快找到最大batch size的方法是進(jìn)行二分搜索。
當(dāng)我們不需要考慮找最佳batch size時(shí)間的時(shí)候篮愉，a simple sequential search is sufficient.用一個(gè)for 循環(huán)般眉，每次增大一個(gè)batch size，直到報(bào)錯(cuò)Run Time error潜支。這時(shí)候的batch size就是在我們的神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)數(shù)據(jù)下甸赃，GPU能處理的最大batch size。
在找到最大的batch size之后冗酿，我們?nèi)ビ?jì)算實(shí)際的吞吐量埠对。我們運(yùn)行很多個(gè)batch（100個(gè)batch足夠了），并用以下公式來(lái)計(jì)算一秒內(nèi)神經(jīng)網(wǎng)絡(luò)能處理的樣本數(shù)目：
(number of batches X batch size)/(total time in seconds).

model = EfficientNet.from_pretrained(‘efficientnet-b0’)
device = torch.device(“cuda”)
model.to(device)
dummy_input = torch.randn(optimal_batch_size, 3,224,224, dtype=torch.float).to(device)
repetitions=100
total_time = 0
with torch.no_grad():
  for rep in range(repetitions):
     starter, ender = torch.cuda.Event(enable_timing=True),          torch.cuda.Event(enable_timing=True)
     starter.record()
     _ = model(dummy_input)
     ender.record()
     torch.cuda.synchronize()
     curr_time = starter.elapsed_time(ender)/1000
     total_time += curr_time
Throughput = (repetitions*optimal_batch_size)/total_time
print(‘Final Throughput:’,Throughput)

最后編輯于：2020.07.29 11:07:27

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末裁替，一起剝皮案震驚了整個(gè)濱河市项玛，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌弱判，老刑警劉巖襟沮，帶你破解...
沈念sama閱讀 217,185評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡开伏，警方通過(guò)查閱死者的電腦和手機(jī)膀跌，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)固灵，“玉大人捅伤，你說(shuō)我怎么就攤上這事∥撞＃” “怎么了丛忆？”我有些...
開(kāi)封第一講書人閱讀 163,524評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)仍秤。經(jīng)常有香客問(wèn)我熄诡，道長(zhǎng)，這世上最難降的妖魔是什么诗力？我笑而不...
開(kāi)封第一講書人閱讀 58,339評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任粮彤，我火速辦了婚禮，結(jié)果婚禮上姜骡，老公的妹妹穿的比我還像新娘导坟。我一直安慰自己，他們只是感情好圈澈，可當(dāng)我...
茶點(diǎn)故事閱讀 67,387評(píng)論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布惫周。她就那樣靜靜地躺著，像睡著了一般康栈。火紅的嫁衣襯著肌膚如雪递递。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 51,287評(píng)論 1贊 301
城市分裂傳說(shuō)
那天啥么，我揣著相機(jī)與錄音登舞，去河邊找鬼。笑死悬荣，一個(gè)胖子當(dāng)著我的面吹牛菠秒，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播氯迂，決...
沈念sama閱讀 40,130評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼践叠，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了嚼蚀？” 一聲冷哼從身側(cè)響起禁灼，我...
開(kāi)封第一講書人閱讀 38,985評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎轿曙，沒(méi)想到半個(gè)月后弄捕，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體僻孝，經(jīng)...
沈念sama閱讀 45,420評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,617評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年守谓，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了穿铆。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,779評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡分飞，死狀恐怖悴务，靈堂內(nèi)的尸體忽然破棺而出睹限，到底是詐尸還是另有隱情譬猫，我是刑警寧澤，帶...
沈念sama閱讀 35,477評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布羡疗，位于F島的核電站染服，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏叨恨。R本人自食惡果不足惜柳刮，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,088評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望痒钝。院中可真熱鬧秉颗，春花似錦、人聲如沸送矩。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 31,716評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)栋荸。三九已至菇怀，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間晌块，已是汗流浹背爱沟。一陣腳步聲響...
開(kāi)封第一講書人閱讀 32,857評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留匆背，地道東北人呼伸。一個(gè)月前我還...
沈念sama閱讀 47,876評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像钝尸，于是被迫代替她去往敵國(guó)和親蜂大。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,700評(píng)論 2贊 354