開篇：XLA是什么？

XLA(Accelerated Linear Algebra)是專用于機(jī)器學(xué)習(xí)的編譯器跑慕，機(jī)器學(xué)習(xí)的運(yùn)算中99%都是向量乘以矩陣潮秘、矩陣乘以矩陣的計(jì)算殴俱，XLA是專門用來優(yōu)化這些計(jì)算的。

How to

舉個(gè)例子抓狭，運(yùn)行在GPU上的model_fn函數(shù)會順序調(diào)用multiply伯病、add和reduce_sum這三個(gè)op，而且multiply否过，也就是y * z的計(jì)算結(jié)果會先從GPU拷貝回host午笛，再拷貝到device作為add的input，同樣的苗桂，add的計(jì)算結(jié)果也會以相同的方式傳遞給下一個(gè)op药磺。

def model_fn(x, y, z):
  return tf.reduce_sum(x + y * z)

顯然，對于整個(gè)函數(shù)來說煤伟，將中間變量在host和device間來回倒騰是沒有意義的癌佩。因此，如果把函數(shù)看作一個(gè)op持偏，那在計(jì)算中產(chǎn)生的中間結(jié)果就不必返回到host驼卖，少了數(shù)據(jù)傳輸?shù)臅r(shí)間開銷，就可以大幅提升運(yùn)算效率鸿秆。

這種將多個(gè)op融合成一個(gè)op的方法就稱為fuse酌畜，當(dāng)前fuse的技術(shù)路線有：

通過手寫或codegen工具來開發(fā)fused op，例如在上述例子中就可以開發(fā)tf.fused_reduce_sum(x, y, z)卿叽。它的優(yōu)點(diǎn)是代碼可控性高桥胞，易于性能優(yōu)化，但缺點(diǎn)是程序缺乏靈活性考婴。像Pytorch這種動態(tài)圖的框架走的就是這條路線贩虾，Nvidia的Apex提供有大量fused kernel，對fused kernel感興趣的沥阱，可以讀讀LayerNorm核心技術(shù)缎罢。
通過XLA等AI編譯器將python函數(shù)編譯成fused op。這樣做的好處是靈活性強(qiáng)，可以fuse任何計(jì)算策精，弊端則是開發(fā)難度大舰始，且性能通常會遜色于手寫或codegen kernel。

性能

XLA的優(yōu)化當(dāng)然不只是fuse咽袜，還有對計(jì)算圖的優(yōu)化丸卷，包括刪除無效指令、減少內(nèi)存占用询刹、替換復(fù)雜指令等優(yōu)化谜嫉。下圖是官方提供的性能報(bào)告，經(jīng)XLA優(yōu)化過后凹联，Tensorflow BERT MLPerf的訓(xùn)練性能提升了~7倍沐兰。除了Tensorflow外，XLA還支持JAX匕垫、Julia僧鲁、PyTorch和Nx等前端虐呻。

https://www.tensorflow.org/xla

Just in time（JIT）

jit是指在首次運(yùn)行時(shí)將函數(shù)編譯成二進(jìn)制程序象泵，后續(xù)再調(diào)用該函數(shù)時(shí)直接運(yùn)行先前編譯好的程序而非python code。@tf.funciton修飾的函數(shù)（包括它的子函數(shù)）會做jit斟叼。除非signature發(fā)生了變化偶惠，也就是input的shape或dtype和編譯時(shí)不同，否則get_MSE是不需要重復(fù)編譯的朗涩。

@tf.function
def get_MSE(y_true, y_pred):
  print("compiling ...")
  sq_diff = tf.pow(y_true - y_pred, 2)
  return tf.reduce_mean(sq_diff)

get_MSE(tf.constant(1.0), tf.constant(2.0)) # compile
get_MSE(tf.constant(3.0), tf.constant(4.0)) # It won't recompile
get_MSE(tf.ones([2, 2]), tf.ones([2, 2]) # compile again for new signature

@tf.function將函數(shù)內(nèi)的ops替換成一組（XlaCompile, XlaRun) ops忽孽，在運(yùn)行時(shí)前者負(fù)責(zé)編譯，并將編譯結(jié)果--executable保存到cache谢床，后者負(fù)責(zé)運(yùn)行executable兄一。如果cache里已經(jīng)有編譯好的程序就不需要編譯了，例如get_MSE(tf.constant(3.0), tf.constant(4.0))识腿。

HLO

XLA編譯器支持的語言（IR）是HLO（High Level Operations）出革，顧名思義這些語言是由一個(gè)個(gè)op組成，因此渡讼，我們在編譯前需要先從python code中提取出所有ops骂束，再將它們轉(zhuǎn)換成HLO。

JAX通過tracing的方式成箫，從@jax.jit修飾的函數(shù)中提取ops展箱，這些ops通過jaxpr來表示。然后再通過XLA client提供的API為ops生成相應(yīng)的HLO蹬昌。PyTorch/XLA也是采用類似的方法來生成HLO混驰。

Tensorflow的tf2xla為每個(gè)Op創(chuàng)建了一個(gè)同名的XlaOp用于生成HLO，XlaOp派生于Op，使用相同的注冊機(jī)制栖榨，因此竞慢，只要把要編譯的子圖根據(jù)拓?fù)渑判蜻\(yùn)行一遍就能生成它的HLO。

編譯

HLO先經(jīng)過一系列pass優(yōu)化后再將HLO lowering成ISA治泥，最后將編譯好的二進(jìn)制封裝到executable筹煮。

https://www.tensorflow.org/xla/architecture

Executable

除了二進(jìn)制程序，它還包含運(yùn)行該程序所需要的infos和options居夹。調(diào)用executable.run()就可以執(zhí)行計(jì)算圖败潦。

END

最后編輯于：2022.02.26 08:25:42

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市准脂，隨后出現(xiàn)的幾起案子劫扒，更是在濱河造成了極大的恐慌，老刑警劉巖狸膏，帶你破解...
沈念sama閱讀 222,183評論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件沟饥，死亡現(xiàn)場離奇詭異，居然都是意外死亡湾戳，警方通過查閱死者的電腦和手機(jī)版述，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,850評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來嗽桩，“玉大人传透，你說我怎么就攤上這事∪鸵拢” “怎么了盅藻？”我有些...
開封第一講書人閱讀 168,766評論 0贊 361
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長畅铭。經(jīng)常有香客問我氏淑，道長，這世上最難降的妖魔是什么硕噩？我笑而不...
開封第一講書人閱讀 59,854評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任假残，我火速辦了婚禮，結(jié)果婚禮上榴徐，老公的妹妹穿的比我還像新娘守问。我一直安慰自己，他們只是感情好坑资，可當(dāng)我...
茶點(diǎn)故事閱讀 68,871評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布耗帕。她就那樣靜靜地躺著，像睡著了一般袱贮。火紅的嫁衣襯著肌膚如雪仿便。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,457評論 1贊 311
城市分裂傳說
那天，我揣著相機(jī)與錄音嗽仪，去河邊找鬼荒勇。笑死，一個(gè)胖子當(dāng)著我的面吹牛闻坚，可吹牛的內(nèi)容都是我干的沽翔。我是一名探鬼主播，決...
沈念sama閱讀 40,999評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼窿凤，長吁一口氣：“原來是場噩夢啊……” “哼仅偎！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起雳殊，我...
開封第一講書人閱讀 39,914評論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤橘沥，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后夯秃，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體座咆，經(jīng)...
沈念sama閱讀 46,465評論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,543評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年仓洼，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了介陶。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,675評論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡衬潦，死狀恐怖斤蔓，靈堂內(nèi)的尸體忽然破棺而出植酥，到底是詐尸還是另有隱情镀岛，我是刑警寧澤，帶...
沈念sama閱讀 36,354評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布友驮，位于F島的核電站漂羊，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏卸留。R本人自食惡果不足惜走越，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,029評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望耻瑟。院中可真熱鬧旨指，春花似錦、人聲如沸喳整。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,514評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽框都。三九已至搬素，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背熬尺。一陣腳步聲響...
開封第一講書人閱讀 33,616評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工摸屠，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人粱哼。一個(gè)月前我還...
沈念sama閱讀 49,091評論 3贊 378
代替公主和親
正文我出身青樓季二，卻偏偏與公主長得像，于是被迫代替她去往敵國和親揭措。傳聞我的和親對象是個(gè)殘疾皇子戒傻，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,685評論 2贊 360

開篇：XLA是什么惫东？

開篇：XLA是什么？

How to

性能

Just in time（JIT）

HLO

編譯

Executable

END

推薦閱讀更多精彩內(nèi)容