基于云原生AI的RDMA網(wǎng)絡(luò)分布式訓(xùn)練

概述

RDMA(Remote Direct Memory Access)是新一代的網(wǎng)絡(luò)通信技術(shù),它允許計算機(jī)之間直接進(jìn)行內(nèi)存對內(nèi)存的數(shù)據(jù)傳輸胁出,而不需要經(jīng)過操作系統(tǒng)或中央處理器的處理。在大規(guī)模的分布式訓(xùn)練中段审,通過使用RDMA有效解決網(wǎng)絡(luò)傳輸中服務(wù)器端數(shù)據(jù)處理的延遲問題全蝶,從而實現(xiàn)高吞吐、低延遲的網(wǎng)絡(luò)通信,提升訓(xùn)練效率抑淫。

環(huán)境準(zhǔn)備

已經(jīng)創(chuàng)建集群绷落,且集群中至少有2臺具有RDMA網(wǎng)絡(luò)的GPU實例。
GPU實例鏡像中包含ofed和nvidia驅(qū)動始苇,這里推薦使用百度智能云提供的GPU鏡像砌烁,已包含OFED驅(qū)動,無需手動安裝催式。
集群已安裝 云原生AI CCE RDMA Device Plugin函喉、 CCE GPU Manager 、 CCE AI Job Scheduler 和 CCE Deep Learning Frameworks Operator 組件荣月。

驗證

登錄集群內(nèi)具有 RDMA 網(wǎng)絡(luò)的GPU節(jié)點管呵,運行以下命令驗證主機(jī)環(huán)境。

$ ofed_info -s         #roce驅(qū)動版本  
MLNX_OFED_LINUX-*.*-*.*.*.*:  

驗證 Nvidia GPU 驅(qū)動

nvidia-smi  #nvidia gpu驅(qū)動  
+-----------------------------------------------------------------------------+  
| NVIDIA-SMI 470.141.03   Driver Version: 470.141.03   CUDA Version: 11.4     |  
|-------------------------------+----------------------+----------------------+  
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |  
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |  
|                               |                      |               MIG M. |  
|===============================+======================+======================|  
|   0  NVIDIA A100-SXM...  On   | 00000000:53:00.0 Off |                    0 |  
| N/A   29C    P0    64W / 400W |      0MiB / 81251MiB |      0%      Default |  
|                               |                      |             Disabled |  
+-------------------------------+----------------------+----------------------+  
|   1  NVIDIA A100-SXM...  On   | 00000000:59:00.0 Off |                    0 |  
| N/A   32C    P0    61W / 400W |      0MiB / 81251MiB |      0%      Default |  
|                               |                      |             Disabled |  
+-------------------------------+----------------------+----------------------+  
|   2  NVIDIA A100-SXM...  On   | 00000000:6E:00.0 Off |                    0 |  
| N/A   33C    P0    67W / 400W |      0MiB / 81251MiB |      0%      Default |  
|                               |                      |             Disabled |  
+-------------------------------+----------------------+----------------------+  
|   3  NVIDIA A100-SXM...  On   | 00000000:73:00.0 Off |                    0 |  
| N/A   29C    P0    60W / 400W |      0MiB / 81251MiB |      0%      Default |  
|                               |                      |             Disabled |  
+-------------------------------+----------------------+----------------------+  
|   4  NVIDIA A100-SXM...  On   | 00000000:8D:00.0 Off |                    0 |  
| N/A   29C    P0    60W / 400W |      0MiB / 81251MiB |      0%      Default |  
|                               |                      |             Disabled |  
+-------------------------------+----------------------+----------------------+  
|   5  NVIDIA A100-SXM...  On   | 00000000:92:00.0 Off |                    0 |  
| N/A   32C    P0    65W / 400W |      0MiB / 81251MiB |      0%      Default |  
|                               |                      |             Disabled |  
+-------------------------------+----------------------+----------------------+  
|   6  NVIDIA A100-SXM...  On   | 00000000:C9:00.0 Off |                    0 |  
| N/A   33C    P0    64W / 400W |      0MiB / 81251MiB |      0%      Default |  
|                               |                      |             Disabled |  
+-------------------------------+----------------------+----------------------+  
|   7  NVIDIA A100-SXM...  On   | 00000000:CF:00.0 Off |                    0 |  
| N/A   28C    P0    62W / 400W |      0MiB / 81251MiB |      0%      Default |  
|                               |                      |             Disabled |  
+-------------------------------+----------------------+----------------------+  


+-----------------------------------------------------------------------------+  
| Processes:                                                                  |  
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |  
|        ID   ID                                                   Usage      |  
|=============================================================================|  
|  No running processes found                                                 |  
+-----------------------------------------------------------------------------+  

查詢 RDMA 網(wǎng)卡

show_gids  
DEV PORT    INDEX   GID                 IPv4        VER DEV  
--- ----    -----   ---                 ------------    --- ---  
mlx5_0  1   0   fe80:0000:0000:0000:f820:20ff:fe28:c769         v1  eth0  
mlx5_0  1   1   fe80:0000:0000:0000:f820:20ff:fe28:c769         v2  eth0  
mlx5_0  1   2   0000:0000:0000:0000:0000:ffff:0a00:3c03 10.0.60.3   v1  eth0  
mlx5_0  1   3   0000:0000:0000:0000:0000:ffff:0a00:3c03 10.0.60.3   v2  eth0  
mlx5_1  1   0   fe80:0000:0000:0000:eaeb:d3ff:fecc:c920         v1  eth1  
mlx5_1  1   1   fe80:0000:0000:0000:eaeb:d3ff:fecc:c920         v2  eth1  
mlx5_1  1   2   0000:0000:0000:0000:0000:ffff:190b:8002 25.11.128.2     v1  eth1  
mlx5_1  1   3   0000:0000:0000:0000:0000:ffff:190b:8002 25.11.128.2     v2  eth1  
mlx5_2  1   0   fe80:0000:0000:0000:eaeb:d3ff:fecc:c921         v1  eth2  
mlx5_2  1   1   fe80:0000:0000:0000:eaeb:d3ff:fecc:c921         v2  eth2  
mlx5_2  1   2   0000:0000:0000:0000:0000:ffff:190b:8022 25.11.128.34    v1  eth2  
mlx5_2  1   3   0000:0000:0000:0000:0000:ffff:190b:8022 25.11.128.34    v2  eth2  
mlx5_3  1   0   fe80:0000:0000:0000:eaeb:d3ff:fe6c:51d2         v1  eth3  
mlx5_3  1   1   fe80:0000:0000:0000:eaeb:d3ff:fe6c:51d2         v2  eth3  
mlx5_3  1   2   0000:0000:0000:0000:0000:ffff:190b:8042 25.11.128.66    v1  eth3  
mlx5_3  1   3   0000:0000:0000:0000:0000:ffff:190b:8042 25.11.128.66    v2  eth3  
mlx5_4  1   0   fe80:0000:0000:0000:eaeb:d3ff:fe6c:51d3         v1  eth4  
mlx5_4  1   1   fe80:0000:0000:0000:eaeb:d3ff:fe6c:51d3         v2  eth4  
mlx5_4  1   2   0000:0000:0000:0000:0000:ffff:190b:8062 25.11.128.98    v1  eth4  
mlx5_4  1   3   0000:0000:0000:0000:0000:ffff:190b:8062 25.11.128.98    v2  eth4  
mlx5_5  1   0   fe80:0000:0000:0000:eaeb:d3ff:fe33:1366         v1  eth5  
mlx5_5  1   1   fe80:0000:0000:0000:eaeb:d3ff:fe33:1366         v2  eth5  
mlx5_5  1   2   0000:0000:0000:0000:0000:ffff:190b:8082 25.11.128.130   v1  eth5  
mlx5_5  1   3   0000:0000:0000:0000:0000:ffff:190b:8082 25.11.128.130   v2  eth5  
mlx5_6  1   0   fe80:0000:0000:0000:eaeb:d3ff:fe33:1367         v1  eth6  
mlx5_6  1   1   fe80:0000:0000:0000:eaeb:d3ff:fe33:1367         v2  eth6  
mlx5_6  1   2   0000:0000:0000:0000:0000:ffff:190b:80a2 25.11.128.162   v1  eth6  
mlx5_6  1   3   0000:0000:0000:0000:0000:ffff:190b:80a2 25.11.128.162   v2  eth6  
mlx5_7  1   0   fe80:0000:0000:0000:eaeb:d3ff:fe6c:68ae         v1  eth7  
mlx5_7  1   1   fe80:0000:0000:0000:eaeb:d3ff:fe6c:68ae         v2  eth7  
mlx5_7  1   2   0000:0000:0000:0000:0000:ffff:190b:80c2 25.11.128.194   v1  eth7  
mlx5_7  1   3   0000:0000:0000:0000:0000:ffff:190b:80c2 25.11.128.194   v2  eth7  
mlx5_8  1   0   fe80:0000:0000:0000:eaeb:d3ff:fe6c:68af         v1  eth8  
mlx5_8  1   1   fe80:0000:0000:0000:eaeb:d3ff:fe6c:68af         v2  eth8  
mlx5_8  1   2   0000:0000:0000:0000:0000:ffff:190b:80e2 25.11.128.226   v1  eth8  
mlx5_8  1   3   0000:0000:0000:0000:0000:ffff:190b:80e2 25.11.128.226   v2  eth8  

NCCL使用

NCCL是NVIDIA的集合通信庫哺窄,能實現(xiàn)Collective通信和點對點通信捐下,NCCL內(nèi)部已經(jīng)實現(xiàn)了RDMA通信,同時NCCL可以根據(jù)環(huán)境中網(wǎng)卡類型和拓?fù)潢P(guān)系堂氯,自行選擇一個最優(yōu)的通信路徑,目前主流的分布式訓(xùn)練框架都已支持NCCL牌废。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末咽白,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子鸟缕,更是在濱河造成了極大的恐慌晶框,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件懂从,死亡現(xiàn)場離奇詭異授段,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)番甩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門侵贵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人缘薛,你說我怎么就攤上這事窍育。” “怎么了宴胧?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵漱抓,是天一觀的道長。 經(jīng)常有香客問我恕齐,道長乞娄,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮仪或,結(jié)果婚禮上确镊,老公的妹妹穿的比我還像新娘。我一直安慰自己溶其,他們只是感情好骚腥,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著瓶逃,像睡著了一般束铭。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上厢绝,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天契沫,我揣著相機(jī)與錄音,去河邊找鬼昔汉。 笑死懈万,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的靶病。 我是一名探鬼主播会通,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼娄周!你這毒婦竟也來了涕侈?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤煤辨,失蹤者是張志新(化名)和其女友劉穎裳涛,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體众辨,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡端三,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了鹃彻。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片郊闯。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖蛛株,靈堂內(nèi)的尸體忽然破棺而出虚婿,到底是詐尸還是另有隱情,我是刑警寧澤泳挥,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布然痊,位于F島的核電站,受9級特大地震影響屉符,放射性物質(zhì)發(fā)生泄漏剧浸。R本人自食惡果不足惜锹引,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望唆香。 院中可真熱鬧嫌变,春花似錦、人聲如沸躬它。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽冯吓。三九已至倘待,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間组贺,已是汗流浹背凸舵。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留失尖,地道東北人啊奄。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像掀潮,于是被迫代替她去往敵國和親菇夸。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容