Kubernetes與HPC:(1)RDMA網(wǎng)絡(luò)

什么是RDMA

在計(jì)算機(jī)運(yùn)算領(lǐng)域灭袁,遠(yuǎn)程直接內(nèi)存訪問(wèn)(英語(yǔ):remote direct memory access,RDMA)是一種直接存儲(chǔ)器訪問(wèn)技術(shù)理朋,它將數(shù)據(jù)直接從一臺(tái)計(jì)算機(jī)的內(nèi)存?zhèn)鬏數(shù)搅硪慌_(tái)計(jì)算機(jī)眯娱,無(wú)需雙方操作系統(tǒng)的介入。這允許高通量弟灼、低延遲的網(wǎng)絡(luò)通信级解,尤其適合在大規(guī)模并行計(jì)算機(jī)集群中使用。

RDMA實(shí)現(xiàn)

常見(jiàn)網(wǎng)絡(luò)環(huán)境

介紹RDMA網(wǎng)絡(luò)實(shí)現(xiàn)之前田绑,先介紹一下常見(jiàn)的幾種網(wǎng)絡(luò)環(huán)境:以太網(wǎng)(ethernet)勤哗、IB網(wǎng)(Infiniband)、光纖通道(Fibre Channel)掩驱。

  • Infiniband

InfiniBand(直譯為“無(wú)限帶寬”技術(shù)芒划,縮寫(xiě)為IB)是一個(gè)用于高性能計(jì)算的計(jì)算機(jī)網(wǎng)絡(luò)通信標(biāo)準(zhǔn),它具有極高的吞吐量和極低的延遲欧穴,用于計(jì)算機(jī)與計(jì)算機(jī)之間的數(shù)據(jù)互連民逼。InfiniBand也用作服務(wù)器與存儲(chǔ)系統(tǒng)之間的直接或交換互連,以及存儲(chǔ)系統(tǒng)之間的互連涮帘。[1]

  • Ethernet

以太網(wǎng)(英語(yǔ):Ethernet)是一種計(jì)算機(jī)局域網(wǎng)技術(shù)拼苍。IEEE組織的IEEE 802.3標(biāo)準(zhǔn)制定了以太網(wǎng)的技術(shù)標(biāo)準(zhǔn),它規(guī)定了包括物理層的連線调缨、電子信號(hào)和介質(zhì)訪問(wèn)層協(xié)議的內(nèi)容疮鲫。以太網(wǎng)是當(dāng)前應(yīng)用最普遍的局域網(wǎng)技術(shù),取代了其他局域網(wǎng)標(biāo)準(zhǔn)如令牌環(huán)弦叶、FDDI和ARCNET俊犯。

  • Fibre Channel

網(wǎng)狀通道(Fibre Channel,簡(jiǎn)稱(chēng)FC)是一種高速網(wǎng)絡(luò)互聯(lián)技術(shù)(通常的運(yùn)行速率有2Gbps湾蔓、4Gbps瘫析、8Gbps和16Gbps),主要用于連接計(jì)算機(jī)存儲(chǔ)設(shè)備默责。

以太網(wǎng)設(shè)計(jì)的初衷是為了實(shí)現(xiàn)不同系統(tǒng)的互聯(lián)贬循,是一種network,優(yōu)先考慮交融性與分布式桃序;IB主要解決的問(wèn)題是在一個(gè)系統(tǒng)內(nèi)部把多個(gè)設(shè)備整合起來(lái)杖虾,像一臺(tái)設(shè)備一樣工作,優(yōu)先考慮的是高速與低延遲媒熊。

RDMA的三種實(shí)現(xiàn)

目前奇适,大致有三類(lèi)RDMA網(wǎng)絡(luò)坟比,分別是Infiniband、RoCE嚷往、iWARP葛账。其中,Infiniband是一種專(zhuān)為RDMA設(shè)計(jì)的網(wǎng)絡(luò)皮仁,從硬件級(jí)別保證可靠傳輸 籍琳, 而RoCE 和 iWARP都是基于以太網(wǎng)的RDMA技術(shù),支持相應(yīng)的verbs接口贷祈。


RDMA

從圖中不難發(fā)現(xiàn)趋急,RoCE協(xié)議存在RoCEv1和RoCEv2兩個(gè)版本,主要區(qū)別RoCEv1是基于以太網(wǎng)鏈路層實(shí)現(xiàn)的RDMA協(xié)議(交換機(jī)需要支持PFC等流控技術(shù)势誊,在物理層保證可靠傳輸)呜达,而RoCEv2是以太網(wǎng)TCP/IP協(xié)議中UDP層實(shí)現(xiàn)。從性能上粟耻,很明顯Infiniband網(wǎng)絡(luò)最好查近,但網(wǎng)卡和交換機(jī)是價(jià)格也很高,然而RoCEv2和iWARP僅需使用特殊的網(wǎng)卡就可以了勋颖,價(jià)格也相對(duì)便宜很多嗦嗡。

RDMA這種技術(shù)以前只能運(yùn)行在IB網(wǎng)絡(luò)下,為了將這種技術(shù)用在以太網(wǎng)環(huán)境下饭玲,就逐步發(fā)展出了RoCE/iWarp兩種協(xié)議侥祭。

  • RoCE目前主要是由Mellonax主導(dǎo),和TCP協(xié)議無(wú)關(guān)茄厘,性能更好矮冬。
  • iWarp主要由Chelsio主導(dǎo),下層會(huì)依賴(lài)TCP協(xié)議次哈,性能和可擴(kuò)性行都差一些胎署,優(yōu)點(diǎn)是考慮了對(duì)廣域網(wǎng)的支持。

目前來(lái)看RoCE比iWarp前景更好窑滞,實(shí)際使用也更廣泛琼牧。

RDMA vs DPDK

DPDK是Intel主導(dǎo),提供了基于用戶(hù)態(tài)的數(shù)據(jù)鏈路層的功能哀卫,可以在上面構(gòu)建出基于用戶(hù)態(tài)的網(wǎng)絡(luò)棧巨坊。

  • 核心共同點(diǎn):二者均為kernel bypass技術(shù),消除內(nèi)核態(tài)到用戶(hù)態(tài)的內(nèi)存拷貝此改。
  • 核心差異點(diǎn):DPDK將協(xié)議棧上移到用戶(hù)態(tài)趾撵,RDMA將協(xié)議棧下沉到網(wǎng)卡硬件。

更多細(xì)致的差異對(duì)比共啃,可以參考此文

發(fā)展出DPDK/RDMA以及多種實(shí)現(xiàn)占调,根本原因在于網(wǎng)絡(luò)硬件發(fā)展很快暂题,而占據(jù)主導(dǎo)的TCP協(xié)議當(dāng)初是為了低速網(wǎng)絡(luò)環(huán)境設(shè)計(jì)的。

Kubernetes with RDMA Network

三種主要容器網(wǎng)絡(luò)模式

  1. Virtual bridge
  2. Multiplexing
  3. Hardware switching


    img

RDMA設(shè)備與k8s集成

要在Kubernetes中使用rdma設(shè)備究珊,首先是通過(guò)device plugin插件機(jī)制薪者,讓k8s能夠識(shí)別和使用rdma設(shè)備。其次苦银,rdma網(wǎng)卡基本上都支持SR-IOV技術(shù)啸胧,利用基于該技術(shù)的Kubernetes CNI插件赶站,可以構(gòu)建出完整的容器網(wǎng)絡(luò)幔虏。

當(dāng)前支持RDMA的網(wǎng)卡主要是intel與mellanox兩個(gè)廠家,各自均提供有對(duì)應(yīng)k8s device plugin與SR-IOV網(wǎng)絡(luò)cni插件贝椿。

  • intel

https://github.com/intel/sriov-network-device-plugin

https://github.com/intel/sriov-cni

  • mellanox

https://github.com/Mellanox/k8s-rdma-sriov-dev-plugin

https://github.com/Mellanox/sriov-cni

pod多網(wǎng)絡(luò)

在HPC場(chǎng)景下想括,pod之間除了高性能網(wǎng)絡(luò)之外,也可以有額外的網(wǎng)絡(luò)烙博,由此引入pod多網(wǎng)卡訴求瑟蜈,intel提供了一種解決方案multus(https://github.com/intel/multus-cni),該插件主要通過(guò)代理其它c(diǎn)ni插件以實(shí)現(xiàn)渣窜,遵循k8s多網(wǎng)卡規(guī)范(https://github.com/K8sNetworkPlumbingWG/multi-net-spec)铺根。

利用multus插件,結(jié)合常規(guī)cni插件與SR-IOV cni插件乔宿,即可實(shí)現(xiàn)下圖所示的pod網(wǎng)絡(luò)


在這里插入圖片描述

參考資料

A Hacker’s Guide to Kubernetes Networking

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末位迂,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子详瑞,更是在濱河造成了極大的恐慌掂林,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,198評(píng)論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件坝橡,死亡現(xiàn)場(chǎng)離奇詭異泻帮,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)计寇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門(mén)锣杂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人番宁,你說(shuō)我怎么就攤上這事元莫。” “怎么了贝淤?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,643評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵柒竞,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我播聪,道長(zhǎng)朽基,這世上最難降的妖魔是什么布隔? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,495評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮稼虎,結(jié)果婚禮上衅檀,老公的妹妹穿的比我還像新娘。我一直安慰自己霎俩,他們只是感情好哀军,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,502評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著打却,像睡著了一般杉适。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上柳击,一...
    開(kāi)封第一講書(shū)人閱讀 52,156評(píng)論 1 308
  • 那天猿推,我揣著相機(jī)與錄音,去河邊找鬼捌肴。 笑死蹬叭,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的状知。 我是一名探鬼主播秽五,決...
    沈念sama閱讀 40,743評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼饥悴!你這毒婦竟也來(lái)了坦喘?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,659評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤铺坞,失蹤者是張志新(化名)和其女友劉穎起宽,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體济榨,經(jīng)...
    沈念sama閱讀 46,200評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡坯沪,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,282評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了擒滑。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片腐晾。...
    茶點(diǎn)故事閱讀 40,424評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖丐一,靈堂內(nèi)的尸體忽然破棺而出藻糖,到底是詐尸還是另有隱情,我是刑警寧澤库车,帶...
    沈念sama閱讀 36,107評(píng)論 5 349
  • 正文 年R本政府宣布巨柒,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏洋满。R本人自食惡果不足惜晶乔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,789評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望牺勾。 院中可真熱鬧正罢,春花似錦、人聲如沸驻民。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,264評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)回还。三九已至裆泳,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間懦趋,已是汗流浹背晾虑。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,390評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留仅叫,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,798評(píng)論 3 376
  • 正文 我出身青樓糙捺,卻偏偏與公主長(zhǎng)得像诫咱,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子洪灯,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,435評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容