2020-03-03 VMwarevSAN雙活(延伸集群)站點(diǎn)間帶寬設(shè)計(jì)(轉(zhuǎn)載)

原文地址:
https://www.tinymind.net.cn/articles/98e64d56d38a52

筆者之前也分享過vSAN延伸集群的一些資料。在雙活的設(shè)計(jì)中鼻忠,站點(diǎn)之間帶寬預(yù)估肌似、腦列處理等問題开缎,都是需要重點(diǎn)考慮的裸卫。本次向大家分享一下vSAN帶寬帶寬的設(shè)計(jì)原則哗蜈。建議讀者參照此前我分享過的《VMware的災(zāi)備與雙活----我在vForum 2015分會(huì)場(chǎng)的分享(2)》一起進(jìn)行閱讀协怒,這篇文章中已經(jīng)包含的內(nèi)容涝焙,本文將不再進(jìn)行贅述。

一. 總體架構(gòu)

vSAN延伸集群整體架構(gòu)如下:一個(gè)有三個(gè)故障域孕暇,兩個(gè)數(shù)據(jù)站點(diǎn)分別是一個(gè)故障域仑撞,仲裁站點(diǎn)是一個(gè)故障域。需要注意的是妖滔,vSAN延伸的三個(gè)故障域都屬于是一個(gè)vSAN集群隧哮,而不是三個(gè)。

image.png

二.常規(guī)建議

兩個(gè)數(shù)據(jù)站點(diǎn)之間的帶寬很大程度上取決于vSAN承擔(dān)的負(fù)載座舍、總體數(shù)據(jù)量近迁、可能的故障場(chǎng)景。

通常的建議參考如下:


image.png

(1)vSAN的數(shù)據(jù)站點(diǎn)之間簸州,或者數(shù)據(jù)站點(diǎn)和仲裁站點(diǎn)之間的網(wǎng)絡(luò)鉴竭,二層和三層網(wǎng)絡(luò)都可以支持,這降低了對(duì)大二層的要求岸浑。但是搏存,我們推薦在數(shù)據(jù)站點(diǎn)之間使用二層網(wǎng)絡(luò)。

(2)數(shù)據(jù)站點(diǎn)站點(diǎn)之間小于5ms之間的延遲(RTT)矢洲。數(shù)據(jù)站點(diǎn)與仲裁站點(diǎn)之間200的延遲不能超過200ms璧眠。

(3)數(shù)據(jù)站點(diǎn)和仲裁站點(diǎn)之間的帶寬最不小于50-100Mbps.

(4)網(wǎng)絡(luò)劃分

管理網(wǎng)絡(luò):連接三個(gè)站點(diǎn)。二層或者三層網(wǎng)絡(luò)

vSAN網(wǎng)絡(luò):連接三個(gè)站點(diǎn)读虏。數(shù)據(jù)中心之間建議二層網(wǎng)絡(luò)责静,與仲裁站點(diǎn)之間使用三層網(wǎng)絡(luò)。

VM network:連接數(shù)據(jù)中心盖桥。建議二層網(wǎng)絡(luò)灾螃,這樣當(dāng)虛擬機(jī)從一個(gè)數(shù)據(jù)站點(diǎn)vMotion或HA到另外一個(gè)數(shù)據(jù)站點(diǎn)時(shí),IP地址不變揩徊。

vMotion網(wǎng)絡(luò):連接數(shù)據(jù)中心腰鬼。二層嵌赠,三層網(wǎng)絡(luò)都可以。

三.?dāng)?shù)據(jù)站點(diǎn)之間的帶寬需求

1.計(jì)算公式

在真實(shí)的業(yè)務(wù)場(chǎng)景中熄赡,全讀或者全寫的情況很少姜挺。更多的時(shí)候,用讀寫比率來衡量業(yè)務(wù)I/O特性是比較格式彼硫。以VDI場(chǎng)景的負(fù)載舉例子炊豪。在負(fù)載峰值的情況下,讀寫比率通常是3:7拧篮。

例如:業(yè)務(wù)需要求IOPS的總量是10萬词渤,讀寫比率為3:7。由于vsan延伸集群本地讀的特性他托,讀操作不需要跨站點(diǎn)掖肋,因此考慮數(shù)據(jù)站點(diǎn)之間帶寬只考慮跨站點(diǎn)寫即可。

數(shù)據(jù)站點(diǎn)帶寬計(jì)算公式是:

B=Wbmdmr

B:Bandwidth赏参。數(shù)據(jù)站點(diǎn)之間的帶寬志笼。

WB:Write Bandwidth數(shù)據(jù)站點(diǎn)之間的寫帶寬。

MD: Data Multiplier:數(shù)據(jù)乘數(shù)

MR:Resynchronization multiplier 再同步乘數(shù)

其中把篓,數(shù)據(jù)乘數(shù)由vSAN元數(shù)據(jù)跨站點(diǎn)寫開銷等相關(guān)的操作組成的(除了數(shù)據(jù)意外纫溃,元數(shù)據(jù)也需要跨站點(diǎn)寫)。VMware建議將這個(gè)數(shù)值設(shè)置為1.4韧掩。

再同步乘數(shù)指的是數(shù)據(jù)站點(diǎn)之間同步事件(例如vSAN組件的狀態(tài)信息)的所需要的總開銷紊浩。這是數(shù)值VMware建議設(shè)置為1.25。再同步乘數(shù)和數(shù)據(jù)乘數(shù)其實(shí)都是跨站點(diǎn)寫數(shù)據(jù)的額外開銷疗锐。這兩個(gè)數(shù)值使用vSAN推薦值即可坊谁。

2.案例分析

案例1.

vSAN運(yùn)行一個(gè)IOPS為1萬的全寫負(fù)載業(yè)務(wù)。寫的block為4KB滑臊。這需要消耗40MB/s的數(shù)據(jù)站點(diǎn)間的帶寬(4KB*10000)口芍,也就是320Mbps。

按照上一小節(jié)的計(jì)算公式:

B=320Mbps1.41.25=560Mbps

因此雇卷,在這個(gè)負(fù)載情況下鬓椭,vSAN數(shù)據(jù)站點(diǎn)之間需要的帶寬至少應(yīng)為560Mbps。

案例2.

vSAN運(yùn)行負(fù)載為3萬全寫IOPS关划,4KB block size小染,這需要120MB/s(960Mbps)跨站點(diǎn)寫數(shù)據(jù)吞吐量。

按照公式:

B=960Mbps1.41.25=1680Mbps約等于1.7Gbps.

因此贮折,在這個(gè)案例中裤翩,數(shù)據(jù)站點(diǎn)之間的帶寬至少應(yīng)為1.7Gbps.

四.?dāng)?shù)據(jù)站點(diǎn)與仲裁站點(diǎn)之間的帶寬需求

1.計(jì)算公式

數(shù)據(jù)站點(diǎn)并不存放虛擬機(jī)的數(shù)據(jù),只是用于投票使用脱货,因此數(shù)據(jù)站點(diǎn)與仲裁站點(diǎn)之間的帶寬計(jì)算公式與上面的不一樣岛都。

我在之前的文章提到過律姨,vSAN是基于策略驅(qū)動(dòng)的分布式存儲(chǔ)振峻。數(shù)據(jù)是以對(duì)象的方式存儲(chǔ)在vSAN中的臼疫,一個(gè)VM在vSAN存儲(chǔ)中的數(shù)據(jù)由一個(gè)或者多個(gè)組件組成,組件有如下類型:

VM Folder
VMware swap file
VMDK
快照
在vSAN中扣孟,當(dāng)一個(gè)對(duì)象的大小大于255GB的時(shí)候烫堤,就會(huì)被自動(dòng)劃分成多個(gè)組件。仲裁站點(diǎn)與數(shù)據(jù)站點(diǎn)之間的計(jì)算公式如下:

1138B*NumComp/5seconds

其中凤价,1138B這個(gè)數(shù)字是:當(dāng)主站點(diǎn)down鸽斟,備站點(diǎn)接管所有組件所需要的時(shí)間。我們想象一下利诺,當(dāng)主站點(diǎn)down富蓄,備站點(diǎn)將成為master。仲裁站點(diǎn)將會(huì)向新的master發(fā)送確認(rèn)信息慢逾,確認(rèn)master的角色已經(jīng)發(fā)生了變更立倍。從本質(zhì)上講,1138B是當(dāng)主站點(diǎn)down以后侣滩,仲裁站點(diǎn)需要從元數(shù)據(jù)信息中獲取主站點(diǎn)上所有組件已經(jīng)failed并且隨后由備站點(diǎn)take ownership的狀態(tài)信息更新開銷口注。當(dāng)主站點(diǎn)down以后,仲裁站點(diǎn)與數(shù)據(jù)站點(diǎn)之間的帶寬應(yīng)足以讓集群中所有部件的master ownership變更在5秒內(nèi)發(fā)變更完成君珠。

2.案例分析

案例1:

虛擬機(jī)由如下內(nèi)容組成:

三個(gè)對(duì)象:

VM namespace
VMKD(小于255GB)
VM Swap file
FTT=1
Stripe width=1
以上配置的虛擬機(jī)數(shù)量是166個(gè)寝志,那么仲裁站點(diǎn)就需要獲取到996個(gè)組件信息。996=321*166.

我們用1000進(jìn)行計(jì)算:B=1138B81000/5s=1820800bps=1.82Mbps

VMware推薦預(yù)留10%的額外帶寬用于信息雙向傳輸:1.82*1.1=2Mbps策添。因此材部,在這個(gè)場(chǎng)景下,數(shù)據(jù)站點(diǎn)與仲裁站點(diǎn)的帶寬應(yīng)為2Mbps唯竹。
案例2:
虛擬機(jī)由如下內(nèi)容組成:
三個(gè)對(duì)象:
VM namespace
VMDK(小于255GB)
VM Swapfile
此外:
FTT=1
Stripe width=2

如果具有以上配置的虛擬機(jī)數(shù)量為1500乐导,那么仲裁站點(diǎn)將會(huì)維持18000個(gè)組件的狀態(tài)信息。32211500=18000
按照案例1中的算法:
B=1138B818000/5s=32.78Mbps
B*1.2=36.05Mbps

因此摩窃,在這個(gè)場(chǎng)景下兽叮,數(shù)據(jù)站點(diǎn)與仲裁站點(diǎn)之間的帶寬需要36.06Bbps。

根據(jù)上面的算法猾愿,可以提煉一個(gè)簡(jiǎn)單的公式用于在日常的評(píng)估鹦聪,那就是2Mbps帶寬可以維系1000個(gè)組件的狀態(tài)信息。因此蒂秘,在這個(gè)場(chǎng)景下泽本,維系18000個(gè)組件,所需要的帶寬是:18000/1000*2Mbps=36Mbps姻僧。

七.2-Node vSAN配置仲裁站點(diǎn)的帶寬
在vSAN6.1中规丽,支持2節(jié)點(diǎn)的vSAN集群蒲牧。也就是我在< VMware的災(zāi)備與雙活----我在vForum 2015分會(huì)場(chǎng)的分享(2)>中提到的vSAN延伸集群最小1+1+1,最大15+15+1的配置赌莺。


image.png

案例1:
2-Node配置中的虛擬機(jī)特性如下:虛擬機(jī)數(shù)量:25冰抢;VMDK/VM:1TB;FTT=1艘狭;Stripe width=1
上面我們提到過挎扰,vSAN中,一個(gè)vmdk組件最大為255G巢音,因此每個(gè)VMDK由4個(gè)組件組成遵倦,此外由于FTT=1,在包含副本的情況下官撼,每個(gè)vmdk由8個(gè)組件組成梧躺。加上VM namespace和swap文件(有副本),那么一個(gè)虛擬機(jī)的組件總數(shù)為12=42+22傲绣。25個(gè)虛擬機(jī)組件總量為300=2512掠哥。
使用通用公式:300/1000
2Mbps=600Kbps。因此斜筐,在這種場(chǎng)景下龙致,數(shù)據(jù)站點(diǎn)與仲裁站點(diǎn)之間的帶寬應(yīng)為600Kbps。
案例2:
在2-Node配置中顷链,每個(gè)主機(jī)上有100個(gè)虛擬機(jī)目代,每個(gè)虛擬機(jī)有1TB的VMDK,F(xiàn)TT和stripe width均為1嗤练。 那么榛了,組件的總量為:(1000/255+1+1)2100(VMs)2(Hosts)=2400
按照通用公式,2400個(gè)組件煞抬,需要的帶寬為2400/1000
2Mbps=4.8Mbps霜大。因此在這個(gè)場(chǎng)景中,仲裁站點(diǎn)到數(shù)據(jù)站點(diǎn)之間的帶寬需要4.8Mbps革答。
需要注意的是战坤,如果一套vSAN延伸集群承擔(dān)多個(gè)類型的業(yè)務(wù)負(fù)載,那么需要把這些業(yè)務(wù)負(fù)載先單獨(dú)計(jì)算其需要的帶寬残拐,然后將其累加在一起途茫。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市溪食,隨后出現(xiàn)的幾起案子囊卜,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件栅组,死亡現(xiàn)場(chǎng)離奇詭異雀瓢,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)玉掸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門刃麸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人排截,你說我怎么就攤上這事嫌蚤》妫” “怎么了断傲?”我有些...
    開封第一講書人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)智政。 經(jīng)常有香客問我认罩,道長(zhǎng),這世上最難降的妖魔是什么续捂? 我笑而不...
    開封第一講書人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任垦垂,我火速辦了婚禮,結(jié)果婚禮上牙瓢,老公的妹妹穿的比我還像新娘劫拗。我一直安慰自己,他們只是感情好矾克,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開白布页慷。 她就那樣靜靜地躺著,像睡著了一般胁附。 火紅的嫁衣襯著肌膚如雪酒繁。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評(píng)論 1 285
  • 那天控妻,我揣著相機(jī)與錄音州袒,去河邊找鬼。 笑死弓候,一個(gè)胖子當(dāng)著我的面吹牛郎哭,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播菇存,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼夸研,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了撰筷?” 一聲冷哼從身側(cè)響起陈惰,我...
    開封第一講書人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后抬闯,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體井辆,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年溶握,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了杯缺。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡睡榆,死狀恐怖萍肆,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情胀屿,我是刑警寧澤塘揣,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布虑瀑,位于F島的核電站百炬,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏竹挡。R本人自食惡果不足惜葡兑,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一奖蔓、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧讹堤,春花似錦吆鹤、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至岖沛,卻和暖如春暑始,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背婴削。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工廊镜, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人唉俗。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓嗤朴,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親虫溜。 傳聞我的和親對(duì)象是個(gè)殘疾皇子雹姊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 內(nèi)容來源:2017年1月16日,東方瑞通高級(jí)產(chǎn)品經(jīng)理高金良在“VMware官方在線直播”進(jìn)行《VMware vSA...
    IT大咖說閱讀 2,698評(píng)論 0 0
  • 內(nèi)容來源:2018 年 8 月 7 日衡楞,VMware大中華區(qū)原廠高級(jí)技術(shù)講師史峻在“VMware直播分享 第二期”...
    麥兜的刀閱讀 3,457評(píng)論 0 4
  • feisky云計(jì)算吱雏、虛擬化與Linux技術(shù)筆記posts - 1014, comments - 298, trac...
    不排版閱讀 3,815評(píng)論 0 5
  • B4及之后:為谷歌軟件定義WAN的可用性和擴(kuò)展管理層次化、劃分和不對(duì)稱 本文為SIGCOMM 2018會(huì)議論文,由...
    二進(jìn)制研究員閱讀 1,607評(píng)論 0 0
  • 第四代語(yǔ)言:用戶只需定義做什么歧杏,無需定義怎么做镰惦,依賴于更高層次的組件。 四代語(yǔ)言包括: 1>表示語(yǔ)言:查詢語(yǔ)言或報(bào)...
    evefang閱讀 634評(píng)論 0 0