朱 榮澤| 2013.09.09
https://www.ustack.com/blog/ceph_infra/
云硬盤(pán)是IaaS云平臺(tái)的重要組成部分蛉拙,云硬盤(pán)給虛擬機(jī)提供了持久的塊存儲(chǔ)設(shè)備肮雨。目前的AWS 的EBS(Elastic Block store)給Amazon的EC2實(shí)例提供了高可用高可靠的塊級(jí)存儲(chǔ)卷镇匀,EBS適合于一些需要訪問(wèn)塊設(shè)備的應(yīng)用,比如數(shù)據(jù)庫(kù)杂瘸、文件系統(tǒng)等玄渗。 在OpenStack中笨鸡,可以使用Ceph、Sheepdog缤弦、GlusterFS作為云硬盤(pán)的開(kāi)源解決方案领迈,下面我們來(lái)了解Ceph的架構(gòu)。
Ceph是統(tǒng)一存儲(chǔ)系統(tǒng),支持三種接口狸捅。
Object:有原生的API衷蜓,而且也兼容Swift和S3的API
Block:支持精簡(jiǎn)配置、快照薪贫、克隆
File:Posix接口恍箭,支持快照
Ceph也是分布式存儲(chǔ)系統(tǒng),它的特點(diǎn)是:
高擴(kuò)展性:使用普通x86服務(wù)器瞧省,支持10~1000臺(tái)服務(wù)器扯夭,支持TB到PB級(jí)的擴(kuò)展。
高可靠性:沒(méi)有單點(diǎn)故障鞍匾,多數(shù)據(jù)副本交洗,自動(dòng)管理,自動(dòng)修復(fù)橡淑。
高性能:數(shù)據(jù)分布均衡构拳,并行化度高。對(duì)于objects storage和block storage,不需要元數(shù)據(jù)服務(wù)器梁棠。
目前Inktank公司掌控Ceph的開(kāi)發(fā)置森,但Ceph是開(kāi)源的,遵循LGPL協(xié)議符糊。Inktank還積極整合Ceph和其他云計(jì)算和大數(shù)據(jù)平臺(tái)凫海,目前Ceph支持OpenStack、CloudStack男娄、OpenNebula行贪、Hadoop等。
當(dāng)前Ceph的最新穩(wěn)定版本0.67(Dumpling),它的objects storage和block storage已經(jīng)足夠穩(wěn)定模闲,而且Ceph社區(qū)還在繼續(xù)開(kāi)發(fā)新功能建瘫,包括跨機(jī)房部署和容災(zāi)、支持Erasure encoding等尸折。Ceph具有完善的社區(qū)設(shè)施和發(fā)布流程[1](每三個(gè)月發(fā)布一個(gè)穩(wěn)定版本) 啰脚。
目前Ceph有很多用戶案列,這是2013.03月Inktank公司在郵件列表中做的調(diào)查实夹,共收到了81份有效反饋[2]拣播。從調(diào)查中可以看到有26%的用戶在生產(chǎn)環(huán)境中使用Ceph,有37%的用戶在私有云中使用Ceph收擦,還有有16%的用戶在公有云中使用Ceph贮配。
目前Ceph最大的用戶案例是Dreamhost的Object Service,目前總?cè)萘渴?PB塞赂,可靠性達(dá)到99.99999%泪勒,數(shù)據(jù)存放采用三副本,它的價(jià)格比S3還便宜。下圖中圆存,左邊是Inktank的合作伙伴叼旋,右邊是Inktank的用戶。
Ceph的底層是RADOS沦辙,它的意思是“A reliable, autonomous, distributed object storage”夫植。 RADOS由兩個(gè)組件組成:
OSD: Object Storage Device,提供存儲(chǔ)資源油讯。
Monitor:維護(hù)整個(gè)Ceph集群的全局狀態(tài)详民。
RADOS具有很強(qiáng)的擴(kuò)展性和可編程性,Ceph基于RADOS開(kāi)發(fā)了
Object Storage陌兑、Block Storage沈跨、FileSystem。Ceph另外兩個(gè)組件是:
MDS:用于保存CephFS的元數(shù)據(jù)兔综。
RADOS Gateway:對(duì)外提供REST接口饿凛,兼容S3和Swift的API。
Ceph的命名空間是 (Pool, Object)软驰,每個(gè)Object都會(huì)映射到一組OSD中(由這組OSD保存這個(gè)Object):
(Pool, Object) → (Pool, PG) → OSD set → Disk
Ceph中Pools的屬性有:
Object的副本數(shù)
Placement Groups的數(shù)量
所使用的CRUSH Ruleset
在Ceph中涧窒,Object先映射到PG(Placement Group),再由PG映射到OSD set锭亏。每個(gè)Pool有多個(gè)PG杀狡,每個(gè)Object通過(guò)計(jì)算hash值并取模得到它所對(duì)應(yīng)的PG。PG再映射到一組OSD(OSD的個(gè)數(shù)由Pool 的副本數(shù)決定)贰镣,第一個(gè)OSD是Primary,剩下的都是Replicas膳凝。
數(shù)據(jù)映射(Data Placement)的方式?jīng)Q定了存儲(chǔ)系統(tǒng)的性能和擴(kuò)展性碑隆。(Pool, PG) → OSD set 的映射由四個(gè)因素決定:
CRUSH算法:一種偽隨機(jī)算法。
OSD MAP:包含當(dāng)前所有Pool的狀態(tài)和所有OSD的狀態(tài)蹬音。
CRUSH MAP:包含當(dāng)前磁盤(pán)上煤、服務(wù)器、機(jī)架的層級(jí)結(jié)構(gòu)著淆。
CRUSH Rules:數(shù)據(jù)映射的策略劫狠。這些策略可以靈活的設(shè)置object存放的區(qū)域。比如可以指定 pool1中所有objecst放置在機(jī)架1上永部,所有objects的第1個(gè)副本放置在機(jī)架1上的服務(wù)器A上独泞,第2個(gè)副本分布在機(jī)架1上的服務(wù)器B上。 pool2中所有的object分布在機(jī)架2苔埋、3懦砂、4上,所有Object的第1個(gè)副本分布在機(jī)架2的服務(wù)器上,第2個(gè)副本分布在機(jī)架3的服 器上荞膘,第3個(gè)副本分布在機(jī)架4的服務(wù)器上罚随。
Client從Monitors中得到CRUSH MAP、OSD MAP羽资、CRUSH Ruleset淘菩,然后使用CRUSH算法計(jì)算出Object所在的OSD set。所以Ceph不需要Name服務(wù)器屠升,Client直接和OSD進(jìn)行通信潮改。偽代碼如下所示:
locator = object_name
obj_hash = hash(locator)
pg = obj_hash % num_pg
osds_for_pg = crush(pg)? # returns a list of osds
primary = osds_for_pg[0]
replicas = osds_for_pg[1:]
這種數(shù)據(jù)映射的優(yōu)點(diǎn)是:
把Object分成組,這降低了需要追蹤和處理metadata的數(shù)量(在全局的層面上弥激,我們不需要追蹤和處理每個(gè)object的metadata和placement进陡,只需要管理PG的metadata就可以了。PG的數(shù)量級(jí)遠(yuǎn)遠(yuǎn)低于object的數(shù)量級(jí))微服。
增加PG的數(shù)量可以均衡每個(gè)OSD的負(fù)載趾疚,提高并行度。
分隔故障域以蕴,提高數(shù)據(jù)的可靠性糙麦。
Ceph的讀寫(xiě)操作采用Primary-Replica模型,Client只向Object所對(duì)應(yīng)OSD set的Primary發(fā)起讀寫(xiě)請(qǐng)求丛肮,這保證了數(shù)據(jù)的強(qiáng)一致性赡磅。
由于每個(gè)Object都只有一個(gè)Primary OSD,因此對(duì)Object的更新都是順序的宝与,不存在同步問(wèn)題焚廊。
當(dāng)Primary收到Object的寫(xiě)請(qǐng)求時(shí),它負(fù)責(zé)把數(shù)據(jù)發(fā)送給其他Replicas习劫,只要這個(gè)數(shù)據(jù)被保存在所有的OSD上時(shí)咆瘟,Primary才應(yīng)答Object的寫(xiě)請(qǐng)求,這保證了副本的一致性诽里。
在分布式系統(tǒng)中袒餐,常見(jiàn)的故障有網(wǎng)絡(luò)中斷、掉電谤狡、服務(wù)器宕機(jī)灸眼、硬盤(pán)故障等,Ceph能夠容忍這些故障墓懂,并進(jìn)行自動(dòng)修復(fù)焰宣,保證數(shù)據(jù)的可靠性和系統(tǒng)可用性。
Monitors是Ceph管家捕仔,維護(hù)著Ceph的全局狀態(tài)宛徊。Monitors的功能和zookeeper類(lèi)似佛嬉,它們使用Quorum和Paxos算法去建立全局狀態(tài)的共識(shí)。
OSDs可以進(jìn)行自動(dòng)修復(fù)闸天,而且是并行修復(fù)暖呕。
故障檢測(cè):
OSD之間有心跳檢測(cè),當(dāng)OSD A檢測(cè)到OSD B沒(méi)有回應(yīng)時(shí)苞氮,會(huì)報(bào)告給Monitors說(shuō)OSD B無(wú)法連接湾揽,則Monitors給OSD B標(biāo)記為down狀態(tài),并更新OSD Map笼吟。當(dāng)過(guò)了M秒之后還是無(wú)法連接到OSD B库物,則Monitors給OSD B標(biāo)記為out狀態(tài)(表明OSD B不能工作),并更新OSD Map贷帮。
備注:可以在Ceph中配置M的值戚揭。
故障恢復(fù):
當(dāng)某個(gè)PG對(duì)應(yīng)的OSD set中有一個(gè)OSD被標(biāo)記為down時(shí)(假如是Primary被標(biāo)記為down,則某個(gè)Replica會(huì)成為新的Primary撵枢,并處理所有讀寫(xiě) object請(qǐng)求)民晒,則該P(yáng)G處于active+degraded狀態(tài),也就是當(dāng)前PG有效的副本數(shù)是N-1锄禽。
過(guò)了M秒之后潜必,假如還是無(wú)法連接該OSD,則它被標(biāo)記為out沃但,Ceph會(huì)重新計(jì)算PG到OSD set的映射(當(dāng)有新的OSD加入到集群時(shí)磁滚,也會(huì)重新計(jì)算所有PG到OSD set的映射),以此保證PG的有效副本數(shù)是N宵晚。
新OSD set的Primary先從舊的OSD set中收集PG log垂攘,得到一份Authoritative History(完整的、全序的操作序列)淤刃,并讓其他Replicas同意這份Authoritative History(也就是其他Replicas對(duì)PG的所有objects的狀態(tài)達(dá)成一致)晒他,這個(gè)過(guò)程叫做Peering。
當(dāng)Peering過(guò)程完成之后钝凶,PG進(jìn) 入active+recoverying狀態(tài),Primary會(huì)遷移和同步那些降級(jí)的objects到所有的replicas上唁影,保證這些objects 的副本數(shù)為N耕陷。
Client和Server直接通信,不需要代理和轉(zhuǎn)發(fā)
多個(gè)OSD帶來(lái)的高并發(fā)度据沈。objects是分布在所有OSD上哟沫。
負(fù)載均衡。每個(gè)OSD都有權(quán)重值(現(xiàn)在以容量為權(quán)重)锌介。
client不需要負(fù)責(zé)副本的復(fù)制(由primary負(fù)責(zé)),這降低了client的網(wǎng)絡(luò)消耗嗜诀。
數(shù)據(jù)多副本猾警。可配置的per-pool副本策略和故障域布局隆敢,支持強(qiáng)一致性发皿。
沒(méi)有單點(diǎn)故障》餍可以忍受許多種故障場(chǎng)景穴墅;防止腦裂;單個(gè)組件可以滾動(dòng)升級(jí)并在線替換温自。
所有故障的檢測(cè)和自動(dòng)恢復(fù)玄货。恢復(fù)不需要人工介入悼泌,在恢復(fù)期間松捉,可以保持正常的數(shù)據(jù)訪問(wèn)。
并行恢復(fù)馆里。并行的恢復(fù)機(jī)制極大的降低了數(shù)據(jù)恢復(fù)時(shí)間隘世,提高數(shù)據(jù)的可靠性。
高度并行也拜。沒(méi)有單個(gè)中心控制組件以舒。所有負(fù)載都能動(dòng)態(tài)的劃分到各個(gè)服務(wù)器上。把更多的功能放到OSD上慢哈,讓OSD更智能蔓钟。
自管理。容易擴(kuò)展卵贱、升級(jí)滥沫、替換。當(dāng)組件發(fā)生故障時(shí)键俱,自動(dòng)進(jìn)行數(shù)據(jù)的重新復(fù)制兰绣。當(dāng)組件發(fā)生變化時(shí)(添加/刪除),自動(dòng)進(jìn)行數(shù)據(jù)的重分布编振。
使用fio測(cè)試RBD的IOPS缀辩,使用dd測(cè)試RBD的吞吐率,下面是測(cè)試的參數(shù):
fio的參數(shù):bs=4K, ioengine=libaio, iodepth=32, numjobs=16, direct=1
dd的參數(shù):bs=512M,oflag=direct
我們的測(cè)試服務(wù)器是AWS上最強(qiáng)的實(shí)例:
117GB內(nèi)存
雙路 E5-2650,共16核
24 * 2TB 硬盤(pán)
服務(wù)器上的操作系統(tǒng)是Ubuntu 13.04踪央,安裝Ceph Cuttlefish 0.61版臀玄,副本數(shù)設(shè)置為2,RBD中的塊大小設(shè)置為1M畅蹂。為了對(duì)比健无,同時(shí)還對(duì)軟件RAID10進(jìn)行了測(cè)試。下面表格中的性能比是Ceph與RAID10性能之間的比較液斜。
因?yàn)槭褂玫氖茿WS上的虛擬機(jī)累贤,所以它(Xen)掛載的磁盤(pán)都是設(shè)置了Cache的叠穆。因此下面測(cè)試的數(shù)據(jù)并不能真實(shí)反應(yīng)物理磁盤(pán)的真實(shí)性能,僅供與RAID10進(jìn)行對(duì)比臼膏。
磁盤(pán)數(shù)隨機(jī)寫(xiě)隨機(jī)讀
CephRAID10性能比CephRAID10性能比
241075377228%60454679129%
12665163340%2939434067%
641383249%909144562%
432855958%66681581%
212027343%31950363%
磁盤(pán)數(shù)順序?qū)?MB/s)順序讀(MB/s)
CephRAID10性能比CephRAID10性能比
2429987933%617184333%
1221270330%445112639%
68130826%23370932%
46728423%17046936%
23415322%9024037%
從測(cè)試結(jié)果中硼被,我們看到在單機(jī)情況下,RBD的性能不如RAID10讶请,這是為什么祷嘶?我們可以通過(guò)三種方法找到原因:
閱讀Ceph源碼,查看I/O路徑
使用blktrace查看I/O操作的執(zhí)行
使用iostat觀察硬盤(pán)的讀寫(xiě)情況
RBD的I/O路徑很長(zhǎng)夺溢,要經(jīng)過(guò)網(wǎng)絡(luò)论巍、文件系統(tǒng)、磁盤(pán):
Librbd -> networking -> OSD -> FileSystem -> Disk
Client的每個(gè)寫(xiě)操作在OSD中要經(jīng)過(guò)8種線程风响,寫(xiě)操作下發(fā)到OSD之后嘉汰,會(huì)產(chǎn)生2~3個(gè)磁盤(pán)seek操作:
把寫(xiě)操作記錄到OSD的Journal文件上(Journal是為了保證寫(xiě)操作的原子性)。
把寫(xiě)操作更新到Object對(duì)應(yīng)的文件上状勤。
把寫(xiě)操作記錄到PG Log文件上鞋怀。
我使用fio向RBD不斷寫(xiě)入數(shù)據(jù),然后使用iostat觀察磁盤(pán)的讀寫(xiě)情況持搜。在1分鐘之內(nèi)密似,fio向RBD寫(xiě)入了3667 MB的數(shù)據(jù),24塊硬盤(pán)則被寫(xiě)入了16084 MB的數(shù)據(jù)葫盼,被讀取了288 MB的數(shù)據(jù)残腌。
向RBD寫(xiě)入1MB數(shù)據(jù) = 向硬盤(pán)寫(xiě)入4.39MB數(shù)據(jù) + 讀取0.08MB數(shù)據(jù)
在單機(jī)情況下,RBD的性能不如傳統(tǒng)的RAID10贫导,這是因?yàn)镽BD的I/O路徑很復(fù)雜抛猫,導(dǎo)致效率很低。但是Ceph的優(yōu)勢(shì)在于它的擴(kuò)展性孩灯,它的性能會(huì)隨著磁盤(pán)數(shù)量線性增長(zhǎng)闺金,因此在多機(jī)的情況下,RBD的IOPS和吞吐率會(huì)高于單機(jī)的RAID10(不過(guò)性能會(huì)受限于網(wǎng)絡(luò)的帶寬)峰档。
如前所述败匹,Ceph優(yōu)勢(shì)顯著,使用它能夠降低硬件成本和運(yùn)維成本讥巡,但它的復(fù)雜性會(huì)帶來(lái)一定的學(xué)習(xí)成本掀亩。
Ceph的特點(diǎn)使得它非常適合于云計(jì)算,那么OpenStack使用Ceph的效果如何尚卫?下期《Ceph與OpenStack》將會(huì)介紹Ceph的自動(dòng)化部署归榕、Ceph與OpenStack的對(duì)接尸红。
[1]http://www.ustack.com/blog/ceph-distributed-block-storage/#2_Ceph
[2]http://ceph.com/community/results-from-the-ceph-census/
訂閱本站打印文章上一篇《OpenStack社區(qū)周報(bào)(8.26 – 9.3)》下一篇《OpenStack社區(qū)周報(bào)(8.4 – 9.11)》
互動(dòng)評(píng)論: 《Ceph架構(gòu)剖析》上有0條評(píng)論
學(xué)習(xí)了吱涉,正在用于生產(chǎn)環(huán)境刹泄,使用的是RBD,性能不是很理想怎爵。
Rongze Zhu2013年9月9日6:31 下午
規(guī)模有多大呀特石?
6 osd ,每osd 2T sata *3 raid 0 鳖链, 60G ssd 10G Journal
Rongze Zhu2013年9月9日9:16 下午
這種部署方式好奇怪呀..
Rongze Zhu2013年9月10日2:18 下午
為何不直接18個(gè)OSD呢姆蘸?估計(jì)性能會(huì)更好一些。
假如18個(gè)OSD芙委,則單塊SSD作為journal就是瓶頸了逞敷,推薦把journal放在OSD上。然后你再測(cè)試看看灌侣。
好推捐,我試試,謝謝侧啼。
之前是4臺(tái)服務(wù)器12個(gè)osd牛柒,ceph 0.56 但是出現(xiàn)了很?chē)?yán)重的bug,ceph-osd進(jìn)程經(jīng)常內(nèi)存溢出痊乾,后面就升級(jí)到了0.61皮壁。
sixiangma2013年9月10日10:04 下午
請(qǐng)問(wèn)fio每次讀寫(xiě)的塊大小是多少? 上面得到的IOPS和THROUGHPUT是整個(gè)集群的最大值嗎哪审?
Rongze Zhu2013年9月14日12:32 上午
FIO的參數(shù)已在文中提及:bs=4K, ioengine=libaio, iodepth=32, numjobs=16, direct=1 蛾魄。
上面的IOPS和throughput不是整個(gè)集群的峰值,只是為了和RAID10做比較协饲。
而且上面的IOPS沒(méi)有反應(yīng)出真正物理磁盤(pán)的性能畏腕,因?yàn)槲覀兪褂玫氖茿WS的虛擬機(jī)測(cè)試的。
Lawrency.Meng2013年9月11日5:59 下午
使用glusterfs和cephfs掛載到/var/lib/nova/instances目錄茉稠,用來(lái)保存虛擬機(jī)鏡像描馅,哪個(gè)更有優(yōu)勢(shì)呢?還有虛擬機(jī)鏡像文件的訪問(wèn)而线,讀寫(xiě)對(duì)文件系統(tǒng)又有什么特別的要求呢铭污?
higkoohk2013年10月9日3:46 下午
正在考慮開(kāi)源虛擬機(jī)后臺(tái)存儲(chǔ)的方案。
嘗試了GlusterFS和Ceph膀篮,決定放棄GlusterFS嘹狞,原因如下:http://www.gluster.org/pipermail/gluster-users/2013-October/037597.html
Ceph感覺(jué)還挺強(qiáng)勁的,不知道國(guó)內(nèi)為什么都說(shuō)它不穩(wěn)定誓竿。目前只發(fā)現(xiàn)了這個(gè)問(wèn)題:
手動(dòng)執(zhí)行`umount -l`時(shí)磅网,會(huì)導(dǎo)致數(shù)據(jù)丟失:http://comments.gmane.org/gmane.comp.file-systems.ceph.user/4640
zqfan2013年10月12日12:01 上午
不明覺(jué)厲,我對(duì)存儲(chǔ)不大了解筷屡,不過(guò)根據(jù)CAP理論涧偷,為了獲取強(qiáng)一致性簸喂,可用性必然會(huì)降低(總不至于犧牲容錯(cuò)吧),所以它的性能恐怕有點(diǎn)折扣燎潮。另外分布式系統(tǒng)和單機(jī)系統(tǒng)比吞吐率是不是有點(diǎn)欺負(fù)人了喻鳄,拼時(shí)延才是真見(jiàn)血吧。亂說(shuō)一頓确封,貽笑大方除呵,萬(wàn)勿見(jiàn)怪
kill512162013年11月15日4:55 下午
您好 ,請(qǐng)問(wèn)您是直接在osd上爪喘,掛載rbd 進(jìn)行的測(cè)試颜曾,還是又開(kāi)了臺(tái)虛擬機(jī),專(zhuān)門(mén)作為測(cè)試機(jī)掛載的rbd進(jìn)行的測(cè)試 秉剑?
評(píng)論:*
姓名:*
電子郵箱:*您的電子郵件地址不會(huì)被公開(kāi)
收藏于 2016-07-29