當(dāng)"互聯(lián)網(wǎng)+"深入滲透至各行各業(yè)時(shí)任柜,大數(shù)據(jù)和云計(jì)算業(yè)務(wù)也在全球范圍內(nèi)的飛速發(fā)展。企業(yè)想要順應(yīng)時(shí)勢得到更大規(guī)模的發(fā)展宙地,可能要面對業(yè)務(wù)發(fā)展云化升熊。這就不得不面對一個(gè)問題——存儲架構(gòu)怎么選级野?要跟上時(shí)代的發(fā)展,應(yīng)該是更精確地考慮——分布式存儲架構(gòu)要怎么選粹胯?大圣眾包(www.dashengzb.cn)小編就為大家分析下分布式存儲文件的優(yōu)劣性!
一风纠、主流的3種分布式存儲文件系統(tǒng)
存儲架構(gòu)分兩種,一種是傳統(tǒng)存儲陣列架構(gòu)竹观,另一種就是本文將要重點(diǎn)介紹的分布式存儲架構(gòu)潜索。進(jìn)入大數(shù)據(jù)時(shí)代,隨著數(shù)據(jù)量的飛速增加懂酱,企業(yè)對于數(shù)據(jù)存儲的可擴(kuò)展性不斷提出要求竹习,而具有擴(kuò)展性強(qiáng)、價(jià)格低廉特點(diǎn)的分布式存儲系統(tǒng)則漸漸成為眾多企業(yè)的選擇列牺≌埃可以說,得益于大數(shù)據(jù)的繁盛發(fā)展瞎领,分布式存儲架構(gòu)在近幾年中得到了前所未有的關(guān)注泌辫。
當(dāng)前市場上,比較主流的3種分布式存儲文件系統(tǒng)九默,分別有AFS震放、GFS、Lustre驼修。它們基本都有一個(gè)共通點(diǎn)——全局名字空間澜搅、緩存一致性、安全性邪锌、可用性和可擴(kuò)展性勉躺。
二、3種分布式存儲文件系統(tǒng)的各自特點(diǎn)
1.AFS
由卡內(nèi)基美隆大學(xué)最初設(shè)計(jì)開發(fā)的AFS觅丰,目前已經(jīng)相當(dāng)成熟饵溅,用于研究和部分大型網(wǎng)絡(luò)中。AFS是AndrewFileSystem的簡稱妇萄,它的主要組建包括Cells蜕企、AFSclients、基本存儲單元Volumes冠句、AFSservers和Volumereplication轻掩。
擁有良好可擴(kuò)展性的AFS,能夠?yàn)榭蛻舳藥硇阅艿奶嵘涂捎眯缘奶岣吲车住FS將文件系統(tǒng)的可擴(kuò)展性放在了設(shè)計(jì)和實(shí)踐的首要位置唇牧,因此AFS擁有很好的擴(kuò)展性,能夠輕松支持?jǐn)?shù)百個(gè)節(jié)點(diǎn)聚唐,甚至數(shù)千個(gè)節(jié)點(diǎn)的分布式環(huán)境丐重。它實(shí)現(xiàn)的是模塊化的,所以并不要求在每臺服務(wù)器上運(yùn)行所有服務(wù)器進(jìn)程杆查。
但值得一提的是坏快,AFS的缺點(diǎn)在于管理員界面友好性不足唤锉,需要更多的專業(yè)知識來支持。
2.GFS
被稱為谷歌文件系統(tǒng)的GFS(GoogleFileSystem),是用以實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的主要技術(shù)和文件系統(tǒng)乒疏。它的性能、可擴(kuò)展性、可靠性和可用性都受到了肯定。它主要運(yùn)行在大量運(yùn)行Linux系統(tǒng)的普通機(jī)器上抡柿,能大大降低它的硬件成本。
文件的大小氏堤,一直是文件系統(tǒng)要考慮的問題沙绝。對于任何一種文件系統(tǒng)鼠锈,成千上萬的幾KB的系統(tǒng)很容易壓死內(nèi)存购笆。所以虚循,對于大型的文件,管理要高效铺遂,對于小型的文件茎刚,也需要支持膛锭,但是并沒有進(jìn)行優(yōu)化。在GFS中莫杈,chunkserver的大小被固定為64MB奢入,這樣的塊規(guī)模比一般的文件系統(tǒng)的塊規(guī)模要大得多,可以減少元數(shù)據(jù)metadata的開銷丁存,減少M(fèi)aster的交互柴我。但是,太大的塊規(guī)模也會產(chǎn)生內(nèi)部碎片聋伦,或者同一個(gè)chunk中存在多個(gè)小文件可能會產(chǎn)生訪問熱點(diǎn)。
GFS主要部件包括一個(gè)master和n個(gè)chunkserver兵拢,和chunkserver(數(shù)據(jù)塊服務(wù)器)同時(shí)可以被多個(gè)客戶client(客戶)訪問逾礁。不同于傳統(tǒng)的文件系統(tǒng),GFS不再將組建錯(cuò)誤當(dāng)成異常腻扇,而是將其看作一種常見的情況予以處理幼苛。
同樣地焕刮,GFS也有缺點(diǎn)。一系列冗余備份括荡、快速恢復(fù)等技術(shù)溉旋,很難保證它能夠正常和高效運(yùn)行低滩。
3.Lustre
名稱來源于Linux和Clusters的Lustre恕沫,也被稱為平行分布式文件系統(tǒng),它是HP婶溯、Intel、ClusterFileSystem公司聯(lián)合美國能源部開發(fā)的Linux集群并行文件系統(tǒng)褐筛。Lustre的主要組建包括元數(shù)據(jù)服務(wù)器(MetadataServers渔扎,MDSs)信轿、對象存儲服務(wù)器(ObjectStorageServers残吩,OSSs)和客戶端倘核。其中MDSs提供元數(shù)據(jù)服務(wù),MGS管理服務(wù)器提供文件系統(tǒng)配置信息紧唱,OSS對象存儲服務(wù)器expose塊為設(shè)備提供數(shù)據(jù)。作為一個(gè)遵循GPL許可協(xié)議的開源軟件蛹锰,Lustre常用于大型計(jì)算機(jī)集群和超級電腦中宁仔。
Lustre文件系統(tǒng)針對大文件讀寫進(jìn)行了優(yōu)化峦睡,能夠提高性能的IO能力权埠。另外,它對源數(shù)據(jù)獨(dú)立存儲龙屉、服務(wù)和網(wǎng)絡(luò)失效的快速恢復(fù)满俗、基于意圖的分布式鎖管理和系統(tǒng)可快速配置方面,表現(xiàn)也十分優(yōu)異五芝。
各企業(yè)可以根據(jù)自身需求辕万,選取合適的分布式存儲文件系統(tǒng),以便在大數(shù)據(jù)海洋中揚(yáng)帆猛進(jìn)醉途!
(更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨隘擎、兼職機(jī)會請關(guān)注大圣眾包平臺凉夯,或添加大圣花花個(gè)人微信號(dashenghuaer)推正,拉你入bigdata&BI交流群330648564植榕。)