分布式入門菜鳥的一些思考卧蜓,各位大神發(fā)現(xiàn)錯誤歡迎指正郑什!
這些天自己看了一些有關(guān)分布式和云相關(guān)的資料搀愧,也正在著手想玩玩Hadoop,Storm和Spark這些開源分布式的平臺城侧。但在此之前做為小白的我(現(xiàn)在也是小白易遣,只是看了幾天書對概念架構(gòu)有了一定的了解),一直認(rèn)為分布式就幾乎等于云嫌佑,他倆之間幾乎是相等的關(guān)系豆茫。的確不可否認(rèn)侨歉,分布式和云之間有著很大的關(guān)系,但是其實(shí)又是完全不同的兩個東西揩魂。從兩種東西的屬性來說就不同幽邓。
分布式是已經(jīng)逐漸成熟的一種技術(shù),對應(yīng)的每一種概念火脉,都以具體技術(shù)的形式體現(xiàn)出來牵舵。對于hadoop來說,hdfs管理著分布式的存儲倦挂,mapreduce做為開發(fā)架構(gòu)方便程序員對大數(shù)據(jù)進(jìn)行開發(fā)和處理畸颅,還有Hive,zookeeper等除Apache之外其他公司提供的一些工具方援,這些種種工具形成了一個大的分布式的產(chǎn)業(yè)鏈没炒,能夠?qū)嵲诘慕鉀Q很多因?yàn)閿?shù)據(jù)量過大難以解決的問題。
說到數(shù)據(jù)量大的問題犯戏,突然想到前段時(shí)間的一個新聞送火,阿里巴巴最后一臺小型機(jī)正式下線。意味著阿里走向了完全分布式的時(shí)代先匪。從有計(jì)算機(jī)到現(xiàn)在种吸,人們就一直為解決數(shù)據(jù)處理的問題發(fā)愁,剛開始人們的思路是將茫茫多的數(shù)據(jù)移動到一臺機(jī)器上進(jìn)行處理呀非,并希望CPU的能力越來越強(qiáng)大坚俗,內(nèi)存越來越大,硬盤也能越來越大姜钳。坦冠。形耗。但是這一切并不隨人愿哥桥,剛開始內(nèi)存從32k升級到64k簡直是簡單,成本不高激涤,但是到后來逐漸發(fā)現(xiàn)拟糕,當(dāng)內(nèi)存從128g升級到256g的時(shí)候所需要的開銷簡直不能再大,cpu等各個部件的升級已經(jīng)跟不上人們所期望的計(jì)算機(jī)對數(shù)據(jù)的處理速度倦踢。但是從另一方面來說這也促進(jìn)了CPU送滞,內(nèi)存,硬盤的發(fā)展辱挥。后來谷歌(因該是谷歌最先提出的)開始轉(zhuǎn)換思路犁嗅,并不一位追求機(jī)器的高性能,而是希望將多臺機(jī)器聯(lián)合起來發(fā)揮性能晤碘。從計(jì)算機(jī)方面來說褂微,這是創(chuàng)新的一步功蜓,但是從正常人的生活經(jīng)驗(yàn)來說,這是再正常不過的思路宠蚂,群毆總比單干要爽得多式撼。所以分布式也就在谷歌的三篇論文的影響下發(fā)展起來了。
相比較而言求厕,云現(xiàn)在來說其實(shí)更多的就是框架和概念著隆,實(shí)際被落實(shí)應(yīng)用的很少,有一個部分已經(jīng)落實(shí)并有了很大的前景呀癣,那就是VMware美浦。啥?這不就是虛擬機(jī)么十艾?沒錯抵代,就是虛擬機(jī),現(xiàn)在云很大情況下就是虛擬機(jī)的概念忘嫉,比如阿里云和Amazon提供的云服務(wù)荤牍,在你選擇購買方案的時(shí)候會提供你多種配置,會詢問你是要幾個CPU核數(shù)庆冕,要多大的內(nèi)存康吵,以及多大的硬盤空間,其實(shí)這不就相當(dāng)于在自己電腦上安裝一個虛擬機(jī)访递,然后讓你設(shè)置各種參數(shù)一樣嗎晦嵌?查詢了一下價(jià)格發(fā)現(xiàn),我去四核以上貴的要死拷姿,內(nèi)存8g簡直逆天惭载,一個月租下來的費(fèi)用能換幾個Mac。响巢。描滔。但是要知道相比之前的IOE(IBM,Oracle踪古,E含长。。忘了)架構(gòu)已經(jīng)便宜了太多伏穆,IOE架構(gòu)不夸張動輒幾百萬拘泞,而且還不算雇傭費(fèi)用,維修費(fèi)用等等枕扫。有了AWS和阿里云之后陪腌,中小型公司就不需要雇傭大量的服務(wù)器管理員管理服務(wù)器,因?yàn)檫@些公司可以將Web等一些服務(wù)放在阿里、亞馬遜诗鸭,服務(wù)器可以由它們統(tǒng)一管理商叹,有了它們甚至不用擔(dān)心服務(wù)器的安全因?yàn)橛惺裁磫栴}供應(yīng)商可以解決,而且一旦中招倒霉的肯定也不是你一個只泼。剖笙。這也就是現(xiàn)在被提及的去IOE化,其實(shí)也可以算是省錢計(jì)劃请唱。弥咪。。
再說一下百度云十绑,其實(shí)這個云真的不是什么了不起的東西聚至,其實(shí)從思想上來說用到的就是分布式存儲,以及一些云端查詢計(jì)算功能本橙,如果發(fā)現(xiàn)你上傳的內(nèi)容已經(jīng)存在扳躬,那就根本不需要你上傳文件了,給你個索引放在你的目錄下點(diǎn)擊就能下載了甚亭,縱使你把某些奇奇怪怪的文件改個名字還是能被查出來贷币,這有賴于百度云里的文件檢查機(jī)制,但是你用格式工廠轉(zhuǎn)換個格式再上傳那就被認(rèn)為是新文件亏狰。所以從某種程度上說百度云其實(shí)并沒有什么隱私役纹,至少技術(shù)上沒有隱私,你存的其實(shí)都是索引暇唾。
說了分布式和云促脉,那么兩者之間存在怎么樣的關(guān)系呢?其實(shí)通過我上面兩段的講述分布式和云是兩個相反的思想策州,分布式是要將多個小型機(jī)的能力聚集起來形成一個大的資源池瘸味,云的思想從當(dāng)下服務(wù)來看,是將大的資源池分給各個用戶够挂。說兩者不想管不可能旁仿,因?yàn)楝F(xiàn)在想要把資源池做大都借助于分布式的技術(shù);但是說相等或者近似相等也是不可以的下硕,因?yàn)楸举|(zhì)上丁逝,云是概念汁胆,一個大的概念下需要有多種技術(shù)的支撐梭姓,分布式可以說是眾多技術(shù)中至關(guān)重要的一個,實(shí)現(xiàn)云海需要各種大數(shù)據(jù)分析方法嫩码,智能算法等等誉尖。。铸题。