如何實現(xiàn)CM+CDH構(gòu)建企業(yè)級大數(shù)據(jù)平臺
????當(dāng)前邊所有的準備工作都搞定之后诽俯,接下來我們就來正式的通過CM+CDH的方式來構(gòu)建企業(yè)級大數(shù)據(jù)平臺承粤。那么CM是什么闯团?CDH是什么?CM和CDH的關(guān)系是什么仙粱?等等。有必要首先把這些基本概念了解清楚伐割,然后我們再來進行具體的操作演練。
??(一)CM是什么口猜?
?????????簡單地說负溪,CM是Cloudera Manager的縮寫济炎,即CM就是Cloudera公司研發(fā)的一款可以讓企業(yè)對大數(shù)據(jù)平臺的管理和維護變的更簡單更直觀的管理工具。那么怎么個簡單直觀法须尚?
?????????俗話說沒有對比就沒有傷害崖堤,我們先簡單來做個對比耐床,回憶一下不使用CM我們是如何對集群進行操作的。使用CM我們又是怎么操作的撩轰。
?????????比如說啟動HDFS,不使用CM之前要通過執(zhí)行啟動腳本命令堪嫂,使用CM之后只需要點擊對應(yīng)按鈕就行偎箫。 這只是一個最簡單的比較皆串。
?????????除此之外,CM還可以實現(xiàn)以下功能:
????????1恶复、自動化安裝軟件怜森,不用我們先單獨的下載解壓谤牡,然后修改配置文件等等復(fù)雜的操作,只需要按照提示點擊對應(yīng)的按鈕即可拓哟。
????????2伶授、可以查看整個集群或各個節(jié)點的實時運行狀態(tài)断序。對集群進行監(jiān)控和報警。這個是不是更直觀违诗,否則你還要單獨部署監(jiān)控組件漱凝,比如Ganglia诸迟。
????????3、可以通過圖形化界面修改集群的配置文件
?????????這些是最直觀的功能阵苇,當(dāng)然還有其他高級功能壁公,比如滾動升級绅项、自定義圖表、自定義報警監(jiān)控快耿、安全機制等等,這個后邊有時間再說掀亥∽卜矗總之搪花,就是還不錯哦,只要你真的想學(xué)撮竿,還是值得你放棄泡妞的時間來嘗試一下的丁稀。
?????????Ok,前邊對CM夸贊那么多倚聚,實際上,CM就是一個web應(yīng)用惑折,可以讓用戶通過瀏覽器的可視化界面安裝部署、管理維護大數(shù)據(jù)平臺惨驶。讓集群的管理維護由一個個黑乎乎的界面變成一個顏值還不錯的web界面白热。而且CM的漢化做的也比較好粗卜,英文不太好,中文至少還湊活吧。所以說學(xué)起來相對來說還是不難的攻臀。
?????????但是我們說過,圖形化界面可以操作刨啸,直接在集群上也能操作堡赔,圖形化界面相當(dāng)于在集群上做了一層封裝设联,難免在某些地方會有局限,所以說要想更深入的學(xué)習(xí)离例,希望小白還是要掌握一下Linux 的一些基本的操作的。
?????????OK宫蛆,CM我們先簡單認識到這啥寇,后面我們再專門深入的講解CM的架構(gòu)和功能洒扎,以及如何安裝部署CM。
??(二)CDH是什么袍冷?
?????????簡單的說磷醋,CDH就是Cloudera's Distribution including Apache Hadoop的縮寫胡诗,即CDH是包含Apache Hadoop的Cloudera的發(fā)行版。如果你沒接觸過Hadoop煌恢,你可以先這樣理解,Hadoop是各個大數(shù)據(jù)公司幾乎都在使用的用來解決大規(guī)模數(shù)據(jù)存儲和計算等問題的一款好軟件瑰抵。實際上Hadoop里邊還包括很多內(nèi)容你雌,深入一點一個月都講不完二汛,如果想系統(tǒng)的學(xué)習(xí),大家可以到大講臺官網(wǎng)上了解一下肴颊。
??(三)CDH和Apache Hadoop有何關(guān)系氓栈?
?????????實際上Hadoop有很多發(fā)行版婿着,比如CDH醋界、HDP(Hortonworks Data Platform)、MapR提完、intel發(fā)行版、華為發(fā)行版等等氯葬。
?????????但是這些發(fā)行版都是基于Apache Hadoop婉陷,Apache Hadoop的開源協(xié)議決定帚称,任何人可以對其進行修改秽澳,并作為開源或商業(yè)產(chǎn)品發(fā)布/銷售。所以衍生出了大量的發(fā)行版担神。 版本太多楼吃,在選擇的時候就難免會產(chǎn)生困惑妄讯。我該選擇哪一種呢?
?????????實際上在用戶選擇使用哪種發(fā)行版的時候亥贸,一般會考慮兩個問題:
????????第一:是不是好用
?????????如果這些發(fā)型版還沒有社區(qū)版好用躬窜,還沒有apache hadoop用著爽炕置,用戶也不會選擇?所以一般都會有一些新的特性朴摊,或者至少要在apache的基礎(chǔ)上修復(fù)更多的bug
????????第二:要不要錢默垄,即是不是收費
?????????比如我們上邊列出來的幾種:Intel發(fā)行版甚纲、華為發(fā)行版是收費的,而CDH介杆、HDP就可以免費使用,而且他們是開源的这溅,CDH和HDP雖然也有收費版本组民,但是也只是收取服務(wù)費用悲靴。
????????在國內(nèi)公司的使用率上莫其,CDH發(fā)行版目前還是使用的最多的,所以我們也就學(xué)CDH耸三。
?????????當(dāng)然了,不能只是簡單地說仪壮,別人用憨颠,我也用积锅,你也要大概了解一下,是由于CDH的哪些特點或好處讓我們選擇使用它缚陷。就像現(xiàn)在說話一樣,逮個女的都是叫美女箫爷,實際上一看呢嚷节,呵呵虎锚。所以你就要好好看看到底是由于精致的臉蛋還是白白的大長腿讓你覺著它是個美女。你選擇學(xué)習(xí)一門技術(shù)或一個軟件時也一樣窜护。到底是哪些特點或好處讓我們選擇使用它效斑,OK柄慰,那么CDH有哪些好處如此深受廣大大數(shù)據(jù)企業(yè)的青睞呢?我們一塊來看一下坐搔。
??(四)CDH有什么好處呢藏研?
????????1概行、基于Apache協(xié)議,100%開源
????????2凳忙、基于穩(wěn)定版本Apache Hadoop业踏,并修復(fù)了大量的Bug涧卵,比Apache Hadoop的兼容性、安全性柳恐、穩(wěn)定性更強
????????3热幔、充分考慮了各個大數(shù)據(jù)組件之間的版本兼容性,版本管理更清晰(比如CDH5)
????????4讼庇、版本更新快,通常每2-3個月都會有一次更新
????????5蠕啄、集群管理維護更簡單方便场勤,提供了部署歼跟、安裝、配置嘹承、監(jiān)控窗价、診斷等工具(CM)叹卷,大大提高了集群部署及維護的效率
?????????還有因為第三方發(fā)行版通常都經(jīng)過了大量的測試驗證,有眾多部署實例骤竹,大量的運行到各種生產(chǎn)環(huán)境。所以說使用起來更可靠往毡。OK,CM和CDH簡單了解了开瞭,那么他們之間有什么關(guān)系呢懒震?加一塊是啥意思嗤详?Ok,我們來Look一下。
??(五)CM和CDH有什么關(guān)系呢葱色?
?????????通過CM統(tǒng)一的圖形化界面快速自動的安裝部署CDH相關(guān)的服務(wù)組件
?????????所以說CM是一個web工具递宅,CDH是一個軟件棧苍狰,它包含很多軟件,這些軟件怎么安裝呢淋昭,我們可以先安裝CM,然后通過CM圖形化界面自動的安裝CDH里包含的各種軟件翔忽。就這么簡單英融。
????????按照前邊的分析,那么接下來我們的任務(wù)就是先安裝CM矢赁,然后再用CM來安裝CDH包含的大數(shù)據(jù)相關(guān)的軟件糯笙。