三分鐘入門大數(shù)據(jù)之大數(shù)據(jù)基本的組件環(huán)境是什么?

哈嘍痛悯,大家好余黎,我是漢斯老師。近幾年來载萌,互聯(lián)網(wǎng)行業(yè)由于較高的薪資收入惧财,受到許多人的追捧。很多年輕的學(xué)子扭仁,或是其他行業(yè)的有志青年垮衷,都想要投身到這個行業(yè)中來。然而一方面受到“互聯(lián)網(wǎng)寒冬”的影響乖坠,最近頻頻傳出各家知名互聯(lián)網(wǎng)公司裁員縮編的消息搀突;另一方面,大量的人才涌入熊泵,又使得互聯(lián)網(wǎng)產(chǎn)業(yè)在職場上呈現(xiàn)出供過于求的特征仰迁,并最終導(dǎo)致了職場上的激烈競爭。那么互聯(lián)網(wǎng)行業(yè)未來的潛力在哪里顽分?我們又應(yīng)該在哪個方向上發(fā)力徐许,才能保證自己可以獲得一份高薪而穩(wěn)定的工作?基于多年的互聯(lián)網(wǎng)行業(yè)從業(yè)經(jīng)驗怯邪,漢斯老師在這里向大家推薦大數(shù)據(jù)方向绊寻,希望通過本人的《三分鐘入門大數(shù)據(jù)》和《十分鐘精通大數(shù)據(jù)》等系列文章,幫助所有有志了解學(xué)習(xí)大數(shù)據(jù)的朋友掌握大數(shù)據(jù)的相關(guān)知識悬秉,也歡迎所有對互聯(lián)網(wǎng)行業(yè)以及大數(shù)據(jù)領(lǐng)域感興趣的朋友前來交流。




大數(shù)據(jù)系統(tǒng)冰蘑,或者說大數(shù)據(jù)生態(tài)體系的組成和泌,是大部分大數(shù)據(jù)開發(fā)人員必須要了解和掌握的知識。那么最基本的大數(shù)據(jù)系統(tǒng)都包含什么呢祠肥?首先讓我們來看一下下面這張非常經(jīng)典的大數(shù)據(jù)系統(tǒng)組件圖吧武氓。


以上就是一個基本的大數(shù)據(jù)系統(tǒng)所包含的組件了。當(dāng)然仇箱,對于一些剛進(jìn)入這個領(lǐng)域的朋友县恕,可能對這張圖的解讀不是那么明確,以下我會用對應(yīng)的一張圖和相應(yīng)的文字來說明各個組件的作用剂桥。


HDFS: 用于存放一切信息的分布式的文件系統(tǒng)忠烛。大數(shù)據(jù)系統(tǒng)由于其涉及到的數(shù)據(jù)量較大所以往往需要仰賴于一個數(shù)據(jù)倉庫系統(tǒng),將所有的數(shù)據(jù)能夠分門別類地存儲起來权逗,而HDFS就是這樣一個倉庫美尸。需要注意一點冤议,HDFS并不是我們通常實際用來查詢或者處理數(shù)據(jù)的數(shù)據(jù)倉庫組件,其更像是倉庫本身师坎,是一個偏硬件恕酸,偏系統(tǒng)化的概念,用于將所有的信息都囊括進(jìn)去胯陋。

MapReduce:用于實際進(jìn)行計算數(shù)據(jù)的編程模型蕊温,其特質(zhì)強(qiáng)調(diào)分布式與并行《羟牵可以說义矛,MapReduce是真正實現(xiàn)對大量數(shù)據(jù)進(jìn)行操作和處理的工具。其具體的實現(xiàn)和例子按灶,我們會在之后的文章中詳細(xì)介紹症革。

ZooKeeper:負(fù)責(zé)大數(shù)據(jù)系統(tǒng)中,統(tǒng)一管理調(diào)度整個倉庫運作的工程班鸯旁。我們可以想象得到噪矛,一個復(fù)雜的系統(tǒng)想要能夠穩(wěn)定運作下去,其必須需要一個相應(yīng)的角色铺罢,專職負(fù)責(zé)統(tǒng)一調(diào)度整個系統(tǒng)的資源艇挨,發(fā)布任務(wù),協(xié)調(diào)各個組件之間的運行韭赘。ZooKeeper就是這樣一個角色缩滨,可以這樣說,ZooKeeper的存在泉瞻,使得分布式的系統(tǒng)在協(xié)調(diào)運作上得到的保證脉漏。

HBase:存放數(shù)據(jù)的架子。當(dāng)我們有了存儲和處理數(shù)據(jù)的倉庫以后袖牙,我們肯定不能將數(shù)據(jù)雜亂的堆積到倉庫中吧侧巨?HBase就是倉庫中的架子,我們在拿到數(shù)據(jù)后鞭达,會將數(shù)據(jù)放到相應(yīng)的架子中司忱,這樣以后當(dāng)我們需要使用或者處理數(shù)據(jù)時,只需要去找到相應(yīng)的架子就好了畴蹭。所以HBase具備一些數(shù)據(jù)庫的功能坦仍,然而這里要強(qiáng)調(diào)一下,HBase是一個Nosql的數(shù)據(jù)庫叨襟。稍后我們會詳細(xì)說明繁扎,Nosql數(shù)據(jù)庫與常用的數(shù)據(jù)庫之間的區(qū)別與聯(lián)系是什么。

Hive:查找數(shù)據(jù)的工具芹啥。從前面這個定義可以看出來锻离,Hive其實和HBase在功能上有很多相似的地方铺峭,它們都可以查找數(shù)據(jù),然而Hive本質(zhì)上只是查找數(shù)據(jù)的功能汽纠,其不能更新數(shù)據(jù)(但是可以寫入)卫键。而HBase中,常用的增刪改查都是支持的虱朵。

Pig:處理數(shù)據(jù)的工具莉炉。Pig是基于MapReduce的,所以當(dāng)直接使用MapReduce開發(fā)相應(yīng)的數(shù)據(jù)處理比較困難的話碴犬,Pig就是我們會想要使用的工具了絮宁。這里要說一下,在經(jīng)過多年的發(fā)展后服协,大數(shù)據(jù)各個組件其實都在擴(kuò)展其各自功能绍昂,目前能夠用來簡便開發(fā)MapReduce的工具中,Pig已經(jīng)不是首選了偿荷,然而在最初建立大數(shù)據(jù)體系時窘游,Pig是非常重要的一個組成部分。我們稍后也會講一下跳纳,究竟Pig忍饰,Hive和Hbase的區(qū)別是什么。

Mahout:機(jī)器學(xué)習(xí)的功能組件庫寺庄“叮可以這樣說,大數(shù)據(jù)系統(tǒng)想要最大化的利用數(shù)據(jù)創(chuàng)造價值斗塘,往往需要機(jī)器學(xué)習(xí)相關(guān)的功能赢织,這個時候,就是我們用到Mahout的時候了馍盟。

Flume:收集記錄數(shù)據(jù)操作日志的工具敌厘。如此復(fù)雜的大數(shù)據(jù)系統(tǒng),想要運作起來朽合,肯定需要一個完備可靠的日志系統(tǒng),用來記錄各個組件每時每刻運行的任務(wù)饱狂,運行狀況曹步,使用的資源情況,任務(wù)分發(fā)的情況等休讳,F(xiàn)lume正是為此而存在的讲婚。

Sqoop:輸送數(shù)據(jù)進(jìn)入倉庫的工具。想想看俊柔,當(dāng)我們整個數(shù)據(jù)系統(tǒng)搭建起來后筹麸,我們肯定需要有一個工具活合,能夠把原始的數(shù)據(jù),輸送到數(shù)據(jù)系統(tǒng)中吧物赶?Sqoop的工作就是這樣的白指,其可以定時抽取目標(biāo)數(shù)據(jù)庫中的相應(yīng)數(shù)據(jù),發(fā)送到我們的大數(shù)據(jù)系統(tǒng)中酵紫。

Ambari:將上面所有組件打包起來的平臺告嘲。想想看,上面那么多的組件奖地,如果一個一個都要我們手動去部署安裝橄唬,甚至要調(diào)試和設(shè)置,這個效率之低令人不寒而栗参歹。那么當(dāng)我們清楚了我們會用到的這些組件后仰楚,能不能找到一個工具,當(dāng)我們面對一個全新的環(huán)境中犬庇,可以把整個大數(shù)據(jù)系統(tǒng)快速打包部署下去僧界,這正是Ambari平臺的價值所在。此外械筛,我們在實際運作的時候捎泻,針對維護(hù)人員,需要有一個工具能夠直觀的監(jiān)控整個大數(shù)據(jù)系統(tǒng)的運作狀況埋哟,這也是如Ambari這樣的大數(shù)據(jù)平臺的作用之一笆豁。

限于篇幅的關(guān)系,以上僅僅是最基礎(chǔ)赤赊,最早期的大數(shù)據(jù)系統(tǒng)所囊括的組件體系闯狱,在接下來的文章中,筆者會逐步向一一詳細(xì)說明各個組件的作用和原理等抛计。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末哄孤,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子吹截,更是在濱河造成了極大的恐慌瘦陈,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,542評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件波俄,死亡現(xiàn)場離奇詭異晨逝,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)懦铺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,596評論 3 385
  • 文/潘曉璐 我一進(jìn)店門捉貌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事趁窃∧琳酰” “怎么了?”我有些...
    開封第一講書人閱讀 158,021評論 0 348
  • 文/不壞的土叔 我叫張陵醒陆,是天一觀的道長瀑构。 經(jīng)常有香客問我,道長统求,這世上最難降的妖魔是什么检碗? 我笑而不...
    開封第一講書人閱讀 56,682評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮码邻,結(jié)果婚禮上折剃,老公的妹妹穿的比我還像新娘。我一直安慰自己像屋,他們只是感情好怕犁,可當(dāng)我...
    茶點故事閱讀 65,792評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著己莺,像睡著了一般奏甫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上凌受,一...
    開封第一講書人閱讀 49,985評論 1 291
  • 那天阵子,我揣著相機(jī)與錄音,去河邊找鬼胜蛉。 笑死挠进,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的誊册。 我是一名探鬼主播领突,決...
    沈念sama閱讀 39,107評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼案怯!你這毒婦竟也來了君旦?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,845評論 0 268
  • 序言:老撾萬榮一對情侶失蹤嘲碱,失蹤者是張志新(化名)和其女友劉穎金砍,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體麦锯,經(jīng)...
    沈念sama閱讀 44,299評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡捞魁,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,612評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了离咐。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,747評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖宵蛀,靈堂內(nèi)的尸體忽然破棺而出昆著,到底是詐尸還是另有隱情,我是刑警寧澤术陶,帶...
    沈念sama閱讀 34,441評論 4 333
  • 正文 年R本政府宣布凑懂,位于F島的核電站,受9級特大地震影響梧宫,放射性物質(zhì)發(fā)生泄漏接谨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,072評論 3 317
  • 文/蒙蒙 一塘匣、第九天 我趴在偏房一處隱蔽的房頂上張望脓豪。 院中可真熱鬧,春花似錦忌卤、人聲如沸扫夜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,828評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽笤闯。三九已至,卻和暖如春棍厂,著一層夾襖步出監(jiān)牢的瞬間颗味,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,069評論 1 267
  • 我被黑心中介騙來泰國打工牺弹, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留浦马,地道東北人。 一個月前我還...
    沈念sama閱讀 46,545評論 2 362
  • 正文 我出身青樓例驹,卻偏偏與公主長得像捐韩,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子鹃锈,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,658評論 2 350

推薦閱讀更多精彩內(nèi)容

  • Zookeeper用于集群主備切換荤胁。 YARN讓集群具備更好的擴(kuò)展性。 Spark沒有存儲能力屎债。 Spark的Ma...
    Yobhel閱讀 7,258評論 0 34
  • 【什么是大數(shù)據(jù)仅政、大數(shù)據(jù)技術(shù)】 大數(shù)據(jù),又稱巨量資料盆驹,指的是所涉及的數(shù)據(jù)資料量規(guī)模巨大到無法在合理時間內(nèi)通過傳統(tǒng)的應(yīng)...
    kimibob閱讀 2,736評論 0 51
  • 當(dāng)前圆丹,整個互聯(lián)網(wǎng)正在從IT時代向DT時代演進(jìn),大數(shù)據(jù)技術(shù)也正在助力企業(yè)和公眾敲開DT世界大門躯喇。當(dāng)今“大數(shù)據(jù)”一詞的...
    吳瑞文閱讀 1,463評論 1 11
  • 悠悠五千年浩浩蕩蕩辫封, 昔日恥辱上下求索今已雪硝枉, 昂首闊步新時代引領(lǐng)未來!
    zhulinliushui閱讀 405評論 0 3
  • 下午在車上時倦微,隊友告訴我昨晚他們喝酒聊天的內(nèi)容了妻味。 是的,昨晚他和弟弟吃燒烤酒料喝啤酒欣福,聽說三個人聊到一點多才睡责球。...
    牽著一只小狗看世界閱讀 142評論 1 1