Hadoop筆記(一)

Hadoop基本概念

Hadoop出現(xiàn)的前提環(huán)境

隨著數(shù)據(jù)量的增大帶來了以下問題:

  1. 如何存儲大量的數(shù)據(jù)?
  2. 怎么處理這些數(shù)據(jù)?
  3. 怎樣高效地分析這些數(shù)據(jù)宰啦?
  4. 在數(shù)據(jù)量增長的情況下如何構(gòu)建一個解決方案?

在大數(shù)據(jù)領(lǐng)域提出了兩個概念:

  1. 分布式文件系統(tǒng),用于存儲大量的數(shù)據(jù)
  2. 分布式計算框架MapReduce正林,高效地分析數(shù)據(jù)

以上兩個概念組成了一個名詞叫Hadoop


Hadoop的起源

谷歌發(fā)布了三篇論文:GFS分布式存儲系統(tǒng)、MapReduce分布式計算框架慰丛、BigTable卓囚。

Hadoop Google
HDFS GFS
MapReduce MapReduce
Hbase BigTable

Hadoop與其他分布式系統(tǒng)比較

  1. Hadoop集群的數(shù)據(jù)首先先金星分布式的存儲
  2. Hadoop集群上通過HDFS分布式文件系統(tǒng),會把存儲的數(shù)據(jù)復(fù)制多分诅病,保證了數(shù)據(jù)的安全性
  3. 提供了一個簡單的醫(yī)用的分布式計算框架
  4. Hadoop擴展容易

Hadoop版本

Hadoop1x版本中核心是組建就是HDFS和MapReduce哪亿;

Hadoop2x版本中核心中增加了YARN;


YARN介紹

  1. 云操作系統(tǒng)贤笆,理解為資源管理器蝇棉,管理集群中的資源(在增加了YARN操作系統(tǒng)之后,MapReduce任務(wù)就是可以跑在YARN平臺上芥永,通過YARN平臺進行MapReduce任務(wù)的管理篡殷,資源的分配);
  2. 也可以通過YARN平臺運行Spark任務(wù)埋涧,包括Spark可以讀取HDFS上的數(shù)據(jù)文件板辽;

Hadoop生態(tài)圈介紹

數(shù)據(jù)的來源,在企業(yè)中一般數(shù)據(jù)的來源分為兩種棘催,第一種是企業(yè)內(nèi)部的數(shù)據(jù)劲弦,

例如:業(yè)務(wù)數(shù)據(jù)(保存在關(guān)系型數(shù)據(jù)庫中),應(yīng)用的服務(wù)器日志(日志文件)醇坝。(機構(gòu)化數(shù)據(jù))

第二種外部渠道獲得邑跪,例如:用戶的行為記錄(推薦系統(tǒng)實現(xiàn)),通過搜索的關(guān)鍵字呼猪、消費記錄画畅、爬蟲技術(shù)等(非結(jié)構(gòu)化數(shù)據(jù))。

hive(數(shù)據(jù)要進行清洗獲取需要的數(shù)據(jù))

sqoop(數(shù)據(jù)導(dǎo)入導(dǎo)出到傳統(tǒng)數(shù)據(jù)庫中)

flume(日志收集工具)

hbase(數(shù)據(jù)庫存儲)

hdfs

MapReduce

zookeeper


HDFS架構(gòu)

分布式存儲系統(tǒng)宋距,分布式的架構(gòu)上存在主/從的架構(gòu)關(guān)系轴踱,在HDFS文件系統(tǒng)存在主節(jié)點和從節(jié)點。

  • 主節(jié)點:namenode負責(zé)管理HDFS集群文件中的元數(shù)據(jù)(文件名乡革、文件位置寇僧、文件副本)

  • 從節(jié)點:datanode負責(zé)存儲真正的數(shù)據(jù)

    image

在HDFS中數(shù)據(jù)的存儲是以塊(block)的方式進行存儲摊腋,默認塊的大小為128MB。


YARN架構(gòu)

分布式架構(gòu)嘁傀,分為主從架構(gòu)兴蒸;

  • 主節(jié)點 ResourceManager,負責(zé)管理集群中的所有資源(cpu细办、內(nèi)存橙凳、磁盤、網(wǎng)絡(luò)IO)笑撞。
  • 從節(jié)點 NodeManager岛啸,負責(zé)管理集群中每一臺服務(wù)器的資源。

MapReduce架構(gòu)

核心思想茴肥,分而治之

  • Map端和Reduce端進行數(shù)據(jù)分析
  • 數(shù)據(jù)在Map階段進行分開處理坚踩,處理完成之后,再交給Reduce進行統(tǒng)計瓤狐,在Map和Reduce中間的階段通過shuffle來進行連接
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末瞬铸,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子础锐,更是在濱河造成了極大的恐慌嗓节,老刑警劉巖,帶你破解...
    沈念sama閱讀 210,914評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件皆警,死亡現(xiàn)場離奇詭異拦宣,居然都是意外死亡,警方通過查閱死者的電腦和手機信姓,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評論 2 383
  • 文/潘曉璐 我一進店門鸵隧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人意推,你說我怎么就攤上這事掰派。” “怎么了左痢?”我有些...
    開封第一講書人閱讀 156,531評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長系洛。 經(jīng)常有香客問我俊性,道長,這世上最難降的妖魔是什么描扯? 我笑而不...
    開封第一講書人閱讀 56,309評論 1 282
  • 正文 為了忘掉前任定页,我火速辦了婚禮,結(jié)果婚禮上绽诚,老公的妹妹穿的比我還像新娘典徊。我一直安慰自己杭煎,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,381評論 5 384
  • 文/花漫 我一把揭開白布卒落。 她就那樣靜靜地躺著羡铲,像睡著了一般。 火紅的嫁衣襯著肌膚如雪儡毕。 梳的紋絲不亂的頭發(fā)上也切,一...
    開封第一講書人閱讀 49,730評論 1 289
  • 那天,我揣著相機與錄音腰湾,去河邊找鬼雷恃。 笑死,一個胖子當(dāng)著我的面吹牛费坊,可吹牛的內(nèi)容都是我干的倒槐。 我是一名探鬼主播,決...
    沈念sama閱讀 38,882評論 3 404
  • 文/蒼蘭香墨 我猛地睜開眼附井,長吁一口氣:“原來是場噩夢啊……” “哼讨越!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起羡忘,我...
    開封第一講書人閱讀 37,643評論 0 266
  • 序言:老撾萬榮一對情侶失蹤谎痢,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后卷雕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體节猿,經(jīng)...
    沈念sama閱讀 44,095評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,448評論 2 325
  • 正文 我和宋清朗相戀三年漫雕,在試婚紗的時候發(fā)現(xiàn)自己被綠了滨嘱。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,566評論 1 339
  • 序言:一個原本活蹦亂跳的男人離奇死亡浸间,死狀恐怖太雨,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情魁蒜,我是刑警寧澤囊扳,帶...
    沈念sama閱讀 34,253評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站兜看,受9級特大地震影響锥咸,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜细移,卻給世界環(huán)境...
    茶點故事閱讀 39,829評論 3 312
  • 文/蒙蒙 一搏予、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧弧轧,春花似錦雪侥、人聲如沸碗殷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,715評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽锌妻。三九已至,卻和暖如春鸟廓,著一層夾襖步出監(jiān)牢的瞬間从祝,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,945評論 1 264
  • 我被黑心中介騙來泰國打工引谜, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留牍陌,地道東北人。 一個月前我還...
    沈念sama閱讀 46,248評論 2 360
  • 正文 我出身青樓员咽,卻偏偏與公主長得像毒涧,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子贝室,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,440評論 2 348

推薦閱讀更多精彩內(nèi)容