大數(shù)據(jù)系列(一):初識Hadoop

學(xué)習(xí)計劃

  • Big Data Specialization from the Uni of California, San Diego
  • Hadoop 權(quán)威指南

本文

  • Hadoop Platform and Application Framework Week1: ** Hadoop Basics**
  • Hadoop 權(quán)威指南第一章:初識Hadoop

Hadoop是什么?

Apache Hadoop是在商用硬件集群上儲存并大規(guī)模處理數(shù)據(jù)集的開源軟件框架(Apache Hadoop is an open source software framework for storage and large scale processing of data-sets on clusters of commodity hardware)。

Hadoop框架的基本模塊是什么育特?

  • Hadoop Common: Hadoop Common 包含其他Hadoop模塊需要的庫和實用程序(Hadoop Common contains libraries and utilities needed by other Hadoop modules
  • Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System): HDFS 是一個用于儲存超大文件的系統(tǒng)菌瘪。這個系統(tǒng)在商用硬件集群上運行狂芋,以流式數(shù)據(jù)訪問模式來存儲這些超大文件(HDFS is a filesystem designed for storing very large files with streaming data access patterns, running on clusters of commodity hardware
    • 超大文件(Very large files): GB, TB, PB級別文件
    • 流式數(shù)據(jù)訪問(Streaming data access):一次寫入,多次讀取
    • 商用硬件(Commodity hardware): 并不需要運行在高可靠的硬件上。因此,成本低但節(jié)點故障率高
  • Hadoop YARN (Yet Another Resource Negotiator): YARN 是用于集群計算資源管理和用戶艰额、應(yīng)用規(guī)劃的資源管理平臺(YARN is a resource management platform responsible for managing compute resources in the cluster and using them in order to schedule users and applications). YARN的基礎(chǔ)思想是將job tracker的兩個主要功能(資源管理和任務(wù)分配與監(jiān)控)分離 (The fundamental idea behind the MapReduce 2.0 is to split up two major functionalities of the job tracker, resource management, and the job scheduling and monitoring, and to do two separate units.)
  • Hadoop MapReduce:一個用于數(shù)據(jù)處理的編程模型(MapReduce is a programming model for data processing.

Hadoop生態(tài)系統(tǒng)主要組成部分是什么?

Apache Hadoop Ecosystem.png
  • Apache Sqoop: 在關(guān)系型數(shù)據(jù)庫和HDFS之間移動數(shù)據(jù)的工具(A tool for efficiently moving data between relational databases and HDFS
  • Apache HBase:一個分布式的列數(shù)據(jù)庫椒涯。HBase使用HDFS進行基礎(chǔ)儲存并同時支持MapReduce的批量計算和隨機讀取的點查詢(A distributed, column-oriented database. HBase uses HDFS for its underlying storage, and supports both batch-style computation using MapReduce and point queries (random reads)
  • Apache Pig:Pig是一種探索大規(guī)模數(shù)據(jù)集的腳本語言柄沮,由兩部分組成:Pig Latin(描述數(shù)據(jù)流)和用于運行Pig Latin程序的執(zhí)行環(huán)境。
  • Apache Hive: Hive是一個分布式的數(shù)據(jù)倉庫,管理存儲在HDFS中的數(shù)據(jù)并提供和SQL長得像的查詢語言來查詢數(shù)據(jù)(A distributed data warehouse. Hive manages data stored in HDFS and provides a query language based on SQL (and which is translated by the runtime engine to MapReduce jobs) for querying the data.
  • Apache Oozie: Oozie用于管理Hadoop所有工作的工作流計劃系統(tǒng)(Oozie's a workflow schedule system that manages all of our Apache Hadoop jobs
  • Apache Flume: Flume 是一個用于收集不斷增加并移動的大量數(shù)據(jù)的分布式服務(wù)(Flume is a distributed and reliable available service for efficiently collecting aggregating and moving large amounts of data)
  • Apache Zookeeper: Zookeeper提供分布式的配置服務(wù)和同步服務(wù)祖搓,這樣我們可以將Hadoop的所有工作和整個分布系統(tǒng)的注冊表同步(It provides a distributed configuration service and synchronization service so he can synchronize all these jobs and a naming registry for the entire distributed system
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末狱意,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子棕硫,更是在濱河造成了極大的恐慌,老刑警劉巖袒啼,帶你破解...
    沈念sama閱讀 216,919評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件哈扮,死亡現(xiàn)場離奇詭異,居然都是意外死亡蚓再,警方通過查閱死者的電腦和手機滑肉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來摘仅,“玉大人靶庙,你說我怎么就攤上這事⊥奘簦” “怎么了六荒?”我有些...
    開封第一講書人閱讀 163,316評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長矾端。 經(jīng)常有香客問我掏击,道長,這世上最難降的妖魔是什么秩铆? 我笑而不...
    開封第一講書人閱讀 58,294評論 1 292
  • 正文 為了忘掉前任砚亭,我火速辦了婚禮,結(jié)果婚禮上殴玛,老公的妹妹穿的比我還像新娘捅膘。我一直安慰自己,他們只是感情好滚粟,可當(dāng)我...
    茶點故事閱讀 67,318評論 6 390
  • 文/花漫 我一把揭開白布寻仗。 她就那樣靜靜地躺著,像睡著了一般凡壤。 火紅的嫁衣襯著肌膚如雪愧沟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,245評論 1 299
  • 那天鲤遥,我揣著相機與錄音沐寺,去河邊找鬼。 笑死盖奈,一個胖子當(dāng)著我的面吹牛混坞,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,120評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼究孕,長吁一口氣:“原來是場噩夢啊……” “哼啥酱!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起厨诸,我...
    開封第一講書人閱讀 38,964評論 0 275
  • 序言:老撾萬榮一對情侶失蹤镶殷,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后微酬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绘趋,經(jīng)...
    沈念sama閱讀 45,376評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,592評論 2 333
  • 正文 我和宋清朗相戀三年颗管,在試婚紗的時候發(fā)現(xiàn)自己被綠了陷遮。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,764評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡垦江,死狀恐怖帽馋,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情比吭,我是刑警寧澤绽族,帶...
    沈念sama閱讀 35,460評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站衩藤,受9級特大地震影響项秉,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜慷彤,卻給世界環(huán)境...
    茶點故事閱讀 41,070評論 3 327
  • 文/蒙蒙 一娄蔼、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧底哗,春花似錦岁诉、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至前标,卻和暖如春坠韩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背炼列。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評論 1 269
  • 我被黑心中介騙來泰國打工只搁, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人俭尖。 一個月前我還...
    沈念sama閱讀 47,819評論 2 370
  • 正文 我出身青樓氢惋,卻偏偏與公主長得像洞翩,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子焰望,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,665評論 2 354

推薦閱讀更多精彩內(nèi)容