0基礎(chǔ)搭建Hadoop大數(shù)據(jù)處理-初識

在互聯(lián)網(wǎng)的世界中數(shù)據(jù)都是以TB、PB的數(shù)量級來增加的棕硫，特別是像BAT光每天的日志文件一個(gè)盤都不夠髓涯，更何況是還要基于這些數(shù)據(jù)進(jìn)行分析挖掘，更甚者還要實(shí)時(shí)進(jìn)行數(shù)據(jù)分析哈扮，學(xué)習(xí)纬纪，如雙十一淘寶的交易量的實(shí)時(shí)展示。

大數(shù)據(jù)什么叫大滑肉？4個(gè)特征：

體量化 Volume包各，就是量大。

多樣化 Variety靶庙，可能是結(jié)構(gòu)型的數(shù)據(jù)问畅，也可能是非結(jié)構(gòu)行的文本，圖片，視頻护姆，語音矾端，日志，郵件等

快速化 Velocity卵皂，產(chǎn)生快秩铆，處理也需要快。

價(jià)值密度低 Value灯变，數(shù)據(jù)量大殴玛，但單個(gè)數(shù)據(jù)沒什么意義，需要宏觀的統(tǒng)計(jì)體現(xiàn)其隱藏的價(jià)值添祸。

可以看出想只要一臺強(qiáng)大的服務(wù)器來實(shí)時(shí)處理這種體量的數(shù)據(jù)那是不可能的滚粟，而且成本昂貴，代價(jià)相當(dāng)大刃泌，普通的關(guān)系型數(shù)據(jù)庫也隨著數(shù)據(jù)量的增大其處理時(shí)間也隨之增加凡壤，那客戶是不可能忍受的，所以我們需要Hadoop來解決此問題蔬咬。

優(yōu)點(diǎn)：

Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺。用戶可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序沐寺。它主要有以下幾個(gè)優(yōu)點(diǎn)：

高可靠性林艘。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。

高擴(kuò)展性混坞。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的狐援，這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。

高效性究孕。Hadoop能夠在節(jié)點(diǎn)之間動態(tài)地移動數(shù)據(jù)啥酱，并保證各個(gè)節(jié)點(diǎn)的動態(tài)平衡，因此處理速度非吵睿快镶殷。

高容錯(cuò)性。Hadoop能夠自動保存數(shù)據(jù)的多個(gè)副本微酬，并且能夠自動將失敗的任務(wù)重新分配绘趋。

低成本。與一體機(jī)颗管、商用數(shù)據(jù)倉庫以及QlikView陷遮、Yonghong Z-Suite等數(shù)據(jù)集市相比，hadoop是開源的垦江，項(xiàng)目的軟件成本因此會大大降低帽馋。

Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢。Hadoop的分布式架構(gòu)绽族，將大數(shù)據(jù)處理引擎盡可能的靠近存儲姨涡，對例如像ETL這樣的批處理操作相對合適，因?yàn)轭愃七@樣操作的批處理結(jié)果可以直接走向存儲项秉。Hadoop的MapReduce功能實(shí)現(xiàn)了將單個(gè)任務(wù)打碎绣溜，并將碎片任務(wù)(Map)發(fā)送到多個(gè)節(jié)點(diǎn)上，之后再以單個(gè)數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉庫里娄蔼。

Hadoop在各應(yīng)用中是最底層怖喻，最基礎(chǔ)的組件，所以其重要性不言而喻岁诉。

框架結(jié)構(gòu)

Hadoop主要由HDFS ( 分布式文件系統(tǒng))和MapReduce （并行計(jì)算框架）組成锚沸。

Hadoop 由許多元素構(gòu)成。其最底部是 Hadoop Distributed File System（HDFS）涕癣，它存儲 Hadoop 集群中所有存儲節(jié)點(diǎn)上的文件哗蜈。HDFS（對于本文）的上一層是MapReduce?引擎，該引擎由 JobTrackers 和 TaskTrackers 組成坠韩。通過對Hadoop分布式計(jì)算平臺最核心的分布式文件系統(tǒng)HDFS距潘、MapReduce處理過程，以及數(shù)據(jù)倉庫工具Hive和分布式數(shù)據(jù)庫Hbase的介紹只搁，基本涵蓋了Hadoop分布式平臺的所有技術(shù)核心音比。

HDFS

對外部客戶機(jī)而言，HDFS就像一個(gè)傳統(tǒng)的分級文件系統(tǒng)氢惋《呆妫可以創(chuàng)建、刪除焰望、移動或重命名文件骚亿，等等。但是 HDFS 的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的熊赖，這是由它自身的特點(diǎn)決定的来屠。這些節(jié)點(diǎn)包括 NameNode（僅一個(gè)），它在 HDFS 內(nèi)部提供元數(shù)據(jù)服務(wù)震鹉；DataNode的妖，它為 HDFS 提供存儲塊。由于僅存在一個(gè) NameNode足陨，因此這是 HDFS 的一個(gè)缺點(diǎn)（單點(diǎn)失斏┧凇）。

存儲在 HDFS 中的文件被分成塊墨缘，然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中（DataNode）星虹。這與傳統(tǒng)的 RAID 架構(gòu)大不相同零抬。塊的大小（通常為 64MB）和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定宽涌。NameNode 可以控制所有文件操作平夜。HDFS 內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的?TCP/IP?協(xié)議。

單節(jié)點(diǎn)物理結(jié)構(gòu)

主從結(jié)構(gòu)

主節(jié)點(diǎn)卸亮，只有一個(gè): namenode

從節(jié)點(diǎn)忽妒，有很多個(gè): datanodes

namenode負(fù)責(zé)：接收用戶操作請求、維護(hù)文件系統(tǒng)的目錄結(jié)構(gòu)兼贸、管理文件與block之間關(guān)系段直，block與datanode之間關(guān)系

NameNode 是一個(gè)通常在?HDFS?實(shí)例中的單獨(dú)機(jī)器上運(yùn)行的軟件。它負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問溶诞。

datanode負(fù)責(zé)：存儲文件文件被分成block存儲在磁盤上鸯檬、為保證數(shù)據(jù)安全，文件會有多個(gè)副本

MapReduce

MapReduce是處理大量半結(jié)構(gòu)化數(shù)據(jù)集合的編程模型螺垢。編程模型是一種處理并結(jié)構(gòu)化特定問題的方式喧务。例如，在一個(gè)關(guān)系數(shù)據(jù)庫中枉圃，使用一種集合語言執(zhí)行查詢功茴，如SQL。告訴語言想要的結(jié)果孽亲，并將它提交給系統(tǒng)來計(jì)算出如何產(chǎn)生計(jì)算坎穿。還可以用更傳統(tǒng)的語言(C++，Java)墨林，一步步地來解決問題赁酝。這是兩種不同的編程模型犯祠，MapReduce就是另外一種旭等。

MapReduce和Hadoop是相互獨(dú)立的，實(shí)際上又能相互配合工作得很好衡载。

主從結(jié)構(gòu)

主節(jié)點(diǎn)搔耕，只有一個(gè): JobTracker

從節(jié)點(diǎn)，有很多個(gè): TaskTrackers

JobTracker負(fù)責(zé)：接收客戶提交的計(jì)算任務(wù)痰娱、把計(jì)算任務(wù)分給TaskTrackers執(zhí)行弃榨、監(jiān)控TaskTracker的執(zhí)行情況

TaskTrackers負(fù)責(zé)：執(zhí)行JobTracker分配的計(jì)算任務(wù)

Hadoop能做什么？

大數(shù)據(jù)量存儲：分布式存儲

日志處理: Hadoop擅長這個(gè)

海量計(jì)算: 并行計(jì)算

ETL:數(shù)據(jù)抽取到oracle梨睁、mysql鲸睛、DB2、mongdb及主流數(shù)據(jù)庫

使用HBase做數(shù)據(jù)分析: 用擴(kuò)展性應(yīng)對大量的寫操作—Facebook構(gòu)建了基于HBase的實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)

機(jī)器學(xué)習(xí): 比如Apache Mahout項(xiàng)目

搜索引擎:hadoop + lucene實(shí)現(xiàn)

數(shù)據(jù)挖掘：目前比較流行的廣告推薦

大量地從文件中順序讀坡贺。HDFS對順序讀進(jìn)行了優(yōu)化官辈，代價(jià)是對于隨機(jī)的訪問負(fù)載較高箱舞。

數(shù)據(jù)支持一次寫入，多次讀取拳亿。對于已經(jīng)形成的數(shù)據(jù)的更新不支持晴股。

數(shù)據(jù)不進(jìn)行本地緩存（文件很大，且順序讀沒有局部性）

任何一臺服務(wù)器都有可能失效肺魁，需要通過大量的數(shù)據(jù)復(fù)制使得性能不會受到大的影響电湘。

用戶細(xì)分特征建模

個(gè)性化廣告推薦

智能儀器推薦

擴(kuò)展

實(shí)際應(yīng)用：

Hadoop+HBase建立NoSQL分布式數(shù)據(jù)庫應(yīng)用

Flume+Hadoop+Hive建立離線日志分析系統(tǒng)

Flume+Logstash+Kafka+Spark Streaming進(jìn)行實(shí)時(shí)日志處理分析

酷狗音樂的大數(shù)據(jù)平臺

京東的智能供應(yīng)鏈預(yù)測系統(tǒng)

Hadoop的學(xué)習(xí)不僅僅是學(xué)習(xí)Hadoop，還要學(xué)習(xí)Linux鹅经，網(wǎng)絡(luò)知識寂呛，Java、還有數(shù)據(jù)結(jié)構(gòu)和算法等等瞬雹，所以萬里長征才開始第一步昧谊，希望Hadoop學(xué)習(xí)不是從了解到放棄。

最后編輯于：2017.12.07 02:20:44

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子嘶炭，更是在濱河造成了極大的恐慌琉兜，老刑警劉巖，帶你破解...
沈念sama閱讀 207,113評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件抖僵，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)狗唉，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,644評論 2贊 381
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來涡真，“玉大人分俯，你說我怎么就攤上這事《吡希” “怎么了缸剪？”我有些...
開封第一講書人閱讀 153,340評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長东亦。經(jīng)常有香客問我杏节，道長，這世上最難降的妖魔是什么典阵？我笑而不...
開封第一講書人閱讀 55,449評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任奋渔，我火速辦了婚禮，結(jié)果婚禮上壮啊，老公的妹妹穿的比我還像新娘嫉鲸。我一直安慰自己，他們只是感情好歹啼，可當(dāng)我...
茶點(diǎn)故事閱讀 64,445評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布玄渗。她就那樣靜靜地躺著减江，像睡著了一般。火紅的嫁衣襯著肌膚如雪捻爷。梳的紋絲不亂的頭發(fā)上辈灼，一...
開封第一講書人閱讀 49,166評論 1贊 284
城市分裂傳說
那天，我揣著相機(jī)與錄音也榄，去河邊找鬼巡莹。笑死，一個(gè)胖子當(dāng)著我的面吹牛甜紫，可吹牛的內(nèi)容都是我干的降宅。我是一名探鬼主播，決...
沈念sama閱讀 38,442評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼囚霸，長吁一口氣：“原來是場噩夢啊……” “哼腰根！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起拓型，我...
開封第一講書人閱讀 37,105評論 0贊 261
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤额嘿，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后劣挫，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體册养，經(jīng)...
沈念sama閱讀 43,601評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,066評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年压固，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了球拦。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,161評論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡帐我，死狀恐怖坎炼，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情拦键，我是刑警寧澤谣光，帶...
沈念sama閱讀 33,792評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站矿咕，受9級特大地震影響抢肛，放射性物質(zhì)發(fā)生泄漏狼钮。R本人自食惡果不足惜碳柱，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,351評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望熬芜。院中可真熱鬧莲镣，春花似錦、人聲如沸涎拉。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,352評論 0贊 19
一樁弒父案的圆，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至半火，卻和暖如春越妈，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背钮糖。一陣腳步聲響...
開封第一講書人閱讀 31,584評論 1贊 261
情欲美人皮
我被黑心中介騙來泰國打工梅掠，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人店归。一個(gè)月前我還...
沈念sama閱讀 45,618評論 2贊 355
代替公主和親
正文我出身青樓阎抒，卻偏偏與公主長得像，于是被迫代替她去往敵國和親消痛。傳聞我的和親對象是個(gè)殘疾皇子且叁，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,916評論 2贊 344