在互聯(lián)網(wǎng)的世界中數(shù)據(jù)都是以TB、PB的數(shù)量級來增加的棕硫,特別是像BAT光每天的日志文件一個(gè)盤都不夠髓涯,更何況是還要基于這些數(shù)據(jù)進(jìn)行分析挖掘,更甚者還要實(shí)時(shí)進(jìn)行數(shù)據(jù)分析哈扮,學(xué)習(xí)纬纪,如雙十一淘寶的交易量的實(shí)時(shí)展示。
大數(shù)據(jù)什么叫大滑肉?4個(gè)特征:
體量化 Volume包各,就是量大。
多樣化 Variety靶庙,可能是結(jié)構(gòu)型的數(shù)據(jù)问畅,也可能是非結(jié)構(gòu)行的文本,圖片,視頻护姆,語音矾端,日志,郵件等
快速化 Velocity卵皂,產(chǎn)生快秩铆,處理也需要快。
價(jià)值密度低 Value灯变,數(shù)據(jù)量大殴玛,但單個(gè)數(shù)據(jù)沒什么意義,需要宏觀的統(tǒng)計(jì)體現(xiàn)其隱藏的價(jià)值添祸。
可以看出想只要一臺強(qiáng)大的服務(wù)器來實(shí)時(shí)處理這種體量的數(shù)據(jù)那是不可能的滚粟,而且成本昂貴,代價(jià)相當(dāng)大刃泌,普通的關(guān)系型數(shù)據(jù)庫也隨著數(shù)據(jù)量的增大其處理時(shí)間也隨之增加凡壤,那客戶是不可能忍受的,所以我們需要Hadoop來解決此問題蔬咬。
優(yōu)點(diǎn):
Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺。用戶可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序沐寺。它主要有以下幾個(gè)優(yōu)點(diǎn):
高可靠性林艘。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。
高擴(kuò)展性混坞。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的狐援,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
高效性究孕。Hadoop能夠在節(jié)點(diǎn)之間動態(tài)地移動數(shù)據(jù)啥酱,并保證各個(gè)節(jié)點(diǎn)的動態(tài)平衡,因此處理速度非吵睿快镶殷。
高容錯(cuò)性。Hadoop能夠自動保存數(shù)據(jù)的多個(gè)副本微酬,并且能夠自動將失敗的任務(wù)重新分配绘趋。
低成本。與一體機(jī)颗管、商用數(shù)據(jù)倉庫以及QlikView陷遮、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的垦江,項(xiàng)目的軟件成本因此會大大降低帽馋。
Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢。Hadoop的分布式架構(gòu)绽族,將大數(shù)據(jù)處理引擎盡可能的靠近存儲姨涡,對例如像ETL這樣的批處理操作相對合適,因?yàn)轭愃七@樣操作的批處理結(jié)果可以直接走向存儲项秉。Hadoop的MapReduce功能實(shí)現(xiàn)了將單個(gè)任務(wù)打碎绣溜,并將碎片任務(wù)(Map)發(fā)送到多個(gè)節(jié)點(diǎn)上,之后再以單個(gè)數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉庫里娄蔼。
Hadoop在各應(yīng)用中是最底層怖喻,最基礎(chǔ)的組件,所以其重要性不言而喻岁诉。
框架結(jié)構(gòu)
Hadoop主要由HDFS ( 分布式文件系統(tǒng))和MapReduce (并行計(jì)算框架)組成锚沸。
Hadoop 由許多元素構(gòu)成。其最底部是 Hadoop Distributed File System(HDFS)涕癣,它存儲 Hadoop 集群中所有存儲節(jié)點(diǎn)上的文件哗蜈。HDFS(對于本文)的上一層是MapReduce?引擎,該引擎由 JobTrackers 和 TaskTrackers 組成坠韩。通過對Hadoop分布式計(jì)算平臺最核心的分布式文件系統(tǒng)HDFS距潘、MapReduce處理過程,以及數(shù)據(jù)倉庫工具Hive和分布式數(shù)據(jù)庫Hbase的介紹只搁,基本涵蓋了Hadoop分布式平臺的所有技術(shù)核心音比。
HDFS
對外部客戶機(jī)而言,HDFS就像一個(gè)傳統(tǒng)的分級文件系統(tǒng)氢惋《呆妫可以創(chuàng)建、刪除焰望、移動或重命名文件骚亿,等等。但是 HDFS 的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的熊赖,這是由它自身的特點(diǎn)決定的来屠。這些節(jié)點(diǎn)包括 NameNode(僅一個(gè)),它在 HDFS 內(nèi)部提供元數(shù)據(jù)服務(wù)震鹉;DataNode的妖,它為 HDFS 提供存儲塊。由于僅存在一個(gè) NameNode足陨,因此這是 HDFS 的一個(gè)缺點(diǎn)(單點(diǎn)失斏┧凇)。
存儲在 HDFS 中的文件被分成塊墨缘,然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中(DataNode)星虹。這與傳統(tǒng)的 RAID 架構(gòu)大不相同零抬。塊的大小(通常為 64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定宽涌。NameNode 可以控制所有文件操作平夜。HDFS 內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的?TCP/IP?協(xié)議。
單節(jié)點(diǎn)物理結(jié)構(gòu)
主從結(jié)構(gòu)
主節(jié)點(diǎn)卸亮,只有一個(gè): namenode
從節(jié)點(diǎn)忽妒,有很多個(gè): datanodes
namenode負(fù)責(zé):接收用戶操作請求 、維護(hù)文件系統(tǒng)的目錄結(jié)構(gòu)兼贸、管理文件與block之間關(guān)系段直,block與datanode之間關(guān)系
NameNode 是一個(gè)通常在?HDFS?實(shí)例中的單獨(dú)機(jī)器上運(yùn)行的軟件。它負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問溶诞。
datanode負(fù)責(zé):存儲文件文件被分成block存儲在磁盤上鸯檬、為保證數(shù)據(jù)安全,文件會有多個(gè)副本
MapReduce
MapReduce是處理大量半結(jié)構(gòu)化數(shù)據(jù)集合的編程模型螺垢。編程模型是一種處理并結(jié)構(gòu)化特定問題的方式喧务。例如,在一個(gè)關(guān)系數(shù)據(jù)庫中枉圃,使用一種集合語言執(zhí)行查詢功茴,如SQL。告訴語言想要的結(jié)果孽亲,并將它提交給系統(tǒng)來計(jì)算出如何產(chǎn)生計(jì)算坎穿。還可以用更傳統(tǒng)的語言(C++,Java)墨林,一步步地來解決問題赁酝。這是兩種不同的編程模型犯祠,MapReduce就是另外一種旭等。
MapReduce和Hadoop是相互獨(dú)立的,實(shí)際上又能相互配合工作得很好衡载。
主從結(jié)構(gòu)
主節(jié)點(diǎn)搔耕,只有一個(gè): JobTracker
從節(jié)點(diǎn),有很多個(gè): TaskTrackers
JobTracker負(fù)責(zé):接收客戶提交的計(jì)算任務(wù)痰娱、把計(jì)算任務(wù)分給TaskTrackers執(zhí)行弃榨、監(jiān)控TaskTracker的執(zhí)行情況
TaskTrackers負(fù)責(zé):執(zhí)行JobTracker分配的計(jì)算任務(wù)
Hadoop能做什么?
大數(shù)據(jù)量存儲:分布式存儲
日志處理: Hadoop擅長這個(gè)
海量計(jì)算: 并行計(jì)算
ETL:數(shù)據(jù)抽取到oracle梨睁、mysql鲸睛、DB2、mongdb及主流數(shù)據(jù)庫
使用HBase做數(shù)據(jù)分析: 用擴(kuò)展性應(yīng)對大量的寫操作—Facebook構(gòu)建了基于HBase的實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)
機(jī)器學(xué)習(xí): 比如Apache Mahout項(xiàng)目
搜索引擎:hadoop + lucene實(shí)現(xiàn)
數(shù)據(jù)挖掘:目前比較流行的廣告推薦
大量地從文件中順序讀坡贺。HDFS對順序讀進(jìn)行了優(yōu)化官辈,代價(jià)是對于隨機(jī)的訪問負(fù)載較高箱舞。
數(shù)據(jù)支持一次寫入,多次讀取拳亿。對于已經(jīng)形成的數(shù)據(jù)的更新不支持晴股。
數(shù)據(jù)不進(jìn)行本地緩存(文件很大,且順序讀沒有局部性)
任何一臺服務(wù)器都有可能失效肺魁,需要通過大量的數(shù)據(jù)復(fù)制使得性能不會受到大的影響电湘。
用戶細(xì)分特征建模
個(gè)性化廣告推薦
智能儀器推薦
擴(kuò)展
實(shí)際應(yīng)用:
Hadoop+HBase建立NoSQL分布式數(shù)據(jù)庫應(yīng)用
Flume+Hadoop+Hive建立離線日志分析系統(tǒng)
Flume+Logstash+Kafka+Spark Streaming進(jìn)行實(shí)時(shí)日志處理分析
酷狗音樂的大數(shù)據(jù)平臺
京東的智能供應(yīng)鏈預(yù)測系統(tǒng)
Hadoop的學(xué)習(xí)不僅僅是學(xué)習(xí)Hadoop,還要學(xué)習(xí)Linux鹅经,網(wǎng)絡(luò)知識寂呛,Java、還有數(shù)據(jù)結(jié)構(gòu)和算法等等瞬雹,所以萬里長征才開始第一步昧谊,希望Hadoop學(xué)習(xí)不是從了解到放棄。