近年大數(shù)據(jù)日益受到人們的關(guān)注损晤,人們在提到大數(shù)據(jù)遇到了很多相關(guān)概念上的問題软棺,比如云計算、 hadoop等等尤勋。那么喘落,大數(shù)據(jù)是什么、Hadoop是什么最冰,大數(shù)據(jù)和Hadoop有什么關(guān)系呢?
大數(shù)據(jù)概念早在1980年瘦棋,著名未來學家阿爾文?托夫勒提出的概念。2009年美國互聯(lián)網(wǎng)數(shù)據(jù)中心證實大數(shù)據(jù)時代的來臨暖哨。隨著谷歌 MapReduce和 GoogleFile System (GFS)的發(fā)布赌朋,大數(shù)據(jù)不再僅用來描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度篇裁。目前定義:大數(shù)據(jù)(big data)沛慢,或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具在合理時間內(nèi)獲取达布、管理团甲、處理、并整理為幫助企業(yè)經(jīng)營決策黍聂。
大數(shù)據(jù)目前分為四大塊:大數(shù)據(jù)技術(shù)躺苦、大數(shù)據(jù)工程身腻、大數(shù)據(jù)科學和大數(shù)據(jù)應用。其中云計算是屬于大數(shù)據(jù)技術(shù)的范疇圾另,是一種通過Internet以服務 的方式提供動態(tài)可伸縮的虛擬化的資源的計算模式霸株。那么這種計算模式如何實現(xiàn)呢,Hadoop的來臨解決了這個問題集乔,Hadoop是Apache(阿帕切) 的一個開源項目去件,它是一個對大量數(shù)據(jù)進行分布式處理的軟件架構(gòu),在這個架構(gòu)下組織的成員HDFS(Hadoop分布式文件系統(tǒng))扰路,MapReduce尤溜、 Hbase 、Zookeeper(一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng))汗唱,hive(基于Hadoop的一個數(shù)據(jù)倉庫工具)等宫莱。
1.云計算屬于大數(shù)據(jù)中的大數(shù)據(jù)技術(shù)范疇。
2.云計算包含大數(shù)據(jù)哩罪。
3.云和大數(shù)據(jù)是兩個領(lǐng)域授霸。
云計算是指利用由大量計算節(jié)點構(gòu)成的可動態(tài)調(diào)整的虛擬化計算資源,通過并行化和分布式計算技術(shù)际插,實現(xiàn)業(yè)務質(zhì)量的可控的大數(shù)據(jù)處理的計算技術(shù)碘耳。而作為云計算技術(shù)中的佼佼者,Hadoop以其低成本和高效率的特性贏得了市場的認可框弛。Hadoop項目名稱來源于創(chuàng)立者Doung Cutting兒子的一個玩具辛辨,一頭黃色的大象。
Hadoop項目的目標是建立一個可擴展開源軟件框架瑟枫,能夠?qū)Υ髷?shù)據(jù)進行可靠的分布式處理斗搞。
Hadoop的框架最核心的設(shè)計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲慷妙,則MapReduce為海量的數(shù)據(jù)提供了計算僻焚。尚學堂陳老師指出HDFS是一個分布式文件系統(tǒng),具有低成本膝擂、高可靠性性虑啤、高吞吐量的特點。MapReduce是一個變成模型和軟件框架猿挚。
簡單理解咐旧,Hadoop是一個開源的大數(shù)據(jù)分析軟件驶鹉,或者說編程模式绩蜻。它是通過分布式的方式處理大數(shù)據(jù)的,因為開元的原因現(xiàn)在很多的企業(yè)或多或少的在運用hadoop的技術(shù)來解決一些大數(shù)據(jù)的問題室埋,在數(shù)據(jù)倉庫方面hadoop是非常強大的办绝。但在數(shù)據(jù)集市以及實時的分析展現(xiàn)層面伊约,hadoop也有著明顯的不足,現(xiàn)在一個比較好的解決方案是架設(shè)hadoop的數(shù)據(jù)倉庫而數(shù)據(jù)集市以及實時分析展現(xiàn)層面使用永洪科技的大數(shù)據(jù)產(chǎn)品孕蝉,能夠很好地解決hadoop 的分時間長以及其他的問題屡律。
Hadoop大數(shù)據(jù)技術(shù)案例
讓Hadoop和其他大數(shù)據(jù)技術(shù)如此引人注目的部分原因是,他們讓企業(yè)找到問題的答案降淮,而在此之前他們甚至不知道問題是什么超埋。這可能會產(chǎn)生引出新產(chǎn)品的想法,或者幫助確定改善運營效率的方法佳鳖。不過霍殴,也有一些已經(jīng)明確的大數(shù)據(jù)用例,無論是互聯(lián)網(wǎng)巨頭如谷歌系吩,F(xiàn)acebook和LinkedIn還是更多的傳統(tǒng)企業(yè)来庭。它們包括:
情感分析: Hadoop與先進的文本分析工具結(jié)合,分析社會化媒體和社交網(wǎng)絡發(fā)布的非結(jié)構(gòu)化的文本穿挨,包括Tweets和Facebook月弛,以確定用戶對特定公司,品牌或產(chǎn)品的情緒科盛。分析既可以專注于宏觀層面的情緒帽衙,也可以細分到個人用戶的情緒。
風險建模: 財務公司土涝、銀行等公司使用Hadoop和下一代數(shù)據(jù)倉庫分析大量交易數(shù)據(jù)佛寿,以確定金融資產(chǎn)的風險,模擬市場行為為潛在的“假設(shè)”方案做準備但壮,并根據(jù)風險為潛在客戶打分冀泻。
欺詐檢測: 金融公司、零售商等使用大數(shù)據(jù)技術(shù)將客戶行為與歷史交易數(shù)據(jù)結(jié)合來檢測欺詐行為蜡饵。例如弹渔,信用卡公司使用大數(shù)據(jù)技術(shù)識別可能的被盜卡的交易行為。
客戶流失分析: 企業(yè)使用Hadoop和大數(shù)據(jù)技術(shù)分析客戶行為數(shù)據(jù)并確定分析模型溯祸,該模型指出哪些客戶最有可能流向存在競爭關(guān)系的供應商或服務商肢专。企業(yè)就能采取最有效的措施挽留欲流失客戶。
用戶體驗分析: 面向消費者的企業(yè)使用Hadoop和其他大數(shù)據(jù)技術(shù)將之前單一 客戶互動渠道(如呼叫中心焦辅,網(wǎng)上聊天博杖,微博等)數(shù)據(jù)整合在一起, 以獲得對客戶體驗的完整視圖筷登。這使企業(yè)能夠了解客戶交互渠道之間的相互影響剃根,從而優(yōu)化整個客戶生命周期的用戶體驗。
當然前方,上述這些都只是大數(shù)據(jù)用例的舉例狈醉。事實上廉油,在所有企業(yè)中大數(shù)據(jù)最引人注目的用例可能尚未被發(fā)現(xiàn)。這就是大數(shù)據(jù)的希望苗傅。