Hadoop真的適合你嗎?

Hadoop是低成本高性能的計算框架莲趣,可以處理各種IT和業(yè)務場景中組織對擴展處理能力或者擴展數(shù)據(jù)管理能力的需求鸳慈。下面總結(jié)一下應用需求的特點以及建議選擇的基于Hadoop分布式應用的數(shù)據(jù)管理平臺。

許多公司都在為管理海量數(shù)據(jù)不斷努力喧伞。根據(jù)大數(shù)據(jù)巴士的統(tǒng)計在以前走芋,他們都使用數(shù)據(jù)倉庫平臺,用這種傳統(tǒng)架構(gòu)在處理來自內(nèi)部和外部數(shù)據(jù)源的數(shù)據(jù)時有很大困難潘鲫,這些數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容類型通常非常多樣化翁逞,但Hadoop可以對此場景提供幫助。Hadoop是一款分布式處理架構(gòu)溉仑,專門用來處理復雜的海量大數(shù)據(jù)挖函,處理結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)混雜的場景浊竟。

Hadoop的部分優(yōu)勢在于怨喘,它有許多種開源組件和相關(guān)工具,可以完成數(shù)據(jù)捕獲振定、處理必怜、管理和分析工作。為了幫助用戶利用好該框架后频,許多供應商提供了商業(yè)版Hadoop分布式產(chǎn)品梳庆,它們在Hadoop基礎之上提供了性能和功能方面的擴展,并提供對該框架的維護和支持服務徘郭。

Hadoop分布式應用的案例場景

Hadoop運行在商用服務器集群環(huán)境中靠益,這種環(huán)境通常用來支持數(shù)據(jù)分析而不是聯(lián)機事務處理應用。有幾種更加通用的分析應用案例可以很好地展示Hadoop分布式數(shù)據(jù)處理和并行計算模型:

業(yè)務智能應用要從事務處理系統(tǒng)和組織資產(chǎn)系統(tǒng)中捕獲流式數(shù)據(jù)残揉,監(jiān)視性能水平胧后,應用預測分析做預備維護或者處理變更。

Web分析本來是為了幫助公司理解站點訪問者的在線活動情況抱环,通過檢查Web服務器日志來檢測系統(tǒng)性能問題壳快,發(fā)掘營銷信息纸巷。

安全和風險管理,例如:運行分析模型把事務數(shù)據(jù)與欺詐活動模式知識庫做比較眶痰,利用持續(xù)網(wǎng)絡安全分析識別新出現(xiàn)的可疑行為瘤旨。

營銷優(yōu)化,包括利用大量網(wǎng)絡點擊和在線銷售數(shù)據(jù)竖伯,再結(jié)合客戶檔案信息設計形成推薦引擎提供實時產(chǎn)品捆綁銷售建議存哲。

物聯(lián)網(wǎng)應用,例如從制造業(yè)設備七婴、管道和所謂智能建筑安置的傳感器終端獲取數(shù)據(jù)做分析祟偷,這些傳感器會持續(xù)生成并廣播關(guān)于狀態(tài)和性能的信息。

語義分析和品牌保護打厘,可能需要捕獲流式社交媒體數(shù)據(jù)并分析文本修肠,識別出有意見的客戶提出的問題并快速解決。

大數(shù)據(jù)收集户盯、處理和整合場景嵌施,例如捕獲衛(wèi)星圖像和地理空間數(shù)據(jù)。

數(shù)據(jù)暫存莽鸭,Hadoop用于做第一手數(shù)據(jù)的存儲吗伤,然后才會做整合、清洗和轉(zhuǎn)換為更加結(jié)構(gòu)化的格式蒋川,未來加載到數(shù)據(jù)倉庫或分析數(shù)據(jù)庫用于分析牲芋。

Hadoop分布式應用的實現(xiàn)方式

支持以上這些應用場景的應用都可以基于Hadoop構(gòu)建,可以使用一些典型的實現(xiàn)方法捺球。說明如下:

數(shù)據(jù)湖缸浦。因為Hadoop提供了線性擴展能力,集群架構(gòu)中很容易加入新數(shù)據(jù)節(jié)點做處理和存儲氮兵,因此它提供了非常自然的平臺用于捕獲和管理原始數(shù)據(jù)文件裂逐。基于這一特性泣栈,許多用戶把Hadoop系統(tǒng)用作捕獲所有數(shù)據(jù)的平臺卜高,創(chuàng)造了數(shù)據(jù)湖的概念。

增強的數(shù)據(jù)倉庫平臺南片。Hadoop分布式存儲還可以用于擴展數(shù)據(jù)掺涛,供數(shù)據(jù)倉庫環(huán)境訪問用于分析。最頻繁使用的“熱數(shù)據(jù)”存儲在數(shù)據(jù)倉庫中疼进,而不太頻繁的“冷數(shù)據(jù)”可以提交到更高延時的存儲薪缆,例如Hadoop分布式文件系統(tǒng)。這種方法依賴于數(shù)據(jù)倉庫與Hadoop集成的緊耦合伞广。

大規(guī)模批量計算引擎拣帽。如果配置了數(shù)據(jù)和計算節(jié)點疼电,Hadoop就變成了大規(guī)模并行處理平臺,可以用于批量處理應用做數(shù)據(jù)操作和分析减拭。數(shù)據(jù)標準化就是很好的例子蔽豺,可以對數(shù)據(jù)集應用轉(zhuǎn)換任務為分析做準備。算法驅(qū)動的分析應用(例如數(shù)據(jù)挖掘拧粪、機器學習修陡、模式分析和預測模型)都可以用到Hadoop的批處理能力,因為他們都需要針對海量分布式數(shù)據(jù)文件并行處理既们,并疊加并行處理結(jié)果后提供最終結(jié)果集濒析。

事件流分析處理引擎。Hadoop環(huán)境還可以配置為實時或準實時處理收到的數(shù)據(jù)流啥纸。例如,客戶感受分析應用可以把多個通訊代理并行運行于Hadoop集群上婴氮,每個代理都有一套處理規(guī)則斯棒。

選擇Hadoop的優(yōu)勢:它真的適合你嗎?

Hadoop是低成本高性能的計算框架,可以處理各種IT和業(yè)務場景中組織對擴展處理能力或者擴展數(shù)據(jù)管理能力的需求主经。下面總結(jié)一下應用需求的特點以及建議選擇的基于Hadoop分布式應用的數(shù)據(jù)管理平臺荣暮。

獲取和處理大數(shù)據(jù)規(guī)范集、大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)和流式數(shù)據(jù)罩驻。例如穗酥,捕獲包含數(shù)十億在線事件信息的Web服務器日志;跨不同數(shù)據(jù)集索引億級文檔;從眾多渠道持續(xù)拉取數(shù)據(jù)流(諸如:社交媒體渠道、證券市場數(shù)據(jù)惠遏、新聞發(fā)布源和專家團隊發(fā)布的內(nèi)容等渠道)砾跃。

排除性能障礙的需求。在傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)中节吮,通常會有節(jié)流閥控制對數(shù)據(jù)的訪問抽高、延時、可用性或者貸款限制來保障應用性能透绩,這與需要處理的數(shù)據(jù)量有關(guān)翘骂。

針對性能的線性可擴展性。隨著數(shù)據(jù)量的增長和用戶數(shù)增加帚豪,環(huán)境性能可以隨著計算能力和存儲資源線性擴展是非常關(guān)鍵的能力碳竟,尤其是在應用程序適合并行計算的場景下更是如此。

結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的混合場景狸臣。應用程序需要使用不同數(shù)據(jù)源的數(shù)據(jù)莹桅,包括結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)固棚。例如:文本數(shù)據(jù)或者服務器日志數(shù)據(jù)统翩。

IT成本有效性仙蚜。不需要花費購買高端服務器或者專門的硬件設備,系統(tǒng)架構(gòu)師相信使用正常配置就可以達到可接受的性能厂汗。

Hadoop應用到企業(yè)中

盡管把Hadoop平臺整合到企業(yè)應用中是完全可行的委粉,但使用Hadoop獲益仍然要考慮權(quán)衡。因為許多組織已經(jīng)在傳統(tǒng)數(shù)據(jù)倉庫平臺上做了巨大投資娶桦,因此引入更新的技術(shù)可能會遇到一些阻力贾节。在引入Hadoop分布式產(chǎn)品供應商之前,需要先解決潛在的障礙衷畦,評估集群規(guī)模和配置需求栗涂。

例如,要判斷Hadoop集群如何與組織的數(shù)據(jù)倉庫和分析策略融合祈争,判斷是否可以增強現(xiàn)有數(shù)據(jù)倉庫功能甚至替換它斤程。另外,要判斷整合和交互方面需要處理的問題菩混,審查配置可替代物忿墅,包括是否可以更有利于實施內(nèi)部Hadoop生態(tài)系統(tǒng),或者基于云或者托管環(huán)境沮峡。此外疚脐,要確保你已經(jīng)聘用了具備相應技能的員工或者對現(xiàn)有職員進行再培訓。Hadoop應用開發(fā)與傳統(tǒng)數(shù)據(jù)庫開發(fā)差異是很大的邢疙。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末棍弄,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子疟游,更是在濱河造成了極大的恐慌呼畸,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,284評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件乡摹,死亡現(xiàn)場離奇詭異役耕,居然都是意外死亡,警方通過查閱死者的電腦和手機聪廉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評論 3 395
  • 文/潘曉璐 我一進店門瞬痘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人板熊,你說我怎么就攤上這事框全。” “怎么了干签?”我有些...
    開封第一講書人閱讀 164,614評論 0 354
  • 文/不壞的土叔 我叫張陵津辩,是天一觀的道長。 經(jīng)常有香客問我,道長喘沿,這世上最難降的妖魔是什么闸度? 我笑而不...
    開封第一講書人閱讀 58,671評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮蚜印,結(jié)果婚禮上莺禁,老公的妹妹穿的比我還像新娘。我一直安慰自己窄赋,他們只是感情好哟冬,可當我...
    茶點故事閱讀 67,699評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著忆绰,像睡著了一般浩峡。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上错敢,一...
    開封第一講書人閱讀 51,562評論 1 305
  • 那天翰灾,我揣著相機與錄音,去河邊找鬼伐债。 笑死预侯,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的峰锁。 我是一名探鬼主播,決...
    沈念sama閱讀 40,309評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼双戳,長吁一口氣:“原來是場噩夢啊……” “哼虹蒋!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起飒货,我...
    開封第一講書人閱讀 39,223評論 0 276
  • 序言:老撾萬榮一對情侶失蹤魄衅,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后塘辅,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體晃虫,經(jīng)...
    沈念sama閱讀 45,668評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,859評論 3 336
  • 正文 我和宋清朗相戀三年扣墩,在試婚紗的時候發(fā)現(xiàn)自己被綠了哲银。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,981評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡呻惕,死狀恐怖荆责,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情亚脆,我是刑警寧澤做院,帶...
    沈念sama閱讀 35,705評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響键耕,放射性物質(zhì)發(fā)生泄漏寺滚。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,310評論 3 330
  • 文/蒙蒙 一屈雄、第九天 我趴在偏房一處隱蔽的房頂上張望村视。 院中可真熱鬧,春花似錦棚亩、人聲如沸蓖议。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽勒虾。三九已至,卻和暖如春瘸彤,著一層夾襖步出監(jiān)牢的瞬間修然,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評論 1 270
  • 我被黑心中介騙來泰國打工质况, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留愕宋,地道東北人。 一個月前我還...
    沈念sama閱讀 48,146評論 3 370
  • 正文 我出身青樓结榄,卻偏偏與公主長得像中贝,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子臼朗,可洞房花燭夜當晚...
    茶點故事閱讀 44,933評論 2 355

推薦閱讀更多精彩內(nèi)容