Hadoop是低成本高性能的計算框架莲趣,可以處理各種IT和業(yè)務場景中組織對擴展處理能力或者擴展數(shù)據(jù)管理能力的需求鸳慈。下面總結(jié)一下應用需求的特點以及建議選擇的基于Hadoop分布式應用的數(shù)據(jù)管理平臺。
許多公司都在為管理海量數(shù)據(jù)不斷努力喧伞。根據(jù)大數(shù)據(jù)巴士的統(tǒng)計在以前走芋,他們都使用數(shù)據(jù)倉庫平臺,用這種傳統(tǒng)架構(gòu)在處理來自內(nèi)部和外部數(shù)據(jù)源的數(shù)據(jù)時有很大困難潘鲫,這些數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容類型通常非常多樣化翁逞,但Hadoop可以對此場景提供幫助。Hadoop是一款分布式處理架構(gòu)溉仑,專門用來處理復雜的海量大數(shù)據(jù)挖函,處理結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)混雜的場景浊竟。
Hadoop的部分優(yōu)勢在于怨喘,它有許多種開源組件和相關(guān)工具,可以完成數(shù)據(jù)捕獲振定、處理必怜、管理和分析工作。為了幫助用戶利用好該框架后频,許多供應商提供了商業(yè)版Hadoop分布式產(chǎn)品梳庆,它們在Hadoop基礎之上提供了性能和功能方面的擴展,并提供對該框架的維護和支持服務徘郭。
Hadoop分布式應用的案例場景
Hadoop運行在商用服務器集群環(huán)境中靠益,這種環(huán)境通常用來支持數(shù)據(jù)分析而不是聯(lián)機事務處理應用。有幾種更加通用的分析應用案例可以很好地展示Hadoop分布式數(shù)據(jù)處理和并行計算模型:
業(yè)務智能應用要從事務處理系統(tǒng)和組織資產(chǎn)系統(tǒng)中捕獲流式數(shù)據(jù)残揉,監(jiān)視性能水平胧后,應用預測分析做預備維護或者處理變更。
Web分析本來是為了幫助公司理解站點訪問者的在線活動情況抱环,通過檢查Web服務器日志來檢測系統(tǒng)性能問題壳快,發(fā)掘營銷信息纸巷。
安全和風險管理,例如:運行分析模型把事務數(shù)據(jù)與欺詐活動模式知識庫做比較眶痰,利用持續(xù)網(wǎng)絡安全分析識別新出現(xiàn)的可疑行為瘤旨。
營銷優(yōu)化,包括利用大量網(wǎng)絡點擊和在線銷售數(shù)據(jù)竖伯,再結(jié)合客戶檔案信息設計形成推薦引擎提供實時產(chǎn)品捆綁銷售建議存哲。
物聯(lián)網(wǎng)應用,例如從制造業(yè)設備七婴、管道和所謂智能建筑安置的傳感器終端獲取數(shù)據(jù)做分析祟偷,這些傳感器會持續(xù)生成并廣播關(guān)于狀態(tài)和性能的信息。
語義分析和品牌保護打厘,可能需要捕獲流式社交媒體數(shù)據(jù)并分析文本修肠,識別出有意見的客戶提出的問題并快速解決。
大數(shù)據(jù)收集户盯、處理和整合場景嵌施,例如捕獲衛(wèi)星圖像和地理空間數(shù)據(jù)。
數(shù)據(jù)暫存莽鸭,Hadoop用于做第一手數(shù)據(jù)的存儲吗伤,然后才會做整合、清洗和轉(zhuǎn)換為更加結(jié)構(gòu)化的格式蒋川,未來加載到數(shù)據(jù)倉庫或分析數(shù)據(jù)庫用于分析牲芋。
Hadoop分布式應用的實現(xiàn)方式
支持以上這些應用場景的應用都可以基于Hadoop構(gòu)建,可以使用一些典型的實現(xiàn)方法捺球。說明如下:
數(shù)據(jù)湖缸浦。因為Hadoop提供了線性擴展能力,集群架構(gòu)中很容易加入新數(shù)據(jù)節(jié)點做處理和存儲氮兵,因此它提供了非常自然的平臺用于捕獲和管理原始數(shù)據(jù)文件裂逐。基于這一特性泣栈,許多用戶把Hadoop系統(tǒng)用作捕獲所有數(shù)據(jù)的平臺卜高,創(chuàng)造了數(shù)據(jù)湖的概念。
增強的數(shù)據(jù)倉庫平臺南片。Hadoop分布式存儲還可以用于擴展數(shù)據(jù)掺涛,供數(shù)據(jù)倉庫環(huán)境訪問用于分析。最頻繁使用的“熱數(shù)據(jù)”存儲在數(shù)據(jù)倉庫中疼进,而不太頻繁的“冷數(shù)據(jù)”可以提交到更高延時的存儲薪缆,例如Hadoop分布式文件系統(tǒng)。這種方法依賴于數(shù)據(jù)倉庫與Hadoop集成的緊耦合伞广。
大規(guī)模批量計算引擎拣帽。如果配置了數(shù)據(jù)和計算節(jié)點疼电,Hadoop就變成了大規(guī)模并行處理平臺,可以用于批量處理應用做數(shù)據(jù)操作和分析减拭。數(shù)據(jù)標準化就是很好的例子蔽豺,可以對數(shù)據(jù)集應用轉(zhuǎn)換任務為分析做準備。算法驅(qū)動的分析應用(例如數(shù)據(jù)挖掘拧粪、機器學習修陡、模式分析和預測模型)都可以用到Hadoop的批處理能力,因為他們都需要針對海量分布式數(shù)據(jù)文件并行處理既们,并疊加并行處理結(jié)果后提供最終結(jié)果集濒析。
事件流分析處理引擎。Hadoop環(huán)境還可以配置為實時或準實時處理收到的數(shù)據(jù)流啥纸。例如,客戶感受分析應用可以把多個通訊代理并行運行于Hadoop集群上婴氮,每個代理都有一套處理規(guī)則斯棒。
選擇Hadoop的優(yōu)勢:它真的適合你嗎?
Hadoop是低成本高性能的計算框架,可以處理各種IT和業(yè)務場景中組織對擴展處理能力或者擴展數(shù)據(jù)管理能力的需求主经。下面總結(jié)一下應用需求的特點以及建議選擇的基于Hadoop分布式應用的數(shù)據(jù)管理平臺荣暮。
獲取和處理大數(shù)據(jù)規(guī)范集、大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)和流式數(shù)據(jù)罩驻。例如穗酥,捕獲包含數(shù)十億在線事件信息的Web服務器日志;跨不同數(shù)據(jù)集索引億級文檔;從眾多渠道持續(xù)拉取數(shù)據(jù)流(諸如:社交媒體渠道、證券市場數(shù)據(jù)惠遏、新聞發(fā)布源和專家團隊發(fā)布的內(nèi)容等渠道)砾跃。
排除性能障礙的需求。在傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)中节吮,通常會有節(jié)流閥控制對數(shù)據(jù)的訪問抽高、延時、可用性或者貸款限制來保障應用性能透绩,這與需要處理的數(shù)據(jù)量有關(guān)翘骂。
針對性能的線性可擴展性。隨著數(shù)據(jù)量的增長和用戶數(shù)增加帚豪,環(huán)境性能可以隨著計算能力和存儲資源線性擴展是非常關(guān)鍵的能力碳竟,尤其是在應用程序適合并行計算的場景下更是如此。
結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的混合場景狸臣。應用程序需要使用不同數(shù)據(jù)源的數(shù)據(jù)莹桅,包括結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)固棚。例如:文本數(shù)據(jù)或者服務器日志數(shù)據(jù)统翩。
IT成本有效性仙蚜。不需要花費購買高端服務器或者專門的硬件設備,系統(tǒng)架構(gòu)師相信使用正常配置就可以達到可接受的性能厂汗。
Hadoop應用到企業(yè)中
盡管把Hadoop平臺整合到企業(yè)應用中是完全可行的委粉,但使用Hadoop獲益仍然要考慮權(quán)衡。因為許多組織已經(jīng)在傳統(tǒng)數(shù)據(jù)倉庫平臺上做了巨大投資娶桦,因此引入更新的技術(shù)可能會遇到一些阻力贾节。在引入Hadoop分布式產(chǎn)品供應商之前,需要先解決潛在的障礙衷畦,評估集群規(guī)模和配置需求栗涂。
例如,要判斷Hadoop集群如何與組織的數(shù)據(jù)倉庫和分析策略融合祈争,判斷是否可以增強現(xiàn)有數(shù)據(jù)倉庫功能甚至替換它斤程。另外,要判斷整合和交互方面需要處理的問題菩混,審查配置可替代物忿墅,包括是否可以更有利于實施內(nèi)部Hadoop生態(tài)系統(tǒng),或者基于云或者托管環(huán)境沮峡。此外疚脐,要確保你已經(jīng)聘用了具備相應技能的員工或者對現(xiàn)有職員進行再培訓。Hadoop應用開發(fā)與傳統(tǒng)數(shù)據(jù)庫開發(fā)差異是很大的邢疙。