Hadoop真的適合你嗎？

Hadoop是低成本高性能的計算框架莲趣，可以處理各種IT和業(yè)務場景中組織對擴展處理能力或者擴展數(shù)據(jù)管理能力的需求鸳慈。下面總結(jié)一下應用需求的特點以及建議選擇的基于Hadoop分布式應用的數(shù)據(jù)管理平臺。

許多公司都在為管理海量數(shù)據(jù)不斷努力喧伞。根據(jù)大數(shù)據(jù)巴士的統(tǒng)計在以前走芋，他們都使用數(shù)據(jù)倉庫平臺，用這種傳統(tǒng)架構(gòu)在處理來自內(nèi)部和外部數(shù)據(jù)源的數(shù)據(jù)時有很大困難潘鲫，這些數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容類型通常非常多樣化翁逞，但Hadoop可以對此場景提供幫助。Hadoop是一款分布式處理架構(gòu)溉仑，專門用來處理復雜的海量大數(shù)據(jù)挖函，處理結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)混雜的場景浊竟。

Hadoop的部分優(yōu)勢在于怨喘，它有許多種開源組件和相關(guān)工具，可以完成數(shù)據(jù)捕獲振定、處理必怜、管理和分析工作。為了幫助用戶利用好該框架后频，許多供應商提供了商業(yè)版Hadoop分布式產(chǎn)品梳庆，它們在Hadoop基礎之上提供了性能和功能方面的擴展，并提供對該框架的維護和支持服務徘郭。

Hadoop分布式應用的案例場景

Hadoop運行在商用服務器集群環(huán)境中靠益，這種環(huán)境通常用來支持數(shù)據(jù)分析而不是聯(lián)機事務處理應用。有幾種更加通用的分析應用案例可以很好地展示Hadoop分布式數(shù)據(jù)處理和并行計算模型：

業(yè)務智能應用要從事務處理系統(tǒng)和組織資產(chǎn)系統(tǒng)中捕獲流式數(shù)據(jù)残揉，監(jiān)視性能水平胧后，應用預測分析做預備維護或者處理變更。

Web分析本來是為了幫助公司理解站點訪問者的在線活動情況抱环，通過檢查Web服務器日志來檢測系統(tǒng)性能問題壳快，發(fā)掘營銷信息纸巷。

安全和風險管理，例如：運行分析模型把事務數(shù)據(jù)與欺詐活動模式知識庫做比較眶痰，利用持續(xù)網(wǎng)絡安全分析識別新出現(xiàn)的可疑行為瘤旨。

營銷優(yōu)化，包括利用大量網(wǎng)絡點擊和在線銷售數(shù)據(jù)竖伯，再結(jié)合客戶檔案信息設計形成推薦引擎提供實時產(chǎn)品捆綁銷售建議存哲。

物聯(lián)網(wǎng)應用，例如從制造業(yè)設備七婴、管道和所謂智能建筑安置的傳感器終端獲取數(shù)據(jù)做分析祟偷，這些傳感器會持續(xù)生成并廣播關(guān)于狀態(tài)和性能的信息。

語義分析和品牌保護打厘，可能需要捕獲流式社交媒體數(shù)據(jù)并分析文本修肠，識別出有意見的客戶提出的問題并快速解決。

大數(shù)據(jù)收集户盯、處理和整合場景嵌施，例如捕獲衛(wèi)星圖像和地理空間數(shù)據(jù)。

數(shù)據(jù)暫存莽鸭，Hadoop用于做第一手數(shù)據(jù)的存儲吗伤，然后才會做整合、清洗和轉(zhuǎn)換為更加結(jié)構(gòu)化的格式蒋川，未來加載到數(shù)據(jù)倉庫或分析數(shù)據(jù)庫用于分析牲芋。

Hadoop分布式應用的實現(xiàn)方式

支持以上這些應用場景的應用都可以基于Hadoop構(gòu)建，可以使用一些典型的實現(xiàn)方法捺球。說明如下：

數(shù)據(jù)湖缸浦。因為Hadoop提供了線性擴展能力，集群架構(gòu)中很容易加入新數(shù)據(jù)節(jié)點做處理和存儲氮兵，因此它提供了非常自然的平臺用于捕獲和管理原始數(shù)據(jù)文件裂逐。基于這一特性泣栈，許多用戶把Hadoop系統(tǒng)用作捕獲所有數(shù)據(jù)的平臺卜高，創(chuàng)造了數(shù)據(jù)湖的概念。

增強的數(shù)據(jù)倉庫平臺南片。Hadoop分布式存儲還可以用于擴展數(shù)據(jù)掺涛，供數(shù)據(jù)倉庫環(huán)境訪問用于分析。最頻繁使用的“熱數(shù)據(jù)”存儲在數(shù)據(jù)倉庫中疼进，而不太頻繁的“冷數(shù)據(jù)”可以提交到更高延時的存儲薪缆，例如Hadoop分布式文件系統(tǒng)。這種方法依賴于數(shù)據(jù)倉庫與Hadoop集成的緊耦合伞广。

大規(guī)模批量計算引擎拣帽。如果配置了數(shù)據(jù)和計算節(jié)點疼电，Hadoop就變成了大規(guī)模并行處理平臺，可以用于批量處理應用做數(shù)據(jù)操作和分析减拭。數(shù)據(jù)標準化就是很好的例子蔽豺，可以對數(shù)據(jù)集應用轉(zhuǎn)換任務為分析做準備。算法驅(qū)動的分析應用(例如數(shù)據(jù)挖掘拧粪、機器學習修陡、模式分析和預測模型)都可以用到Hadoop的批處理能力，因為他們都需要針對海量分布式數(shù)據(jù)文件并行處理既们，并疊加并行處理結(jié)果后提供最終結(jié)果集濒析。

事件流分析處理引擎。Hadoop環(huán)境還可以配置為實時或準實時處理收到的數(shù)據(jù)流啥纸。例如，客戶感受分析應用可以把多個通訊代理并行運行于Hadoop集群上婴氮，每個代理都有一套處理規(guī)則斯棒。

選擇Hadoop的優(yōu)勢：它真的適合你嗎?

Hadoop是低成本高性能的計算框架，可以處理各種IT和業(yè)務場景中組織對擴展處理能力或者擴展數(shù)據(jù)管理能力的需求主经。下面總結(jié)一下應用需求的特點以及建議選擇的基于Hadoop分布式應用的數(shù)據(jù)管理平臺荣暮。

獲取和處理大數(shù)據(jù)規(guī)范集、大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)和流式數(shù)據(jù)罩驻。例如穗酥，捕獲包含數(shù)十億在線事件信息的Web服務器日志;跨不同數(shù)據(jù)集索引億級文檔;從眾多渠道持續(xù)拉取數(shù)據(jù)流(諸如：社交媒體渠道、證券市場數(shù)據(jù)惠遏、新聞發(fā)布源和專家團隊發(fā)布的內(nèi)容等渠道)砾跃。

排除性能障礙的需求。在傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)中节吮，通常會有節(jié)流閥控制對數(shù)據(jù)的訪問抽高、延時、可用性或者貸款限制來保障應用性能透绩，這與需要處理的數(shù)據(jù)量有關(guān)翘骂。

針對性能的線性可擴展性。隨著數(shù)據(jù)量的增長和用戶數(shù)增加帚豪，環(huán)境性能可以隨著計算能力和存儲資源線性擴展是非常關(guān)鍵的能力碳竟，尤其是在應用程序適合并行計算的場景下更是如此。

結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的混合場景狸臣。應用程序需要使用不同數(shù)據(jù)源的數(shù)據(jù)莹桅，包括結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)固棚。例如：文本數(shù)據(jù)或者服務器日志數(shù)據(jù)统翩。

IT成本有效性仙蚜。不需要花費購買高端服務器或者專門的硬件設備，系統(tǒng)架構(gòu)師相信使用正常配置就可以達到可接受的性能厂汗。

Hadoop應用到企業(yè)中

盡管把Hadoop平臺整合到企業(yè)應用中是完全可行的委粉，但使用Hadoop獲益仍然要考慮權(quán)衡。因為許多組織已經(jīng)在傳統(tǒng)數(shù)據(jù)倉庫平臺上做了巨大投資娶桦，因此引入更新的技術(shù)可能會遇到一些阻力贾节。在引入Hadoop分布式產(chǎn)品供應商之前，需要先解決潛在的障礙衷畦，評估集群規(guī)模和配置需求栗涂。

例如，要判斷Hadoop集群如何與組織的數(shù)據(jù)倉庫和分析策略融合祈争，判斷是否可以增強現(xiàn)有數(shù)據(jù)倉庫功能甚至替換它斤程。另外，要判斷整合和交互方面需要處理的問題菩混，審查配置可替代物忿墅，包括是否可以更有利于實施內(nèi)部Hadoop生態(tài)系統(tǒng)，或者基于云或者托管環(huán)境沮峡。此外疚脐，要確保你已經(jīng)聘用了具備相應技能的員工或者對現(xiàn)有職員進行再培訓。Hadoop應用開發(fā)與傳統(tǒng)數(shù)據(jù)庫開發(fā)差異是很大的邢疙。

最后編輯于：2017.12.04 01:28:32

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末棍弄，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子疟游，更是在濱河造成了極大的恐慌呼畸，老刑警劉巖，帶你破解...
沈念sama閱讀 218,284評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件乡摹，死亡現(xiàn)場離奇詭異役耕，居然都是意外死亡，警方通過查閱死者的電腦和手機聪廉，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,115評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門瞬痘，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人板熊，你說我怎么就攤上這事框全。” “怎么了干签？”我有些...
開封第一講書人閱讀 164,614評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵津辩，是天一觀的道長。經(jīng)常有香客問我，道長喘沿，這世上最難降的妖魔是什么闸度？我笑而不...
開封第一講書人閱讀 58,671評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮蚜印，結(jié)果婚禮上莺禁，老公的妹妹穿的比我還像新娘。我一直安慰自己窄赋，他們只是感情好哟冬，可當我...
茶點故事閱讀 67,699評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著忆绰，像睡著了一般浩峡。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上错敢，一...
開封第一講書人閱讀 51,562評論 1贊 305
城市分裂傳說
那天翰灾，我揣著相機與錄音，去河邊找鬼伐债。笑死预侯，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的峰锁。我是一名探鬼主播，決...
沈念sama閱讀 40,309評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼双戳，長吁一口氣：“原來是場噩夢啊……” “哼虹蒋！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起飒货，我...
開封第一講書人閱讀 39,223評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤魄衅，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后塘辅，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體晃虫，經(jīng)...
沈念sama閱讀 45,668評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,859評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年扣墩，在試婚紗的時候發(fā)現(xiàn)自己被綠了哲银。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,981評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡呻惕，死狀恐怖荆责，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情亚脆，我是刑警寧澤做院，帶...
沈念sama閱讀 35,705評論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響键耕，放射性物質(zhì)發(fā)生泄漏寺滚。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,310評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一屈雄、第九天我趴在偏房一處隱蔽的房頂上張望村视。院中可真熱鬧，春花似錦棚亩、人聲如沸蓖议。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,904評論 0贊 22
一樁弒父案讥蟆，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽勒虾。三九已至，卻和暖如春瘸彤，著一層夾襖步出監(jiān)牢的瞬間修然，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,023評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工质况，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留愕宋，地道東北人。一個月前我還...
沈念sama閱讀 48,146評論 3贊 370
代替公主和親
正文我出身青樓结榄，卻偏偏與公主長得像中贝，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子臼朗，可洞房花燭夜當晚...
茶點故事閱讀 44,933評論 2贊 355

Hadoop真的適合你嗎芹枷？

Hadoop真的適合你嗎？

推薦閱讀更多精彩內(nèi)容