比別人更聰明:大數(shù)據(jù)應用管理
2014-09-14 華融大數(shù)據(jù) 華融世紀大數(shù)據(jù)
如果企業(yè)或組織仍找不到辦法來從大數(shù)據(jù)技術中獲取到商業(yè)價值碉纳,大數(shù)據(jù)可能就逃不掉“來也匆匆芹壕,去也匆匆”的命運。要擺脫這樣的命運您宪,僅有一些數(shù)據(jù)科學家的沙盒分析膀跌、實時分析或基于云存儲可擴展性的技術是不夠的。我們需要開發(fā)出能夠驅動業(yè)務發(fā)展的應用程序屯阀,從而把數(shù)據(jù)轉化為能夠產生實際價值的真實行動缅帘。
如Concurrent的首席技術官Chris Wensel所說的,要從大數(shù)據(jù)中獲取商業(yè)價值难衰,我們的動作必須要足夠快钦无,快人一步地找到一種持續(xù)的、完善的從大數(shù)據(jù)中獲取價值的方法:
“你現(xiàn)在擁有這樣一個機會盖袭,通過純粹的創(chuàng)新就可以讓你與眾不同——不是因為你比別人更有錢失暂,而是因為你比別人更聰明。你已經有了優(yōu)秀的工程師鳄虱。你現(xiàn)在需要的是一些強大的工具以支持你可以更快地把你的產品推向市場弟塞,從而讓你先人一步,與眾不同拙已【黾牵”
Concurrently最近推出了其最新的工具( Driven ),以協(xié)助大數(shù)據(jù)應用的生產和監(jiān)控倍踪,宣稱是世界上第一個針對大數(shù)據(jù)的績效管理產品霉涨。作為一個云服務,在2月4日惭适,Driven開始在它的用戶群中傳播開來笙瑟。它的目的是完善那些運行于Apache Hadoop上的流行的開源大數(shù)據(jù)應用程序開發(fā)框架( Cascading )。
Driven直接影響著大數(shù)據(jù)應用程序產生的商業(yè)價值:
縮短開發(fā)時間:通過Driven詳細的用戶界面癞志,它提供了一種企業(yè)應用(包括綜合的和專用的)進程可視化的方式往枷,這大大提升了研發(fā)速度從而減少了所需花費的時間,可以更快地把應用推向市場凄杯。
加強應用程序的可靠性:因為在開發(fā)階段就能夠方便地看到應用程序的可視化效果错洁,工程師將能夠快速發(fā)現(xiàn)問題,甚至是預見問題戒突,這樣他們在把產品推向市場之前可以創(chuàng)建出更可靠的應用程序屯碴。可視化功能還有助于確定最合適的算法和應用程序指標膊存,以確保得到的結果準確一致导而。
故障排查和優(yōu)化:Driven的可視化功能可以從用戶級別檢查出應用程序的問題——包括被操控的數(shù)據(jù)集有哪些忱叭,有哪些工作負載,以及哪些應用程序正在運行等等今艺。因此韵丑,確定應用程序故障點的進程得到了非常大的加速,操作人員在短短幾分鐘內就能識別出緩慢的時期和優(yōu)化峰值虚缎,而不是像過去那樣得花上幾天或幾周的時間撵彻。Driven 1.0企業(yè)版(預計于第二季度發(fā)布,按年收費)包含了通知功能实牡,可以告訴開發(fā)人員哪些應用程序出故障了陌僵,故障出現(xiàn)什么地方,以及誰在使用這些應用程序创坞。
當Driven與Cascading提供的框架配合使用時拾弃,通過創(chuàng)建加強業(yè)務目標的應用,Driven的管理功能能夠幫助企業(yè)從大數(shù)據(jù)的使用中獲得最大的價值摆霉。
Wensel指出,這種行動超越了單純的見解:“你并不只是向數(shù)據(jù)提出一個問題奔坟,實際上你是在創(chuàng)建產品携栋、模型或是由數(shù)據(jù)衍生出來的一些東西,并且你使用它們來促進你的業(yè)務的發(fā)展”咳秉。
利用好Hadoop
Driven目前只兼容使用Cascading創(chuàng)建的應用程序婉支,后續(xù)的版本將支持Pig和Hive。這其中的一個原因是Cascading的流行度較高澜建,在全球有約6,000項產品部署向挖,其中很多不同行業(yè)的知名公司比如Visa、CBS和百思買等等都使用了Cascading炕舵,另外每月在開源社區(qū)還有超過13萬的下載何之,這主要是由于其對MapReduce和Hadoop的支持(計劃于今年晚些時候將支持Quartz和Sparc)。
此外咽筋,Cascading包括了ANSI SQL JVC驅動器溶推,用戶能夠使用兼容Java與SQL的語言在Hadoop中創(chuàng)建應用程序,另外也可以使用任何第三方工具(如商業(yè)智能和分析平臺)奸攻。通過整合Driven蒜危,開發(fā)人員可以用他們最熟悉的語言設計應用程序,并讓每個編程語句可視化睹耐。這樣的組合使他們能夠利用最流行的框架來訪問大數(shù)據(jù)(Hadoop)辐赞,并查看與業(yè)務關注點直接相關的應用程序細節(jié)的可視化效果:Hadoop集群上的負荷有多大,哪些數(shù)據(jù)正在被訪問硝训,以及多少數(shù)據(jù)消耗正在發(fā)生响委。
最重要的是新思,Driven提供了一定程度的透明度,這增加了它的易用性晃酒。一旦用戶初始連接了Driven所包括的插件表牢,所有的遙測數(shù)據(jù)(如元數(shù)據(jù)和每個特定應用程序的功能或用途的描述)將在應用程序性能管理平臺上可以被訪問,然后用戶可以對其進行可視化操作贝次。Concurrent的首席執(zhí)行官Gary Nakamura指出:
“Cascading的這個計劃的目的是簡化在類似Hadoop的結構上創(chuàng)建數(shù)據(jù)應用程序的過程崔兴。框架所做的事情是把復雜性抽象化蛔翅,所以你可以按業(yè)務邏輯的單位進行思考敲茄;也可以像數(shù)據(jù)集成那樣把內容分離,把每個問題隔離開來作分析山析。然后Cascading將把它們聚合在一起并在Hadoop上運行堰燎。”
付諸行動
雖然大數(shù)據(jù)計劃的目標很大程度上取決于組織的行業(yè)和業(yè)務目標笋轨,不過最常見的大數(shù)據(jù)用例就是利用大數(shù)據(jù)技術以提高廣告收入秆剪。比如,關于情緒的數(shù)據(jù)源多如牛毛爵政,但要對這些數(shù)據(jù)進行分析仅讽,需要使用特別的算法和涉及特定運行程序的分析要求。
Concurrent與Twitter開始合作的一個原因是后者需要為用戶顯示基于各種數(shù)據(jù)的相關的匹配的廣告內容钾挟。其收益部門進入Cascading創(chuàng)建一個API洁灵,這減少了定義工作量的復雜性,也減少了使用領域專用查詢語言整合用戶功能的測試數(shù)據(jù)源〔舫觯現(xiàn)在徽千,收益部門的人員可以根據(jù)最相關的數(shù)據(jù)進行分析,為廣告商選擇出目標消費者汤锨。
Wensel指出了為大數(shù)據(jù)構建應用程序的必要性:
“大數(shù)據(jù)的關鍵是能夠運用不同的算法或一些無法使用SQL或其他的Hadoop語言所能表達的計算方式對數(shù)據(jù)進行處理双抽。如果你是一個基因測序公司,而且你已經有了一個更好的流匹配算法闲礼,你真正想要的是充分發(fā)揮Java的全部能力荠诬,讓Java工程師來解決問題∥蝗剩或者柑贞,你實際上在創(chuàng)建一個商品推薦引擎,創(chuàng)造一個評分模型聂抢,然后把它部署到網站上從而引導人們購買更多的商品钧嘶。沒有現(xiàn)成的工具可以很好的完成這些工作×帐瑁”
智能的應用程序管理
最重要的是有决,Driven的發(fā)布和Cascading在短時間內取得的成功表明闸拿,只有大數(shù)據(jù)的應用程序專門定位于引導商業(yè)的發(fā)展,大數(shù)據(jù)的能動性才能體現(xiàn)出來书幕。正因為有了這樣的應用新荤,分析工作才顯得非常必要。而算法是許多數(shù)據(jù)驅動的進程中不可缺少的組成部分台汇。有了合適的工具苛骨,比如Driven和Cascading,這些以業(yè)務為中心的應用程序使企業(yè)能夠改進產品和服務苟呐,甚至能在競爭對手前面更早地開展這些工作痒芝。越來越多的開源用戶已經意識到了這個事實。而隨著更多的企業(yè)越早的開展這塊的工作牵素,大數(shù)據(jù)將越早地成為主流應用并蓬勃發(fā)展严衬。Nakamura談到這樣一個事實:
“企業(yè)已經在他們的Hadoop需求上投入了大量資金,所以加快云應用在他們的Hadoop集群上的部署并獲得收益笆呆,這對于他們的業(yè)務來說意義重大请琳。確保業(yè)務的可靠性也非常重要,如有需要赠幕,則可根據(jù)業(yè)務需求優(yōu)化應用程序俄精。“