從0到N建立高性價(jià)比的大數(shù)據(jù)平臺(tái)

今天和大家分享的內(nèi)容主要就是怎么樣從0到N來建一個(gè)大數(shù)據(jù)平臺(tái)侨拦。其實(shí)稠通,每一個(gè)大數(shù)據(jù)平臺(tái)都不是憑空而起的层坠,每個(gè)企業(yè)剛剛開始數(shù)據(jù)分析的時(shí)候殖妇,也不是上來就是一個(gè)大數(shù)據(jù)開源平臺(tái)Hadoop、Spark這樣一個(gè)存儲(chǔ)的破花。今天分享的內(nèi)容谦趣,其實(shí)是根據(jù)企業(yè)發(fā)展的不同階段,針對(duì)業(yè)務(wù)的需求來選擇不同的大數(shù)據(jù)架構(gòu)座每,配置不同規(guī)模的數(shù)據(jù)處理人員前鹅,根據(jù)企業(yè)不同的時(shí)間點(diǎn),幫助企業(yè)從0到N峭梳,建立高性價(jià)比的大數(shù)據(jù)平臺(tái)舰绘。

從0到N——數(shù)據(jù)大時(shí)代的劃分


第一個(gè)先說從0到N大數(shù)據(jù)的時(shí)代劃分,其實(shí)大數(shù)據(jù)時(shí)代不是現(xiàn)在才開始的葱椭,它早在以前就開始了捂寿,只不過那時(shí)候不叫大數(shù)據(jù),在最開始的時(shí)候叫數(shù)據(jù)倉(cāng)庫(kù)孵运。十年前秦陋,它在做企業(yè)內(nèi)部的ERP、CRM的相對(duì)的一些集成治笨。然后把里面做一些BI的分析報(bào)表驳概,做一些數(shù)據(jù)挖掘。那個(gè)時(shí)候最著名的例子應(yīng)該是啤酒和尿片的故事旷赖,就是關(guān)聯(lián)數(shù)據(jù)挖掘能分析出來顺又,周末男人經(jīng)常去買尿片和啤酒故事。到后來互聯(lián)網(wǎng)的出現(xiàn)大數(shù)據(jù)進(jìn)入了Web2.0時(shí)代杠愧。在過去大家只是拿到一些用戶結(jié)構(gòu)化的交易信息和用戶的聯(lián)系信息待榔,現(xiàn)在可以獲得每一個(gè)人上網(wǎng)的點(diǎn)擊流的信息逞壁,根據(jù)你的點(diǎn)擊的情況做一些推薦流济。包括一些現(xiàn)在的猜你喜歡和搜索引擎排名锐锣,這些都是在Web2.0時(shí)候基于你在點(diǎn)擊流的大數(shù)據(jù)的檢索和大數(shù)據(jù)的一些處理。第三個(gè)階段绳瘟,現(xiàn)在我們所處的階段雕憔,我認(rèn)為就是IoT O2O時(shí)代,現(xiàn)在大家一講到大數(shù)據(jù)糖声,其實(shí)不僅僅包括了上網(wǎng)的行為日志斤彼,還包括像現(xiàn)在智能Wi-Fi與智能POS(感知在線下,一個(gè)在逛商場(chǎng)的時(shí)候蘸泻,你在哪里停留了琉苇,停了多久,進(jìn)了哪家店悦施,吃了什么東西并扇,唱了什么歌,看了什么電影這樣的數(shù)據(jù))把這些東西全部能收上來抡诞。還包括像現(xiàn)在的一些可穿戴的設(shè)備穷蛹,去檢測(cè)你的健康信息,也包括圖象的識(shí)別昼汗、錄像的分析肴熏,這些都是在現(xiàn)在這個(gè)時(shí)代大數(shù)據(jù)囊括的內(nèi)容。

大家能感覺到顷窒,隨著大數(shù)據(jù)時(shí)代的發(fā)展蛙吏,從1.0,2.0到現(xiàn)在3.0蹋肮,它離消費(fèi)者的距離是越來越近了出刷,過去原來都是高高在上,數(shù)據(jù)結(jié)果都是在相關(guān)的企業(yè)決策者的眼里坯辩,而現(xiàn)在其實(shí)我們都可以把它穿戴在身上馁龟,從手機(jī)上就能看到一些相關(guān)的數(shù)據(jù)的分析和相關(guān)的結(jié)果,整個(gè)數(shù)據(jù)對(duì)業(yè)務(wù)的影響力也是由弱慢慢變強(qiáng)漆魔,現(xiàn)在基本上如果一個(gè)企業(yè)沒有一個(gè)數(shù)據(jù)決策坷檩,這個(gè)企業(yè)很難去運(yùn)轉(zhuǎn)。

從0到N——大數(shù)據(jù)時(shí)代企業(yè)劃分


說過大數(shù)據(jù)時(shí)代的劃分改抡,下面來給大家介紹下我定義的大數(shù)據(jù)時(shí)代的企業(yè)劃分矢炼,這里面我做了一個(gè)小的比喻,我根據(jù)一個(gè)企業(yè)的數(shù)量量阿纤,然后根據(jù)它的技術(shù)人員的分布句灌,我去把它分成幼兒園、小學(xué)、中學(xué)胰锌、大學(xué)骗绕、碩士、博士等等资昧。最后單獨(dú)拿一個(gè)模板給傳統(tǒng)企業(yè)酬土。這里面的提到的PV數(shù),如果你不是互聯(lián)網(wǎng)的企業(yè)也沒關(guān)系格带,你可以用你的企業(yè)每天日增的數(shù)據(jù)的處理?xiàng)l數(shù)撤缴,因?yàn)閿?shù)據(jù)量其實(shí)決定了企業(yè)的技術(shù)框架復(fù)雜度和你的處理的人員多少。這里分別劃分了幾種:五萬(wàn)叽唱、五十萬(wàn)屈呕、五百萬(wàn)、五千萬(wàn)棺亭、五十億條凉袱,大于五十億條。數(shù)據(jù)技術(shù)人員的多少跟每一個(gè)企業(yè)發(fā)展階段都是有直接關(guān)系的侦铜,具體情況參見上圖专甩,不再贅述。單獨(dú)把傳統(tǒng)企業(yè)拎出來钉稍,因?yàn)樗晕⑻厥獾佣悖藬?shù)據(jù)量的量級(jí)之外,傳統(tǒng)行業(yè)的技術(shù)人員做大數(shù)據(jù)的人一般都比較匱乏贡未,現(xiàn)在像零售种樱、醫(yī)療、銀行等等其實(shí)都是這個(gè)狀態(tài)俊卤,而它的數(shù)據(jù)需求特別多嫩挤,既需要OLAP,又要做挖掘消恍,還要做個(gè)性推薦岂昭,對(duì)數(shù)據(jù)還有做一些數(shù)據(jù)產(chǎn)品,想法非常多狠怨,我們到后面也討論一下约啊,傳統(tǒng)企業(yè)做大數(shù)據(jù)的時(shí)候要注意什么。

這個(gè)是我對(duì)不同數(shù)據(jù)階段的劃分佣赖,下面逐步介紹不同階段適合的框架恰矩。

大學(xué)之前的基本框架


先說說大學(xué)之前的框架,就是所有的這些數(shù)據(jù)處理的基本框架憎蛤,在大學(xué)之前其實(shí)無(wú)外乎分為以下幾個(gè)模塊:數(shù)據(jù)處理調(diào)度模塊外傅,數(shù)據(jù)展示工具,結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)(非結(jié)構(gòu)化處理后放入結(jié)構(gòu)化存儲(chǔ))。非結(jié)構(gòu)化數(shù)據(jù)也可以用第三方的一些免費(fèi)的分析工具萎胰,具體每個(gè)階段略有不同彬碱。

先說說大學(xué)之前的框架,就是所有的這些數(shù)據(jù)處理的基本框架奥洼,在大學(xué)之前其實(shí)無(wú)外乎分為以下幾個(gè)模塊:數(shù)據(jù)處理調(diào)度模塊,數(shù)據(jù)展示工具晚胡,結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)(非結(jié)構(gòu)化處理后放入結(jié)構(gòu)化存儲(chǔ))灵奖。非結(jié)構(gòu)化數(shù)據(jù)也可以用第三方的一些免費(fèi)的分析工具,具體每個(gè)階段略有不同估盘。


先講講幼兒園階段瓷患,此時(shí)數(shù)據(jù)專職人員幾乎沒有,主要都是結(jié)構(gòu)化的數(shù)據(jù)遣妥。結(jié)構(gòu)化數(shù)據(jù)在這個(gè)量級(jí)的時(shí)候每天五萬(wàn)條擅编,用Mysql即可存儲(chǔ),數(shù)據(jù)處理調(diào)度的時(shí)候箫踩,不用專門復(fù)雜的ETL工具爱态,用Shell+JAVA處理即可(此時(shí)企業(yè)也沒有專職數(shù)據(jù)處理人員)。展示工具在這個(gè)階段的時(shí)候境钟,不用買什么工具锦担,這里我強(qiáng)烈推薦Excel,待會(huì)我給大家講講為什么推薦它慨削。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)洞渔,這個(gè)量級(jí)有很多第三方的免費(fèi)工具,如果需要可以挑選一個(gè)使用缚态。

幼兒園基本框架


Excel是小數(shù)據(jù)量最好分析工具

? ? 所見即所得磁椒。

? ? 產(chǎn)品使用方便,人員易上手

? ? 支持各種定制化展示

? ? 支持簡(jiǎn)單的數(shù)據(jù)挖掘

業(yè)務(wù)部門容易使用 無(wú)招勝有招 多少金融模型來自于Excel


為什么推崇Excel玫芦?到目前為止浆熔,個(gè)人一直認(rèn)為Excel是小數(shù)據(jù)量的最好的分析工具,沒有之一桥帆。第一蘸拔,所見即所得,所有的數(shù)據(jù)處理和數(shù)據(jù)挖掘工具沒有一個(gè)就像Excel一樣环葵,簡(jiǎn)單拖拖拽拽即可實(shí)現(xiàn)调窍,旋轉(zhuǎn)透視表、關(guān)聯(lián)分析挖掘张遭、或者回歸分析完全就在一個(gè)界面上就能處理好邓萨,沒有一個(gè)工具能比得上它。第二點(diǎn)是使用方便,人員易上手缔恳,對(duì)業(yè)務(wù)人員不用做什么培訓(xùn)宝剖,用Excel業(yè)務(wù)人員就能做出各種各樣的分析報(bào)表,非常高效歉甚。第三万细,支持各種個(gè)性化的展示。如右圖纸泄,在頁(yè)面上面能畫出來比較炫酷的這些圖赖钞,Excel基本都支持,包括支持地圖上展示熱區(qū)圖等,具體的方法聘裁,大家自行谷歌一下雪营。第四,支持簡(jiǎn)單的數(shù)據(jù)挖掘衡便。Excel支持大部分的基本數(shù)據(jù)挖掘算法献起,比如關(guān)聯(lián)分析,決策樹分類等镣陕,方法大家自行谷歌谴餐。 Excel我認(rèn)為在數(shù)據(jù)量級(jí)不超過十萬(wàn)條的時(shí)候是最好的分析工具。所以用Mysql把這個(gè)數(shù)據(jù)做一下匯總呆抑,Excel直接展示总寒,這也是在幼兒園階段對(duì)你來講最好的一個(gè)分析框架了。有些人會(huì)說用Excel不是大數(shù)據(jù)理肺,但是到現(xiàn)在為止摄闸,很多數(shù)據(jù)分析師還在用Excel,個(gè)人認(rèn)為無(wú)招勝有招妹萨,不在乎工具是怎么樣年枕,而是在乎你背后分析思路和分析的經(jīng)驗(yàn)是如何。大家知道現(xiàn)在很多大家都說金融股票分析什么這些都非常高深乎完,用各種量化模型熏兄,但是大家知道,很多金融模型都是來自Excel的树姨,對(duì)于最基本的分析工具Excel摩桶,我向大家強(qiáng)烈推薦一下,無(wú)論哪個(gè)階段一定要深學(xué)活用帽揪。


第三方分析——易觀方舟幫助你分析頁(yè)面流量

? ? 支持網(wǎng)頁(yè)和APP

? ? SDK只有66k

? ? 省去了各種數(shù)據(jù)加工的麻煩

? ? 基本指標(biāo)一應(yīng)俱全

? ? 目前開放的基本功能硝清,永久免費(fèi)

功能不斷在迭代



對(duì)于在這個(gè)階段,互聯(lián)網(wǎng)非結(jié)構(gòu)化分析有很多像友盟和方舟這樣的免費(fèi)分析工具转晰。我在易觀就簡(jiǎn)單說易觀的方舟芦拿,通過易觀的業(yè)界最小的SDK(Android只有66K)就可以看到各種基本的分析指標(biāo)士飒,存儲(chǔ)和處理都不用操心了≌崞椋基本的這些指標(biāo)一應(yīng)俱全酵幕,而且永久免費(fèi),指標(biāo)數(shù)據(jù)可以下載回本地缓苛,如果需要明細(xì)數(shù)據(jù)回傳服務(wù)也可以單聊芳撒。這個(gè)階段,最重要的是把企業(yè)把業(yè)務(wù)流程打通未桥,先活下來笔刹,這是在幼兒園這個(gè)階段。


集美貌與智慧一身的“SQL Server”


為什么是SQL Server钢属?

一個(gè)軟件覆蓋了這個(gè)階段數(shù)據(jù)處理的所有功能

? ?? ???支持各種數(shù)據(jù)源的集成

? ?? ???支持ETL調(diào)度

? ?? ???支持報(bào)表展示

支持OLAP

數(shù)據(jù)量在幾億條之內(nèi)(每天50萬(wàn),一年1.5億)门躯,查詢效率OK淆党,如果擴(kuò)展cluster,支持更好讶凉。

小數(shù)據(jù)分析神器Excel染乌,完美結(jié)合,擴(kuò)展了數(shù)據(jù)挖掘懂讯,展現(xiàn)等功能

缺點(diǎn):數(shù)據(jù)量大以后荷憋,效率跟不上

在小學(xué)階段的企業(yè)基本上有一點(diǎn)數(shù)據(jù)了,每天大概有五十萬(wàn)條這樣的數(shù)據(jù)褐望,有一些數(shù)據(jù)的處理專職人員了勒庄,1到2個(gè)人。需要有ETL工具和一定數(shù)據(jù)量級(jí)的數(shù)據(jù)存儲(chǔ)瘫里。這個(gè)時(shí)候实蔽,向小企業(yè)隆重推薦一個(gè)繼承解決方案就是SQL Server。提到SQL Server其實(shí)也有很多人在鄙視谨读,聽上去一點(diǎn)都不高大上局装,怎么能叫大數(shù)據(jù)?但其實(shí)大家知道嗎劳殖?無(wú)論是現(xiàn)在已經(jīng)火的京東铐尚,還是現(xiàn)在的美團(tuán),剛剛起步的時(shí)候都曾經(jīng)經(jīng)過SQL Server做數(shù)據(jù)分析的階段哆姻。我把SQL Server叫做“集美貌與智慧于一身”宣增,為什么這么說?其實(shí)SQL Server其實(shí)是它目前唯一一款軟件矛缨,覆蓋了這個(gè)階段數(shù)據(jù)處理分析的所有功能统舀,支持各種數(shù)據(jù)源的支撐携取。因?yàn)槠髽I(yè)在這個(gè)數(shù)據(jù)量級(jí)的時(shí)候,源數(shù)據(jù)庫(kù)有多個(gè)異構(gòu)數(shù)據(jù)庫(kù)和異構(gòu)數(shù)據(jù)來源视搏,需要一個(gè)比較強(qiáng)大的ETL工具做集中數(shù)據(jù)存儲(chǔ)回梧。在這個(gè)階段,可以利用SQL Server自身集成帶的一個(gè)東西叫SSIS闷串,SSIS組件是一個(gè)簡(jiǎn)化版的ETL處理工具瓮钥,你購(gòu)買了SQL Server,你不用再需要購(gòu)買一個(gè)ETL工具烹吵。

此外碉熄,SQL Server還集成SSRS,它是一個(gè)網(wǎng)頁(yè)報(bào)表系統(tǒng)肋拔,這個(gè)東西本身還支持OLAP引擎锈津,你不需要再單獨(dú)買一套報(bào)表的展現(xiàn)工具,對(duì)于這個(gè)階段的企業(yè)來講凉蜂,大部分需求也足夠使用琼梆。第四個(gè)是OLAP引擎,就是上鉆下鉆旋轉(zhuǎn)這些OLAP特性SQL Server全都支持窿吩,而且在數(shù)據(jù)量級(jí)在幾億條以內(nèi)茎杂,數(shù)據(jù)查詢效率OK。當(dāng)然纫雁,如果企業(yè)比較富裕煌往,你去購(gòu)買Cognos、Tablau這樣的產(chǎn)品的話轧邪,支持會(huì)更好一些刽脖。最關(guān)鍵的,完美結(jié)合剛才提到的小數(shù)據(jù)分析神器Excel忌愚。Excel直接連上SqlServer曾棕,那基本上就如虎添翼,原來Excel只能十萬(wàn)條菜循,SQL Server擴(kuò)展到一億條翘地。

當(dāng)然此時(shí)第三方的工具還可以繼續(xù)用,你用的像方舟這些繼續(xù)可以使癌幕。那方舟里面衙耕,但這個(gè)階段除了剛才說PV、UV勺远,現(xiàn)在可能就是分析一下這個(gè)頁(yè)面路徑了橙喘,就是這些人通過什么樣的路徑點(diǎn)擊進(jìn)來,到你那觸達(dá)你的最終的購(gòu)買路線的胶逢,這些人究竟它的轉(zhuǎn)化率怎么樣厅瞎。包括一些留存分析饰潜,就是哪些用戶是老用戶,這些用戶留存情況怎么樣和簸,是什么活動(dòng)促銷進(jìn)來的等等彭雾。


傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)+日志分析工具

日增500萬(wàn),年度過5億以內(nèi)锁保,2-4個(gè)人薯酝,暫時(shí)還沒有人力搭建hadoop。


剛才講到了幼兒園小學(xué)爽柒,現(xiàn)在上中學(xué)了吴菠。為什此時(shí)我還在推薦商業(yè)組件而不是開源組件,是因?yàn)樵诖藭r(shí)浩村,大部分企業(yè)還是以滿足企業(yè)內(nèi)部需求為主做葵,建立分析平臺(tái)的時(shí)間和效率往往比建立高大上的平臺(tái)有效切實(shí)的多,同時(shí)建立相關(guān)團(tuán)隊(duì)也需要時(shí)間心墅,使用商業(yè)組件可以提高整體的效率酿矢。在中學(xué)的時(shí)候,每日日增數(shù)據(jù)量基本上是五百萬(wàn)量級(jí)嗓化,一般是小型的這些互聯(lián)網(wǎng)企業(yè)棠涮,或者小的傳統(tǒng)企業(yè)谬哀,此時(shí)刺覆,數(shù)據(jù)專職人員就有2到5個(gè)人了,這個(gè)數(shù)據(jù)量可能像一年下來可能要過十億條了史煎,單機(jī)的SQL Server支持可能會(huì)有一些吃力谦屑。目前這個(gè)階段,我個(gè)人的建議還是你不要上Hapdoop這樣大的平臺(tái)篇梭,建立Hapdoop平臺(tái)一定要10人以上的團(tuán)隊(duì)規(guī)模氢橙,這個(gè)其實(shí)是一個(gè)坎兒,在這個(gè)時(shí)間不要著急搭這種復(fù)雜的Hapdoop平臺(tái)恬偷,但是對(duì)于您目前的企業(yè)數(shù)據(jù)量來講悍手,你需要一些專業(yè)的數(shù)據(jù)處理工具和展示工具了,就是你的小的企業(yè)可能剛才我說的SqlServer這個(gè)解決方案袍患,已經(jīng)不適合你了坦康。

那一般現(xiàn)在都有哪些?像數(shù)據(jù)處理調(diào)度的時(shí)候诡延,因?yàn)閯偛盼姨岬秸f滞欠,SqlServer它自己集成,但是目前處理到SSIS肆良,肯定是不能夠完全滿足你的要求了筛璧,于是就有比較專業(yè)的數(shù)據(jù)處理工具逸绎,有兩個(gè)比較商業(yè)上過去用的非常有名的,一個(gè)叫Informatica夭谤,另一個(gè)Datastage棺牧,這兩個(gè)其實(shí)都能滿足大部分的企業(yè)的數(shù)據(jù)處理的調(diào)度的需求,現(xiàn)在大部分銀行也在用沮翔。當(dāng)然今天我們追求性價(jià)比陨帆,所以我給大家介紹常用開源的工具,叫做Kettle采蚀,目前大部分中小公司Kettle用的其實(shí)還是最多的疲牵,因?yàn)樗墓δ鼙菼nformatica、Datastage相比肯定要弱一些榆鼠,但是比SSIS來講還是要更強(qiáng)一些纲爸,而且現(xiàn)在Kettle還支持了Hadoop、Spark等等任務(wù)調(diào)度和監(jiān)控妆够,還是擴(kuò)展性在這個(gè)階段挺強(qiáng)的工具识啦。

數(shù)據(jù)存儲(chǔ)在這里也有一個(gè)升級(jí),原先的存儲(chǔ)在這個(gè)數(shù)據(jù)量級(jí)每年在15-20億條神妹,此時(shí)需要更大型的數(shù)據(jù)存儲(chǔ)颓哮,比如說DB2、Oracle鸵荠,這兩個(gè)都是商業(yè)的冕茅,就是現(xiàn)在目前也是過去在商業(yè)數(shù)據(jù)倉(cāng)庫(kù)驗(yàn)證比較好的。我們追求性價(jià)比蛹找,也可以用去年開源的Greenplum姨伤。GP其實(shí)在大數(shù)據(jù)行業(yè)里面還挺有名的,去年年底實(shí)現(xiàn)開源免費(fèi)使用庸疾。GP是在上百億數(shù)據(jù)量級(jí)里面乍楚,唯一一個(gè)MPP架構(gòu)且開源的數(shù)據(jù)存儲(chǔ)平臺(tái),它的處理效率和DB2届慈、Oracle一點(diǎn)不落后徒溪。在展示方面,隨著業(yè)務(wù)量的增加金顿,需求越來越多臊泌,也需要一些單獨(dú)的查詢展示工具。在這個(gè)環(huán)境下串绩,數(shù)據(jù)量有一定數(shù)據(jù)量級(jí)了缺虐,但你的人不多,做自己的一些查詢工具可能還不行礁凡,你方式是買一些商用的工具來去做一個(gè)過渡高氮,所以我在這里推薦幾個(gè)現(xiàn)在比較火的慧妄。Qlik Sense/Tablau這兩個(gè)我用過都還不錯(cuò),屬于新一代的展現(xiàn)工具剪芍,當(dāng)然還有老牌的Cognos和BO等表現(xiàn)都中規(guī)中矩塞淹,建議展示工具和業(yè)務(wù)需求部門一起評(píng)審,選一個(gè)合適的即可罪裹。選擇合適的展示工具可以節(jié)約建立大數(shù)據(jù)平臺(tái)的大量時(shí)間饱普。

想學(xué)習(xí)大數(shù)據(jù)的朋友,我整理了一套大數(shù)據(jù)學(xué)習(xí)視頻免費(fèi)分享給大家状共,可以加微信:Lxiao_28獲忍赘!(備注“領(lǐng)取資料”峡继,真實(shí)有效)

開源的ELK——簡(jiǎn)易日志分析平臺(tái)

? ? ELK

? ?? ???Logstash

? ?? ???ElasticsSearch

Kabana

? ? 優(yōu)點(diǎn)

? ?? ???搭建簡(jiǎn)易

? ?? ???迅速滿足日志分析需求

自身具有多種展示方式

? ? 缺點(diǎn)

? ?? ???功能單一冯袍,只針對(duì)日志

擴(kuò)展性不強(qiáng)

在中小學(xué)的時(shí)候,非結(jié)構(gòu)化數(shù)據(jù)可以通過程序轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)再存入傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫(kù)的同時(shí)使用第三方免費(fèi)工具來分析處理碾牌。在這個(gè)數(shù)據(jù)量級(jí)的時(shí)候康愤,你會(huì)發(fā)現(xiàn)很多臨時(shí)性的新需求,第三方免費(fèi)的這些工具不夠用舶吗,這時(shí)候ELK就派上用場(chǎng)了征冷,ELK,就是Logstash誓琼、ElasticsSearch检激、Kabana縮寫。在這個(gè)時(shí)間點(diǎn)踊赠,其實(shí)如果你想要自己一些自主的呵扛,這種非結(jié)構(gòu)化的日志類的分析每庆,可以使用ELK分析筐带。

在這個(gè)時(shí)候如果你的公司還沒有使用Python處理數(shù)據(jù)的話,一定要求你的技術(shù)人員開始使用Python缤灵,前面其實(shí)都沒有單獨(dú)對(duì)數(shù)據(jù)處理的語(yǔ)言對(duì)大家做限制伦籍,特別人比較少的時(shí)候,在這個(gè)時(shí)間點(diǎn)腮出,一定需要讓你的人員從JAVA轉(zhuǎn)到Python去帖鸦。Python有幾個(gè)這樣的好處,第一數(shù)據(jù)處理簡(jiǎn)潔明快胚嘲,比Java針對(duì)數(shù)據(jù)開發(fā)效率高很多作儿。過去有一個(gè)語(yǔ)言叫做Perl,現(xiàn)在Python已經(jīng)取代了Perl的地位馋劈,成為一個(gè)數(shù)據(jù)處理的一個(gè)必會(huì)的語(yǔ)言攻锰。第二個(gè)好處是Python各種數(shù)據(jù)源和各種環(huán)境都支持晾嘶,它的延展性特別高。第三個(gè)是Python支持各種數(shù)據(jù)挖掘的算法庫(kù)娶吞,基本上各種在Python的這種庫(kù)是最多的垒迂,甚至比JAVA還多。第四個(gè)是支持各種流式計(jì)算系統(tǒng)的框架妒蛇,就是你將來學(xué)了Python以后机断,你可以順利地從中學(xué)上大學(xué)。所以在這個(gè)階段绣夺,我建議每一個(gè)企業(yè)在這個(gè)時(shí)候吏奸,去把Python腳本用起來。

第三方免費(fèi)分析——易觀方舟的用戶畫像

? ? 人口屬性:設(shè)備群體特征

? ? 使用類型:都是使用什么類型的應(yīng)用

? ? 使用類型時(shí)段:什么時(shí)間使用什么類型的APP

? ? 使用關(guān)聯(lián)分析:從哪里來陶耍,到哪里去

用戶偏好:用戶標(biāo)簽



當(dāng)然苦丁,在這個(gè)階段,第三方的數(shù)據(jù)平臺(tái)依然可以幫你做一些事情物臂,比如說方舟的用戶畫像旺拉。因?yàn)檫@些功能的背后需要有大量的數(shù)據(jù)和大量的數(shù)據(jù)分析算法,來幫助你的企業(yè)告訴你棵磷,你的客戶它的設(shè)備群體是什么樣的蛾狗,他們是在使用什么樣類型的應(yīng)用,這些應(yīng)用在什么時(shí)間段怎么使用仪媒。也能告訴你做一些關(guān)聯(lián)分析沉桌,就是你這個(gè)客戶在使用應(yīng)用之前,他從哪里來到哪里去算吩,還給你很多的一些用戶標(biāo)簽留凭。這些其實(shí)是你在用ELK,這些統(tǒng)計(jì)的東西都是沒有的偎巢,目前這個(gè)功能也是免費(fèi)對(duì)外開放的蔼夜,大家歡迎去使一下。


開源平臺(tái)的引入與數(shù)據(jù)治理的加強(qiáng)


上完中學(xué)以后就要上大學(xué)了压昼,包括小銀行求冷、政府機(jī)構(gòu)、大部分傳統(tǒng)機(jī)構(gòu)窍霞,這個(gè)里面它要求的東西就更多了匠题。上大學(xué)以后,系統(tǒng)的結(jié)構(gòu)一下就變復(fù)雜了但金,為什么韭山?除了非結(jié)構(gòu)化數(shù)據(jù)的處理之外,在這個(gè)時(shí)候有兩個(gè)非技術(shù)模塊很重要,一個(gè)叫做主數(shù)據(jù)管理钱磅,一個(gè)叫做元數(shù)據(jù)管理巩踏,所有在這個(gè)階段的企業(yè)都做了類似這樣的項(xiàng)目。主數(shù)據(jù)是什么续搀?在企業(yè)里面塞琼,各種各樣的系統(tǒng)里面都有各種各樣的數(shù)據(jù),對(duì)于某些特殊的數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù)就是主數(shù)據(jù)禁舷。舉個(gè)例子彪杉,客戶信息。你可能有CRM里面有牵咙,ERP里面有派近,可能生產(chǎn)調(diào)度系統(tǒng)里面有,可能銷售的APP里面也有洁桌,你的網(wǎng)站上面也有渴丸。對(duì)于每一個(gè)客戶來講,誰(shuí)作為唯一確定的數(shù)據(jù)做黃金拷貝另凌?這就是主數(shù)據(jù)管理的意義谱轨,你一定把主數(shù)據(jù)存儲(chǔ)獨(dú)立存儲(chǔ),業(yè)務(wù)流程發(fā)生變更的時(shí)候吠谢,哪個(gè)系統(tǒng)有權(quán)限去改主數(shù)據(jù)土童,是非常重要的,否則最后客戶的電話號(hào)碼天天變來變?nèi)スし唬阋膊恢浪膫€(gè)是最終有的有效數(shù)據(jù)献汗。所以在這個(gè)時(shí)間點(diǎn)你一定要做一個(gè)主數(shù)據(jù)的管理。第二個(gè)元數(shù)據(jù)王污,元數(shù)據(jù)的管理罢吃,到這個(gè)階段以后,表昭齐、存儲(chǔ)特別多了尿招,這些數(shù)據(jù)怎么能有效的管理。例如司浪,元數(shù)據(jù)當(dāng)中的血緣分析泊业,就是你這個(gè)表它的數(shù)據(jù)從哪里來把沼,到哪里去啊易,這個(gè)數(shù)據(jù)怎么最后變成了指標(biāo)展現(xiàn)出來,指標(biāo)發(fā)生數(shù)據(jù)問題的時(shí)候饮睬,哪些數(shù)據(jù)處理過程可能存在一些故障可能租谈,這些東西其實(shí)是在這個(gè)階段做的。

在這個(gè)階段開始要做真的開源平臺(tái)的引入了,開源平臺(tái)的引入和數(shù)據(jù)治理的加強(qiáng)割去,導(dǎo)致你的人員迅速地?cái)U(kuò)張窟却。第一個(gè)這里面引入了Hadoop,Hadoop我目前建議你還是先用Hive先用用呻逆,逐步轉(zhuǎn)為Map Reduce非結(jié)構(gòu)化處理夸赫,通過Kafka,接入Storm也可以使用實(shí)時(shí)地流式計(jì)算咖城,通過Storm直接反饋到前端的展現(xiàn)工具茬腿。在這個(gè)數(shù)據(jù)量級(jí)的時(shí)候,每天五千萬(wàn)條左右的結(jié)構(gòu)化數(shù)據(jù)的處理量宜雀,可以使用開源的Greenplum或者商業(yè)化的Teradata切平。Teradata目前還是在MPP架構(gòu)業(yè)界最快的,但是賣的也是最貴的辐董。展現(xiàn)工具悴品,企業(yè)依然可以去買第三方工具,自己不用去開發(fā)简烘。此時(shí)的企業(yè)苔严,數(shù)據(jù)挖掘的需求越來越多,使用數(shù)據(jù)挖掘工具的時(shí)候邦蜜,原來做的一些簡(jiǎn)單的像Excel這樣的工具已經(jīng)無(wú)法滿足個(gè)性化推薦、協(xié)同過濾這些算法了亥至。挖掘工具可以在R SPSS悼沈、SAS、或Mlib庫(kù)選一個(gè)姐扮。Mlib是Spark中的數(shù)據(jù)挖掘庫(kù)絮供,功能強(qiáng)大,處理速度快茶敏。不過此時(shí)我還不建議企業(yè)著急上Spark壤靶,因?yàn)榇蟛糠诌@些企業(yè)大數(shù)據(jù)投入還是有限的,Spark的使用會(huì)給人員帶來新的需求惊搏。如果人員有限贮乳,那么可以選擇商業(yè)的數(shù)據(jù)挖掘工具,如果人力比較富裕恬惯,可以使用開源的R結(jié)合python相關(guān)挖掘的類庫(kù)向拆,能解決企業(yè)大部分的挖掘和推薦需求。這個(gè)時(shí)間點(diǎn)上有一個(gè)特點(diǎn)就是在大部分的這個(gè)企業(yè)處理的時(shí)候酪耳,大部分?jǐn)?shù)據(jù)還是將非結(jié)構(gòu)化數(shù)據(jù)處理之后浓恳,變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù)再做相關(guān)處理,哪怕經(jīng)過了MapReduce,經(jīng)過挖掘在線模型颈将,最終的數(shù)據(jù)還會(huì)回到這種結(jié)構(gòu)化的數(shù)據(jù)庫(kù)里面再去使用梢夯。或者有小部分地流式實(shí)時(shí)數(shù)據(jù)處理來做展示晴圾。絕大部分?jǐn)?shù)據(jù)存儲(chǔ)還不是放在Hive和Hapdoop里面的颂砸,你的大部分的數(shù)據(jù)其實(shí)還是在結(jié)構(gòu)化的數(shù)據(jù)里面。因?yàn)槟愕娜藛T在這個(gè)階段死姚,其實(shí)還是結(jié)構(gòu)化數(shù)據(jù)處理人員比非結(jié)構(gòu)化數(shù)據(jù)處理人員多沾凄,你的業(yè)務(wù)需求也是結(jié)構(gòu)化數(shù)據(jù)需求最多。

中流砥柱——Kafka/HDFS/Hadoop/Hive

? ? 最皮實(shí)的組合

? ?? ???魯棒性

? ?? ???硬件兼容性

數(shù)據(jù)處理穩(wěn)定性

? ? 每個(gè)系統(tǒng)大數(shù)據(jù)存儲(chǔ)知允,都繞不開

? ? 缺點(diǎn):慢撒蟀!

分開來講,Kafka/HDFS/Mapreduce/Hive温鸽,我把它叫做最皮實(shí)的大數(shù)據(jù)組合保屯,原因有幾個(gè):第一就是穩(wěn)定,無(wú)論你現(xiàn)在用的是Cloudera 還是Hortonworks涤垫,其實(shí)讓你的開發(fā)人員去安裝一套姑尺,安裝配置的時(shí)候可能中間有一些坑,但是你只要把它安上去轉(zhuǎn)起來一次以后蝠猬,那后面基本上它的大部分問題幾乎就沒有了切蟋。不會(huì)像其他平臺(tái),在運(yùn)行時(shí)有時(shí)候會(huì)有一些詭異的問題榆芦。它的兼容性也比較強(qiáng)柄粹,就是無(wú)論好硬件差硬件,它都能跑起來匆绣。數(shù)據(jù)處理的穩(wěn)定性驻右,數(shù)據(jù)處理是非常穩(wěn)定的,你不用擔(dān)心數(shù)據(jù)量徒增會(huì)出什么問題崎淳。所以現(xiàn)在目前為止堪夭,每一個(gè)大數(shù)據(jù)的存儲(chǔ)都繞不開這個(gè)組合。缺點(diǎn)也很明顯拣凹,就是慢森爽。這個(gè)東西它是不會(huì)內(nèi)存爆掉,不會(huì)死機(jī)嚣镜, 但是它轉(zhuǎn)起來真的很慢爬迟,你想讓它跑快起來,這個(gè)事其實(shí)挺難的祈惶,因?yàn)檫@個(gè)整個(gè)結(jié)構(gòu)其實(shí)就不是那樣的結(jié)構(gòu)雕旨,經(jīng)常你查一個(gè)SQL下去扮匠,你看著它先做map捧请,然后再做reduce可能半個(gè)小時(shí)過去了凡涩。

貴族的開源——Greenplum

? ? MPP架構(gòu),查詢速度很快疹蛉!

? ? 大數(shù)據(jù)量SQL查詢活箕,除了Teradata,商業(yè)化使用最多

? ? 穩(wěn)定性強(qiáng)

? ? GPDB目前使用最多可款,HAWQ支持HDFS是未來

? ? 缺點(diǎn):吃硬件育韩,萬(wàn)兆、多SAS盤闺鲸、服務(wù)器很貴…

剛才我提到了Greenplum筋讨, Greenplum這家公司其實(shí)也是一家老牌公司了,它其實(shí)現(xiàn)在有兩個(gè)開源的版本摸恍,一個(gè)以GPDB為核心悉罕,一個(gè)以HAWK位核心。GPDB是現(xiàn)在目前使用最多一個(gè)查詢的引擎立镶,廣泛應(yīng)用于銀行壁袄、電信等等很多的領(lǐng)域里面,其實(shí)都是用了GPDB的SQL的查詢比較多媚媒。HAWK是新版的GP存儲(chǔ)引擎嗜逻,現(xiàn)在支持HDFS,簡(jiǎn)單來講它是底下存儲(chǔ)換為HDFS缭召,它本身的查詢計(jì)劃和優(yōu)化還是用的GP的這一套東西栈顷,所以它的速度基本上和GPDB是相同的,只不過現(xiàn)在剛剛推出來嵌巷,還需要一些時(shí)間驗(yàn)證和推廣妨蛹。但是整個(gè)趨勢(shì)來看HAWK是未來,因?yàn)樗С值腍DFS晴竞,對(duì)于數(shù)據(jù)的導(dǎo)入導(dǎo)出蛙卤,磁盤的冗余替換都是非常有利的。易觀作為GP開源以后第一個(gè)使用開源版本存儲(chǔ)處理大量數(shù)據(jù)的企業(yè)(日處理量在100億條左右)噩死,我們也遇到了一些坑颤难。但是給我們帶來的優(yōu)勢(shì)是查詢速度非常快已维,同樣的結(jié)構(gòu)化數(shù)據(jù)的查詢行嗤,不夸張的講Hive需要1小時(shí),GP 1分鐘就可以算出來垛耳。目前來講GP其實(shí)商業(yè)化用的是最多的栅屏,穩(wěn)定性也是非常強(qiáng)飘千,在大數(shù)據(jù)的類SQL這個(gè)領(lǐng)域里還是比較好用的。當(dāng)然栈雳,它也有缺點(diǎn)护奈,就是非常吃硬件。普通的開源軟件我叫做屌絲開源哥纫,一般對(duì)硬件要求不高霉旗,而GP我管它叫貴族開源,它對(duì)網(wǎng)絡(luò)和磁盤的IO要求極為苛刻蛀骇,一旦你的網(wǎng)絡(luò)和你的磁盤IO沒有配置均衡有效的時(shí)候厌秒,它會(huì)經(jīng)常出現(xiàn)一些詭異的問題。所以基本的配置擅憔,單光口萬(wàn)兆是最最基本的鸵闪,沒有這個(gè)硬件投入你就不要想用GP了,一般它推薦的是雙萬(wàn)兆卡暑诸,就是一定要有光交機(jī)蚌讼,兩個(gè)萬(wàn)兆給它,每一個(gè)機(jī)器的磁盤很多的SAS盤屠列。所以啦逆,它要求的硬件,包括整個(gè)的服務(wù)器笛洛,那你服務(wù)器本身主板其實(shí)這些要求全都規(guī)格都上去了夏志。但是企業(yè)結(jié)構(gòu)化數(shù)據(jù)到一定數(shù)據(jù)量級(jí)的時(shí)候,還是可以選它的苛让,個(gè)人認(rèn)為它還是比較靠譜的沟蔑。

轉(zhuǎn)化分析與應(yīng)用評(píng)級(jí)

? ? 看自己產(chǎn)品轉(zhuǎn)化

? ?? ???營(yíng)銷活動(dòng)是否高轉(zhuǎn)化為下單支付?

? ?? ???行業(yè)平均轉(zhuǎn)化率如何狱杰?

什么渠道用戶分享與傳播多瘦材?

? ? 看行業(yè)均值、TOP10

? ?? ???市場(chǎng)是否已被領(lǐng)頭羊蠶食仿畸?

長(zhǎng)尾幾無(wú)生存空間食棕?

? ? 看自己評(píng)級(jí)

第三方的評(píng)估


當(dāng)然在這個(gè)階段,第三方的平臺(tái)依然可以給你一些幫助错沽。例如簿晓,幫助你看你企業(yè)從廣告到瀏覽到下單,轉(zhuǎn)化率是如何的千埃?行業(yè)均值差多遠(yuǎn)憔儿?這些易觀都一些分行業(yè)的分析模板,只需要你簡(jiǎn)單的做一些數(shù)據(jù)嵌入即可放可。能看看行業(yè)趨勢(shì)是怎么樣谒臼,你自己看看這個(gè)行業(yè)的TOP10是怎么樣朝刊。你的市場(chǎng)已經(jīng)被領(lǐng)頭羊吃掉了,或者你自己生存空間怎么樣蜈缤。再看看你在這個(gè)行業(yè)里排行如何拾氓?有沒有一些新的缺口?另外易觀給你做一個(gè)第三方的評(píng)估評(píng)級(jí)劫樟,給你的投資看下你的用戶的價(jià)值有多大痪枫。這些基本功能都是永久免費(fèi)的织堂,而將來基于這些基本功能的擴(kuò)展分析是要收費(fèi)的叠艳。


那剛才講完大學(xué)了,現(xiàn)在開始上研究生了易阳,研究生每天的數(shù)據(jù)條數(shù)少于五十億附较,那現(xiàn)在到了這個(gè)量級(jí)的時(shí)候,基本上專職人員是30到50人了潦俺,這個(gè)時(shí)候關(guān)鍵詞就是一個(gè)字拒课,開源。為什么事示?在這個(gè)量級(jí)的時(shí)候早像,如果你不去用一些開源的一些工具投入已經(jīng)超過了你對(duì)于人員雇傭的投入費(fèi)用。那對(duì)于這個(gè)階段來講肖爵,除了Hadoop系列卢鹦,會(huì)引入Spark、麒麟劝堪、Presto冀自、Druid這樣的數(shù)據(jù)處理和存儲(chǔ)平臺(tái)。研發(fā)工具基本上原來的商業(yè)工具肯定是無(wú)法滿足需求了秒啦,可以引用百度的E-Chart或者D3熬粗。他們之間各有千秋,但是我是支持國(guó)產(chǎn)的開源的余境,所以我選了echarts驻呐。

數(shù)據(jù)量增加、實(shí)時(shí)計(jì)算的引入導(dǎo)致全面開源化


內(nèi)存計(jì)算的翹楚——Spark

? ? 目前最火的大數(shù)據(jù)開源項(xiàng)目

? ? 華人貢獻(xiàn)占52%

? ? 大數(shù)據(jù)下數(shù)據(jù)挖掘必選項(xiàng)SparkR

即使使用磁盤芳来,執(zhí)行效率優(yōu)于Hive幾倍

研究生大數(shù)據(jù)必修課

? ? 缺點(diǎn):如果達(dá)到很高效含末,硬件要支持

數(shù)據(jù)量比較大,節(jié)點(diǎn)比較多绣张,對(duì)Scala要求比較高

先說Spark答渔,目前最火的大數(shù)據(jù)開源項(xiàng)目。它的開源的火爆程度目前超過了Hadoop一倍可能還得多侥涵,而且華人在里面貢獻(xiàn)的人名數(shù)超過50%以上沼撕。在這個(gè)數(shù)據(jù)量級(jí)宋雏,會(huì)有大量的數(shù)據(jù)挖掘模型和處理的需求,而Spark對(duì)于迭代式的數(shù)據(jù)挖掘务豺,特別大數(shù)據(jù)量的處理的時(shí)候磨总。同時(shí)凳鬓,它的內(nèi)存計(jì)算及相關(guān)框架效率是Hadoop運(yùn)行效率的幾倍疏叨,所以在研究生階段侈百,大數(shù)據(jù)必修課就是Spark耳奕。但缺點(diǎn)也挺明顯京腥,就是如果你想達(dá)到它的高效情屹,因?yàn)樗褪莾?nèi)存的計(jì)算敌厘,硬件整體環(huán)境需要支持糠亩。就是也許你現(xiàn)在不用萬(wàn)兆汹桦,那你也得用雙網(wǎng)卡或者四網(wǎng)卡捆綁鲁驶,你的網(wǎng)絡(luò)IO得有保證,你的內(nèi)存和CPU得能上來舞骆,這兩個(gè)是你在Spark的時(shí)候必用的钥弯。另外,大家知道Spark是用scala做的督禽,你對(duì)scala的要求就比較高了脆霎,因?yàn)槟憬Y(jié)點(diǎn)多的時(shí)候,這點(diǎn)或者那點(diǎn)總有點(diǎn)小問題狈惫,所以研發(fā)的技術(shù)人員必須得對(duì)scala比較熟悉睛蛛,可以簡(jiǎn)單調(diào)試相關(guān)的問題。相對(duì)于Hadoop虱岂,Spark穩(wěn)定性還在逐步加強(qiáng)玖院,它在流程里會(huì)有一些小的bug出來,因?yàn)樗m然很火第岖,但是它還會(huì)有各種各樣的小問題难菌,需要你去修修補(bǔ)補(bǔ)的。所以這個(gè)是你在研究生的時(shí)候你再去學(xué)蔑滓。

OLAP的利器——Kylin

? ? 解決了大數(shù)據(jù)多維度查詢速度慢郊酒,多維查詢數(shù)據(jù)返回丌及時(shí)的問題

? ? 開源MOLAP利器

? ? Apache金牌項(xiàng)目

? ? 源自Ebay內(nèi)部大數(shù)據(jù)

利用Hbase,加速可以加速Hbase

中國(guó)人自己的開源項(xiàng)目键袱!

? ? 缺點(diǎn):預(yù)計(jì)算時(shí)間比較長(zhǎng)

麒麟源自于e-Bay燎窘,現(xiàn)在它單獨(dú)從e-Bay獨(dú)立出來了,那它是Apache的金牌開源項(xiàng)目蹄咖。麒麟是開源的MOlap的利器褐健,解決了大數(shù)據(jù)多維查詢速度慢,多維查詢的反饋不及時(shí)的問題。目前麒麟底層主要是利用Hbase去做存儲(chǔ)和查詢蚜迅,所以你要去想加快麒麟的速度的話舵匾,可以用增強(qiáng)磁盤和網(wǎng)絡(luò)I/O的方式處理。麒麟目前國(guó)內(nèi)很多大牌的地方也都用過了谁不,包括像騰訊坐梯,美團(tuán)都有使用,現(xiàn)在有很多經(jīng)過實(shí)際的一些經(jīng)驗(yàn)刹帕,它是OK的吵血。最重要的一點(diǎn),它是中國(guó)自己開源的項(xiàng)目偷溺,中國(guó)人自己的蹋辅,所以大家一定要支持它。但是麒麟也有它的缺點(diǎn)了亡蓉,就是它的預(yù)加載時(shí)間比較長(zhǎng)晕翠,因?yàn)樗怯每臻g換時(shí)間的喷舀。在大數(shù)據(jù)架構(gòu)里砍濒,展示的時(shí)候如果想看到數(shù)據(jù)怎么上鉆下鉆,然后做一些查詢硫麻,麒麟作為國(guó)產(chǎn)的開源的這樣一個(gè)軟件爸邢,我覺得還是強(qiáng)烈推薦的,這個(gè)大家可以去使用拿愧。

OLAP的生力軍——Druid

? ? 解決單表大數(shù)據(jù)查詢問題

? ? 支持實(shí)時(shí)增量的聚合

不支持查明細(xì)

正準(zhǔn)POC杠河,不亂評(píng)價(jià)

開源負(fù)責(zé)人是華人

? ? 缺點(diǎn):未知,正在準(zhǔn)備試用

Druid是最近比較火爆的查詢平臺(tái)浇辜,最近群里也一直在討論券敌,我正在做POC,暫時(shí)還不評(píng)論柳洋。試用以后再給大家做一個(gè)反饋待诅。

內(nèi)部SQL查詢工具——Presto

? ? Facebook開源內(nèi)存SQL查詢

? ? 可以跨mysql,Hadoop熊镣, cassandra查詢

查詢效率進(jìn)高于Hive

? ? SQL支持比較好

? ? 缺點(diǎn):內(nèi)存吃的很厲害卑雁,而且大查詢出現(xiàn)詭異的異常

Presto其實(shí)Facebook開源的,是一個(gè)內(nèi)存式計(jì)算的框架绪囱,它比較牛的地方测蹲,它是一個(gè)能夠跨Mysql跨Hadoop,跨cassandra的查詢鬼吵。支持跨庫(kù)查詢扣甲,可能主數(shù)據(jù)在Mysql,行為明細(xì)在Hive齿椅,用戶標(biāo)簽在cassandra琉挖,一個(gè)語(yǔ)句可以解決所有問題荷逞。這件事情還是很牛逼的,但是現(xiàn)在它要支持很多新的數(shù)據(jù)庫(kù)的Adapter粹排,但是據(jù)說新的adapter要收費(fèi)种远,查詢效率也高于原生的Hive。我們?cè)纫灿?presto顽耳,美團(tuán)也在使用坠敷。但是Presto的缺點(diǎn)也挺明顯,就是如果你數(shù)量不大的時(shí)候射富,原來我們拿presto串到整個(gè)數(shù)據(jù)處理流程也很好膝迎。但缺點(diǎn)也很明顯,Presto內(nèi)存吃的很厲害胰耗,如果數(shù)據(jù)量級(jí)比較大的的查詢(超過20億左右限次,根據(jù)集群大小不同),就會(huì)出現(xiàn)很詭異的異常柴灯,而且每次異常的點(diǎn)都不一樣卖漫。所以在這個(gè)情況下,就是我們現(xiàn)在易觀拿它做內(nèi)部查詢使用赠群,就是你不能把它串到數(shù)據(jù)處理流程里羊始。


對(duì)開源平臺(tái)的修改、對(duì)硬件的定制要求


到博士生了查描,更多的技術(shù)人員集中到算法層面突委,例如像知識(shí)庫(kù)或者知識(shí)圖譜的建立,或者在線推薦引擎和搜索優(yōu)化這樣冬三。大數(shù)據(jù)平臺(tái)方面匀油,其實(shí)每個(gè)不同的這個(gè)地方,其實(shí)都不太一樣勾笆。這個(gè)階段每個(gè)公司都是自主的一些存儲(chǔ)了敌蚜,包括ETL的工具。在這個(gè)階段原先免費(fèi)開源的ETL調(diào)度工具都不行了匠襟,這個(gè)工具需要結(jié)合任務(wù)去動(dòng)態(tài)調(diào)整資源钝侠,像易觀自己做的EAMP,或者我在萬(wàn)達(dá)時(shí)候e-horse酸舍,除了你調(diào)度ETL流程之外帅韧,因?yàn)槟愕臄?shù)據(jù)量很多了,它得能夠去調(diào)動(dòng)你的Hadoop的這些資源并處理一些特殊的業(yè)務(wù)情況啃勉。大數(shù)據(jù)存儲(chǔ)的時(shí)候在此時(shí)各顯神通忽舟,這個(gè)時(shí)候真的沒有一個(gè)統(tǒng)一地說完整的解決方案。這里稍微提一點(diǎn)優(yōu)化,就是需要將大數(shù)據(jù)分段處理了叮阅。因?yàn)檫@么大量的數(shù)據(jù)刁品,如果直接扔到后臺(tái)集群,集群壓力會(huì)超大浩姥,性價(jià)比也不是最高挑随。所以在這里舉例,在互聯(lián)網(wǎng)數(shù)據(jù)接收的時(shí)候勒叠,就開始做數(shù)據(jù)處理兜挨。例如,利用Lua在openresty去處理臟數(shù)據(jù)眯分,分段優(yōu)化整體的大數(shù)據(jù)處理流程拌汇。在這個(gè)階段,基本上所有的這些博士生的企業(yè)弊决,都有修改開源平臺(tái)的能力噪舀,你的團(tuán)隊(duì)得能去修理開源的平臺(tái)解決相關(guān)的問題。

性價(jià)比最高的定制化硬件

? ? 大數(shù)據(jù)集群要什么飘诗?不同場(chǎng)景不同

? ? 批量計(jì)算——高性價(jià)比的I/O与倡,網(wǎng)絡(luò)I/O,磁盤I/O

? ?? ???磁盤I/O疚察,SSD蒸走?量大了用不起。

? ?? ???多磁盤貌嫡,組Raid

? ?? ???網(wǎng)絡(luò)I/O,光纖萬(wàn)兆该溯?性價(jià)比丌吅適

多網(wǎng)卡捆綁岛抄,4塊放一起

? ? 實(shí)時(shí)計(jì)算——網(wǎng)絡(luò) I/O,CPU

? ?? ???大內(nèi)存

? ?? ???萬(wàn)兆

? ?? ???高CPU

磁盤狈茉?SSD夫椭,必須的

同時(shí),你要對(duì)硬件做一些定制氯庆,就是如果你真的想做性價(jià)比最高蹭秋,原來成型的這些機(jī)器不太好使了,其實(shí)有很多東西你得去配置什么要下一些功夫堤撵。大數(shù)據(jù)集群需要什么仁讨?就是不同場(chǎng)景,不太一樣实昨。批量計(jì)算洞豁,批量計(jì)算像Hadoop或者presto主要是高性價(jià)比的IO,指的是網(wǎng)絡(luò)的IO,磁盤的IO丈挟。如果真的想框架不變刁卜,速度提升優(yōu)化50%、70%曙咽,你想通過優(yōu)化Hadoop這些優(yōu)化蛔趴,我覺得基本不太可能,你直接升SSD硬盤才是解決方案例朱。如果性價(jià)比比較高的方案夺脾,優(yōu)選的就是磁盤特別多的機(jī)器,在這個(gè)時(shí)候你去買更多的盤茉继,比如說你的機(jī)器支持16塊盤咧叭,把這16塊盤,如果HDFS倍數(shù)是3的話烁竭,你組三個(gè)Raid菲茬,去處理,比你用8塊盤的機(jī)器用羅裸快得多派撕。磁盤IO這件事是我覺得第一個(gè)優(yōu)化的婉弹。

第二個(gè)網(wǎng)絡(luò)IO,網(wǎng)絡(luò)IO终吼,我們要高性價(jià)比镀赌,網(wǎng)絡(luò)IO萬(wàn)兆當(dāng)然是最好了但是性價(jià)比其實(shí)不合適,其實(shí)現(xiàn)在很多的這種多網(wǎng)卡捆綁的方案了际跪,就是你買四塊網(wǎng)卡商佛,費(fèi)點(diǎn)交換機(jī),你把四塊卡綁一起姆打,其實(shí)它這個(gè)速度良姆,雖然不是×4,但是基本上×2×3還可以幔戏。所以在這個(gè)時(shí)候也是一個(gè)廉價(jià)的解決方案玛追,所以你的Hadoop集群在配的時(shí)候,你就用這種多磁盤闲延,多網(wǎng)卡痊剖,CPU要不要高?其實(shí)我覺得不用垒玲。就是大部分的Hadoop出現(xiàn)的問題都不用在CPU上陆馁,都是在磁盤和網(wǎng)絡(luò)IO上面的,就是你在這兩個(gè)IO上面提上去侍匙,你的查詢效率會(huì)高很多氮惯,而且也不用花太多錢叮雳。

對(duì)于時(shí)時(shí)計(jì)算來講,這個(gè)事其實(shí)如果你真的想做得比較好妇汗,那么主要是網(wǎng)絡(luò)IO和CPU帘不,內(nèi)存一定要大,你的網(wǎng)絡(luò)杨箭,我覺得像GP寞焙、Spark這些你要想把它轉(zhuǎn)得非常好,速度非郴バ觯快捣郊,那你還是上萬(wàn)兆吧。如果你要想便宜的話慈参,你就用四塊網(wǎng)卡去捆綁呛牲,CPU,因?yàn)檫@個(gè)時(shí)候其實(shí)它是內(nèi)存之間的交互驮配,CPU如果不夠高娘扩,那你最后CPU就有瓶頸,磁盤直接上SSD即可壮锻,現(xiàn)在目前其實(shí)你要想定制比較性價(jià)比高的這些硬件琐旁,其實(shí)主要還是回到它原來處理平臺(tái)的時(shí)候,需要IO猜绣,需要CPU還是需要網(wǎng)絡(luò)灰殴,從這幾個(gè)角度來看,不同場(chǎng)景其實(shí)還是不太一樣的掰邢。

當(dāng)然牺陶,其實(shí)剛才講了一堆開源的工具,我們也在做一些有趣的測(cè)試尸变,就是拿我們現(xiàn)在易觀處理完的义图,比如說一天大概五十億條的數(shù)據(jù),拿這個(gè)數(shù)據(jù)做一下評(píng)測(cè)召烂,在不同場(chǎng)景下,每個(gè)查詢效果怎么樣娃承,這個(gè)事其實(shí)我們現(xiàn)在正在做POC奏夫,做完以后,下次分享的時(shí)候历筝,也跟大家去聊一聊酗昼。

剛才也說了各個(gè)不同的,從幼兒園到博士生梳猪,其實(shí)跨度還是挺大的麻削,講的從一開始的Mysql到最后整個(gè)完整的一個(gè)大數(shù)據(jù)平臺(tái)蒸痹。傳統(tǒng)企業(yè)比較特殊,就是它大部分?jǐn)?shù)據(jù)都是結(jié)構(gòu)化數(shù)據(jù)呛哟,技術(shù)人員基本上不是特別多叠荠,要么就是外包,要么是自己內(nèi)部人員扫责。但大數(shù)據(jù)的這些算法和大數(shù)據(jù)的非結(jié)構(gòu)化的處理比較少榛鼎。我這里面關(guān)鍵詞其實(shí)就是建議傳統(tǒng)企業(yè)還是先建一個(gè)數(shù)據(jù)倉(cāng)庫(kù),然后把少量的非結(jié)構(gòu)化的處理放到結(jié)構(gòu)化里面鳖孤。

傳統(tǒng)企業(yè)模板


大數(shù)據(jù)云化的觀點(diǎn)

? ? 大數(shù)據(jù)云化是趨勢(shì)

? ? 小公司者娱,全面云化,借劣第三方云化解決方案苏揣,端到端解決問題

? ?? ???核心數(shù)據(jù)選一家大的(阿里黄鳍、騰訊、Ucloud等)

周邊方案丌一定只一家(多選幾家功能觸達(dá)為主)

? ? 大公司平匈,大數(shù)據(jù)混吅云是當(dāng)前的最佳實(shí)踐

? ?? ???大數(shù)據(jù)集群自主

相關(guān)組件不產(chǎn)品云化

最后說說框沟,大數(shù)據(jù)和云化的問題。各家云都上了各種大數(shù)據(jù)組件吐葱,這個(gè)東西可不可用街望?好不好用?該不該用弟跑?我的觀點(diǎn)是這樣的灾前,就是大數(shù)據(jù)是云化是未來的趨勢(shì)。目前在國(guó)內(nèi)孟辑,如果你是小公司哎甲,那你就全面云化吧,那借助第三方的云化的解決方案饲嗽,端到端解決問題炭玫,比如阿里、騰訊貌虾、Ucloud等等這個(gè)就不列了吞加,這個(gè)感興趣大家可以看易觀的分析報(bào)告。周邊端到端的數(shù)據(jù)分析服務(wù)云就不一定選一家尽狠,哪家能用它的一個(gè)優(yōu)化的方案來解決你用哪家衔憨,對(duì)于移動(dòng)互聯(lián)網(wǎng)來講,你可以選易觀袄膏,當(dāng)然你也可以加上其他的友商践图,在這個(gè)階段對(duì)于中小公司來講,這就可以了沉馆。對(duì)于大公司來講码党,目前現(xiàn)在最佳的方案是混合云德崭,最終落到還是一個(gè)混合云的方案。是為什么揖盘?就剛才提到眉厨,大數(shù)據(jù)集群從性價(jià)比來講,從穩(wěn)定性來講扣讼,公有云都還有一段路要走缺猛。大數(shù)據(jù)集群可以在自己的私有云里面,那么你的相關(guān)的這些產(chǎn)品可以放到公共云上椭符。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末荔燎,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子销钝,更是在濱河造成了極大的恐慌有咨,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,635評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蒸健,死亡現(xiàn)場(chǎng)離奇詭異座享,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)似忧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門渣叛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人盯捌,你說我怎么就攤上這事淳衙。” “怎么了饺著?”我有些...
    開封第一講書人閱讀 168,083評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵箫攀,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我幼衰,道長(zhǎng)靴跛,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,640評(píng)論 1 296
  • 正文 為了忘掉前任渡嚣,我火速辦了婚禮梢睛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘识椰。我一直安慰自己扬绪,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,640評(píng)論 6 397
  • 文/花漫 我一把揭開白布裤唠。 她就那樣靜靜地躺著,像睡著了一般莹痢。 火紅的嫁衣襯著肌膚如雪种蘸。 梳的紋絲不亂的頭發(fā)上墓赴,一...
    開封第一講書人閱讀 52,262評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音航瞭,去河邊找鬼诫硕。 笑死,一個(gè)胖子當(dāng)著我的面吹牛刊侯,可吹牛的內(nèi)容都是我干的章办。 我是一名探鬼主播,決...
    沈念sama閱讀 40,833評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼滨彻,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼藕届!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起亭饵,我...
    開封第一講書人閱讀 39,736評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤休偶,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后辜羊,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體踏兜,經(jīng)...
    沈念sama閱讀 46,280評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,369評(píng)論 3 340
  • 正文 我和宋清朗相戀三年八秃,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了碱妆。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,503評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡昔驱,死狀恐怖疹尾,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情舍悯,我是刑警寧澤航棱,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站萌衬,受9級(jí)特大地震影響饮醇,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜秕豫,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,870評(píng)論 3 333
  • 文/蒙蒙 一朴艰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧混移,春花似錦祠墅、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至回铛,卻和暖如春狗准,著一層夾襖步出監(jiān)牢的瞬間克锣,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工腔长, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留袭祟,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,909評(píng)論 3 376
  • 正文 我出身青樓捞附,卻偏偏與公主長(zhǎng)得像巾乳,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子鸟召,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,512評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容