大數(shù)據(jù)環(huán)境下互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)倉庫/數(shù)據(jù)平臺的架構之漫談-續(xù) – lxw的大數(shù)據(jù)田地
http://lxw1234.com/archives/2016/07/703.htm
數(shù)據(jù)采集
對于關系型數(shù)據(jù)庫以及部分NOSQL(Redis镰官、MongoDB)中的數(shù)據(jù),仍然使用DataHub按天、按小時求橄,增量抽取到HDFS,映射到Hive表招拙;
對于日志數(shù)據(jù)燎孟,使用Flume從日志收集服務器實時抽取到Kafka,再使用Flume仪媒,從Kafka抽取到HDFS,映射到Hive表谢鹊;
離線計算
離線計算%80以上使用Hive算吩,部分新業(yè)務使用SparkSQL,很少一部分老的業(yè)務仍然使用MR佃扼;
離線計算的結果偎巢,根據(jù)業(yè)務用途不同,分別保存在Hive兼耀、Redis以及業(yè)務關系型數(shù)據(jù)庫中压昼;
實時計算
實時計算使用Spark Streaming以及部分Java程序消費Kafka中收集的日志數(shù)據(jù),實時計算結果大多保存在Redis中瘤运;
多維分析OLAP
之前基本采用固定報表窍霞、固定計算、臨時數(shù)據(jù)提取等方式來滿足業(yè)務數(shù)據(jù)分析的需求拯坟,隨著業(yè)務發(fā)展但金,該模式的成本越來越大,也存在很多問題郁季。
現(xiàn)在使用Kylin作為OLAP引擎冷溃,數(shù)據(jù)開發(fā)人員在Hive數(shù)據(jù)倉庫中設計好事實表钱磅,維度表,在Kylin中設計好Cube似枕,每天將數(shù)據(jù)由Hive加載到Kylin盖淡,數(shù)據(jù)分析、產(chǎn)品運營通過Kylin來完成90%以上的數(shù)據(jù)分析需求凿歼,對于一些特別復雜和定制的需求褪迟,才會提臨時需求給數(shù)據(jù)開發(fā)。
另外答憔,使用Caravel經(jīng)過簡單的二次開發(fā)牵咙,作為OLAP的前端,用戶不用寫SQL攀唯,即可完成數(shù)據(jù)多維分析與可視化洁桌。
機器學習
目前只使用了Spark MLlib提供的機器學習算法,完成了文本分類的需求侯嘀。
Ad-Hoc查詢
在Hive的基礎上另凌,也提供了SparkSQL的方式,主要是給數(shù)據(jù)開發(fā)以及懂SQL的數(shù)據(jù)分析和運營提供更快的Ad-Hoc查詢響應戒幔。
數(shù)據(jù)可視化
基于Caravel做了二次開發(fā)吠谢,提供近20種數(shù)據(jù)可視化圖表。
底層基于DataHub诗茎、Kylin工坊,用戶還可以自助數(shù)據(jù)接入、自助建模敢订、自助分析與可視化王污。