1.hive sql >> 五星
在大多數的工作中,主要用的語言就是sql,說難不難始苇,只要做的多了绰沥,基本就可以融會貫通瓦宜,當然也要了解 hive ,清楚常運用到的優(yōu)化方法蔚万。
推薦書籍:《hive權威指南》
技能點:
-1.常用的sql 查詢語句,select where sum group order常用sql語句,row_number()over等窗口函數使用临庇,map,struct等類型使用反璃。
-2.hive優(yōu)化,map join ,常用參數設置假夺,數據傾斜處理淮蜈,執(zhí)行計劃解析等
-3.表設置,內部表已卷、外部表梧田、臨時表使用,表存儲與文件壓縮方式侧蘸,列式存儲的好處裁眯,parquet 與orc的使用
-4.了解hive metastore元數據,分區(qū)信息表讳癌,表信息表等
2.數倉理論知識 >>五星
理論是實踐的根本未状,懂得前人的方法才能使得實踐起來的心用手。
推薦書籍:《數據倉庫工具箱-維度建模權威指南》析桥,《大數據之路-阿里巴巴大數據實踐》
技能點:
-1.星型模型與雪花模型
-2.數據分層,維度與事實
-3.inmon與Kimball模型
-4.數倉規(guī)范
-5.拉鏈表(緩慢變化維)
3. Hadoop (hdfs ,map reduce,yarn) >>五星
為了了解你的sql到底是怎么執(zhí)行泡仗,怎么存儲的埋虹,一個sql語句變成了怎樣的mr任務,怎么調整你的sql語句才會更快娩怎,這塊的知識也比較重要的搔课。
推薦書籍:《hadoop權威指南》,《hadoop技術內幕》截亦,《大數據日知錄》
技能點:
-1.熟悉mr執(zhí)行過程爬泥,split,map,partition,shuffle,reduce..特別的是shuffle過程是面試中常常問到的,最好可以寫個簡易mr程序進行調試一下崩瓤。
-2.了解hdfs 架構袍啡,namenode,datanode結構,熟練使用hdfs操作命令
-3.了解yarn 工作原理却桶,ha的實現的等
4.spark境输、storm、flink >>四星
對于現在用spark sql比較多颖系,所以spark 的工作原理也是有必要了解的嗅剖,同時在實時數據上面,spark streaming 嘁扼、storm信粮、flink是互聯(lián)網公司都在用的,目前都在向flink遷移趁啸,flink是支持sql强缘,支持窗口的,所以前景很光明莲绰,作為一個離線數倉工作者就不贅述了欺旧。
5.數據抽取 >>四星
-1.了解日志采集、埋點
-2.抽取數據工具蛤签,sqoop,datax等
6.平臺技術 >>3星
-1.調度平臺辞友,數據工作者必用的平臺,開源的有azkaban震肮、DolphinScheduler(中國人開發(fā)的)等称龙。
-2.可視化平臺,superset戳晌、redash等開源的報表展示平臺鲫尊。
-3.元數據平臺,數據表查詢沦偎,血緣關系疫向,口徑查詢咳蔚,資源使用,數據熱度搔驼,答疑社區(qū)等谈火,一般都自研。
-4.數據質量舌涨,監(jiān)控數據保證數據準確性糯耍,預測數據監(jiān)控,開源有grfflin等囊嘉。
-5.智能化數據分析平臺温技,通過勾勾選選,跑出產品運營想要的數據扭粱。