大數(shù)據(jù)集群搭建
主要基于ambari來同一管理監(jiān)控集群
主要安裝步驟:
準備機器昼伴,修改hostname铸抑,固定ip等
機器間免密碼登錄
host機器開啟httpd服務泽疆,準備本地倉庫
安裝ambari setup
訪問頁面誊薄,通過ambari頁面安裝hdp
集群監(jiān)控:
依靠ambari頁面的監(jiān)控堡赔,缺點:需要人為的關注平臺界面
改造:通過在主節(jié)點添加各機器的服務名或端口監(jiān)控侣灶,通過主程序分發(fā)到集群各機器甸祭,異常消息通過kafka推送,最后在主節(jié)點消費topic褥影,有異常則推送郵件通知
繼續(xù)升級:服務掛掉池户,自動重啟一次,如果再失敗凡怎,則郵件通知....(可以做)
集群主要的服務有:
hdfs:
主要負責數(shù)據(jù)存儲校焦,namenode負責管理元數(shù)據(jù),datanode負責存儲數(shù)據(jù)
namenode的高可用
頁面訪問集群的健康及存儲情況
hdfs的跨機房數(shù)據(jù)同步? distcp原理
疑問:小文件合并统倒?寨典?
druid
一個為在大數(shù)據(jù)集之上做實時統(tǒng)計分析而設計的開源數(shù)據(jù)存儲
不支持sql,查詢需要寫query.json 配置房匆,繁瑣耸成,通過restful 調用
alluxio
drill
MapReduce
主要用于hive的批處理
MapReduce原理
MapReduce參數(shù)優(yōu)化?浴鸿?
yarn
資源管理
nodemanager管理
與mesos資源管理的區(qū)別
hive
第一代執(zhí)行引擎:MapReduce
第二代執(zhí)行引擎:hive on tez and on yarn
第三代執(zhí)行引擎:hive + llap
hive 資源隔離
hive 的優(yōu)化
hive數(shù)據(jù)傾斜原因井氢,怎么解決?赚楚?
hbase
nosql數(shù)據(jù)庫
詳細毙沾??
應用場景宠页?左胞?
zookeeper
協(xié)調集群服務寇仓,及收集服務的信息信息,記錄狀態(tài)信息
具體的作用烤宙?遍烦??
kafka
最流行的消息隊列躺枕,特點:吞吐量大服猪,
與其他消息隊列的比較
基于kafka的衍生產(chǎn)品:
confluent:
gobblin:
kafka sql
spark
語法簡潔,可以用于批處理也可以用于流數(shù)據(jù)處理(streaming)
spark優(yōu)化拐云?罢猪?
flume
日志收集
sqoop
用于rdbms跟hdfs之間的數(shù)據(jù)導入導出
使用
缺點:到處扔java文件
衍生到阿里的導數(shù)工具:datax
storm
流數(shù)據(jù)處理,效率高
缺點叉瘩,只負責數(shù)據(jù)計算膳帕,不負責存儲
flink
使用?薇缅?
oozie調度
大數(shù)據(jù)調度平臺危彩,支持頁面配置任務
缺點:調度日志顯示不明顯,需要后臺查看
其他的大數(shù)據(jù)調度工具泳桦?汤徽??
atlas元數(shù)據(jù)管理
沒有具體了解灸撰?谒府?
ranger權限控制
大數(shù)據(jù)平臺的權限控制機制,可以管理如下服務:
hdfs plugins
hbase plugins
kafka plugins
yarn plugin
storm plugin
hive plugin
atlas plugin
kerberos安全管理
機制浮毯?狱掂?
presto插件
ambari添加repo,頁面統(tǒng)一管理presto服務啟停
基于內存的分布式查詢引擎亲轨,可以查詢hive和rdbms數(shù)據(jù),速率快
管理用于 select ,drop,create table權限
缺點:語法部分不支持鸟顺,支持自定義函數(shù)
kylin
預處理cube惦蚊,通過提前構建度量計算,查詢效率高讯嫂,
本身計算基于MapReduce或者spark蹦锋,不能實時構建cube查詢,只能通過調度欧芽,來定時構建cube
大數(shù)據(jù)平臺處理的流程介紹
采集
數(shù)據(jù)源:
mysql:主要使用了select * xxx > xxx.txt? 落地文件莉掂,做好結果行數(shù)校驗工作
文本:
mongo:采用mongoexport 工具導出 到文本
es:采用spark程序,來導出數(shù)據(jù)到文本
存儲
主要用于hdfs存儲
如何處理小文件千扔?憎妙?
hive數(shù)據(jù)倉庫存儲格式的迭代:? textfile ->? rcfile -> orcfile (parquet)
三種存儲格式的區(qū)別库正,用數(shù)據(jù)說話
計算
主要的計算方式有:
hive的 MapReduce? 或者tez(主要)
spark來處理(輔助)
查詢
ambari的查詢平臺,通過ldap用戶登錄管理厘唾,ranger權限管理
presto:基于yanagishima平臺或者airpal平臺來實現(xiàn)presto查詢hive數(shù)據(jù)(olap)
應用
構建數(shù)據(jù)倉庫
報表平臺
風控平臺
大數(shù)據(jù)平臺待優(yōu)化
資源的合理使用:避免資源閑置浪費褥符,合理實現(xiàn)資源隔離?
查詢緩存:統(tǒng)一執(zhí)行入口,先從緩存數(shù)據(jù) -> presto執(zhí)行 -> mapreduce 執(zhí)行
top-k緩存
數(shù)據(jù)倉庫中表使用情況統(tǒng)計抚垃,發(fā)現(xiàn)潛在問題喷楣,及時昨天模型調整
欠缺的方面:
業(yè)務方面
模型設計方面
用戶畫像
數(shù)據(jù)分析
工作中的項目經(jīng)歷,以及如果做出架構規(guī)劃的
大數(shù)據(jù)平臺經(jīng)典架構