大數(shù)據(jù)相關技術

大數(shù)據(jù)集群搭建

主要基于ambari來同一管理監(jiān)控集群

主要安裝步驟:

準備機器昼伴,修改hostname铸抑,固定ip等

機器間免密碼登錄

host機器開啟httpd服務泽疆,準備本地倉庫

安裝ambari setup

訪問頁面誊薄,通過ambari頁面安裝hdp

集群監(jiān)控:

依靠ambari頁面的監(jiān)控堡赔,缺點:需要人為的關注平臺界面

改造:通過在主節(jié)點添加各機器的服務名或端口監(jiān)控侣灶,通過主程序分發(fā)到集群各機器甸祭,異常消息通過kafka推送,最后在主節(jié)點消費topic褥影,有異常則推送郵件通知

繼續(xù)升級:服務掛掉池户,自動重啟一次,如果再失敗凡怎,則郵件通知....(可以做)

集群主要的服務有:

hdfs:

主要負責數(shù)據(jù)存儲校焦,namenode負責管理元數(shù)據(jù),datanode負責存儲數(shù)據(jù)

namenode的高可用

頁面訪問集群的健康及存儲情況

hdfs的跨機房數(shù)據(jù)同步? distcp原理

疑問:小文件合并统倒?寨典?

druid

一個為在大數(shù)據(jù)集之上做實時統(tǒng)計分析而設計的開源數(shù)據(jù)存儲

不支持sql,查詢需要寫query.json 配置房匆,繁瑣耸成,通過restful 調用

alluxio

drill

MapReduce

主要用于hive的批處理

MapReduce原理

MapReduce參數(shù)優(yōu)化?浴鸿?

yarn

資源管理

nodemanager管理

與mesos資源管理的區(qū)別

hive

第一代執(zhí)行引擎:MapReduce

第二代執(zhí)行引擎:hive on tez and on yarn

第三代執(zhí)行引擎:hive + llap

hive 資源隔離

hive 的優(yōu)化

hive數(shù)據(jù)傾斜原因井氢,怎么解決?赚楚?

hbase

nosql數(shù)據(jù)庫

詳細毙沾??

應用場景宠页?左胞?

zookeeper

協(xié)調集群服務寇仓,及收集服務的信息信息,記錄狀態(tài)信息

具體的作用烤宙?遍烦??

kafka

最流行的消息隊列躺枕,特點:吞吐量大服猪,

與其他消息隊列的比較

基于kafka的衍生產(chǎn)品:

confluent:

gobblin:

kafka sql

spark

語法簡潔,可以用于批處理也可以用于流數(shù)據(jù)處理(streaming)


spark優(yōu)化拐云?罢猪?

flume

日志收集

sqoop

用于rdbms跟hdfs之間的數(shù)據(jù)導入導出

使用

缺點:到處扔java文件

衍生到阿里的導數(shù)工具:datax

storm

流數(shù)據(jù)處理,效率高

缺點叉瘩,只負責數(shù)據(jù)計算膳帕,不負責存儲

flink

使用?薇缅?

oozie調度

大數(shù)據(jù)調度平臺危彩,支持頁面配置任務

缺點:調度日志顯示不明顯,需要后臺查看

其他的大數(shù)據(jù)調度工具泳桦?汤徽??

atlas元數(shù)據(jù)管理

沒有具體了解灸撰?谒府?

ranger權限控制

大數(shù)據(jù)平臺的權限控制機制,可以管理如下服務:

hdfs plugins

hbase plugins

kafka plugins

yarn plugin

storm plugin

hive plugin

atlas plugin

kerberos安全管理

機制浮毯?狱掂?

presto插件

ambari添加repo,頁面統(tǒng)一管理presto服務啟停

基于內存的分布式查詢引擎亲轨,可以查詢hive和rdbms數(shù)據(jù),速率快

管理用于 select ,drop,create table權限

缺點:語法部分不支持鸟顺,支持自定義函數(shù)

kylin

預處理cube惦蚊,通過提前構建度量計算,查詢效率高讯嫂,

本身計算基于MapReduce或者spark蹦锋,不能實時構建cube查詢,只能通過調度欧芽,來定時構建cube

大數(shù)據(jù)平臺處理的流程介紹

采集

數(shù)據(jù)源:

mysql:主要使用了select * xxx > xxx.txt? 落地文件莉掂,做好結果行數(shù)校驗工作

文本:

mongo:采用mongoexport 工具導出 到文本

es:采用spark程序,來導出數(shù)據(jù)到文本

存儲

主要用于hdfs存儲

如何處理小文件千扔?憎妙?

hive數(shù)據(jù)倉庫存儲格式的迭代:? textfile ->? rcfile -> orcfile (parquet)

三種存儲格式的區(qū)別库正,用數(shù)據(jù)說話

計算

主要的計算方式有:

hive的 MapReduce? 或者tez(主要)

spark來處理(輔助)

查詢

ambari的查詢平臺,通過ldap用戶登錄管理厘唾,ranger權限管理

presto:基于yanagishima平臺或者airpal平臺來實現(xiàn)presto查詢hive數(shù)據(jù)(olap)

應用

構建數(shù)據(jù)倉庫

報表平臺

風控平臺

大數(shù)據(jù)平臺待優(yōu)化

資源的合理使用:避免資源閑置浪費褥符,合理實現(xiàn)資源隔離?

查詢緩存:統(tǒng)一執(zhí)行入口,先從緩存數(shù)據(jù) -> presto執(zhí)行 -> mapreduce 執(zhí)行

top-k緩存

數(shù)據(jù)倉庫中表使用情況統(tǒng)計抚垃,發(fā)現(xiàn)潛在問題喷楣,及時昨天模型調整

欠缺的方面:

業(yè)務方面

模型設計方面

用戶畫像

數(shù)據(jù)分析

工作中的項目經(jīng)歷,以及如果做出架構規(guī)劃的

大數(shù)據(jù)平臺經(jīng)典架構

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末鹤树,一起剝皮案震驚了整個濱河市铣焊,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌罕伯,老刑警劉巖曲伊,帶你破解...
    沈念sama閱讀 212,816評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異捣炬,居然都是意外死亡熊昌,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評論 3 385
  • 文/潘曉璐 我一進店門湿酸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來婿屹,“玉大人,你說我怎么就攤上這事推溃“豪” “怎么了?”我有些...
    開封第一講書人閱讀 158,300評論 0 348
  • 文/不壞的土叔 我叫張陵铁坎,是天一觀的道長蜂奸。 經(jīng)常有香客問我,道長硬萍,這世上最難降的妖魔是什么扩所? 我笑而不...
    開封第一講書人閱讀 56,780評論 1 285
  • 正文 為了忘掉前任,我火速辦了婚禮朴乖,結果婚禮上祖屏,老公的妹妹穿的比我還像新娘。我一直安慰自己买羞,他們只是感情好袁勺,可當我...
    茶點故事閱讀 65,890評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著畜普,像睡著了一般期丰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,084評論 1 291
  • 那天钝荡,我揣著相機與錄音街立,去河邊找鬼。 笑死化撕,一個胖子當著我的面吹牛几晤,可吹牛的內容都是我干的。 我是一名探鬼主播植阴,決...
    沈念sama閱讀 39,151評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼蟹瘾,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了掠手?” 一聲冷哼從身側響起憾朴,我...
    開封第一講書人閱讀 37,912評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎喷鸽,沒想到半個月后众雷,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,355評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡做祝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,666評論 2 327
  • 正文 我和宋清朗相戀三年砾省,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片混槐。...
    茶點故事閱讀 38,809評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡编兄,死狀恐怖,靈堂內的尸體忽然破棺而出声登,到底是詐尸還是另有隱情狠鸳,我是刑警寧澤,帶...
    沈念sama閱讀 34,504評論 4 334
  • 正文 年R本政府宣布悯嗓,位于F島的核電站件舵,受9級特大地震影響,放射性物質發(fā)生泄漏脯厨。R本人自食惡果不足惜铅祸,卻給世界環(huán)境...
    茶點故事閱讀 40,150評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望合武。 院中可真熱鬧个少,春花似錦、人聲如沸眯杏。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽岂贩。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間萎津,已是汗流浹背卸伞。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留锉屈,地道東北人荤傲。 一個月前我還...
    沈念sama閱讀 46,628評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像颈渊,于是被迫代替她去往敵國和親遂黍。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,724評論 2 351

推薦閱讀更多精彩內容