架構(gòu)地圖
序序叨叨
最新梳理了2021年以大數(shù)據(jù)為中心的技術(shù)架構(gòu)地圖鸭限,一些重點的技術(shù)已經(jīng)用粗體標(biāo)出闰蚕。計劃對照地圖逐一打卡,查漏補(bǔ)缺懂从。
大數(shù)據(jù)從2014年授段、2015年大火以來,現(xiàn)在已經(jīng)度過了爆發(fā)期番甩、泡沫期侵贵,趨于成熟和產(chǎn)業(yè)落地,就此架構(gòu)地圖簡單說明幾點对室,歡迎各位老師交流補(bǔ)充模燥。
傳統(tǒng)的大數(shù)據(jù)三件套
- 大數(shù)據(jù)采集
- 大數(shù)據(jù)存儲
- 大數(shù)據(jù)計算
也有說大數(shù)據(jù)可視化的,一般來說可視化的工作仍屬于傳統(tǒng)前端展示掩宜,與“小數(shù)據(jù)”的時代并無太大的差異蔫骂。實際上,大數(shù)據(jù)的工作奧義就是將大數(shù)據(jù)轉(zhuǎn)為小數(shù)據(jù)牺汤,然后友軍接手辽旋,專業(yè)的事情還是交給專業(yè)的人去做吧。
采集那里沒有特別在技術(shù)地圖上寫明檐迟。一般就是sqoop补胚,flume這兩個,或者加一個阿里巴巴開源的canal(支持Mysql基于數(shù)據(jù)庫增量日志解析追迟,提供增量數(shù)據(jù)訂閱&消費)溶其。存儲目前主流還是Hadoop系,可以關(guān)注一下對象存儲敦间。大數(shù)據(jù)計算領(lǐng)域Spark還是標(biāo)桿瓶逃。
服務(wù)器與Linux
大數(shù)據(jù)的工作與Linux等操作系統(tǒng)打交道的頻次遠(yuǎn)遠(yuǎn)高于傳統(tǒng)后端開發(fā)。大數(shù)據(jù)組件的部署和維護(hù)也對服務(wù)器知識有一定的需求廓块。這方面的知識多多益善厢绝。
Linux主要是有幾個流行的發(fā)行版,再者就是關(guān)注一下6/7/8大版本的命令差異带猴。
數(shù)學(xué)
做大數(shù)據(jù)業(yè)務(wù)的話沒有對高等數(shù)學(xué)有很高的要求昔汉。想更上一層樓的話,比如目標(biāo)是數(shù)據(jù)科學(xué)家拴清,那時候再有的放矢地去鉆靶病。不過会通,良好的數(shù)據(jù)結(jié)構(gòu)與算法基礎(chǔ)大有裨益,跟具體做什么工作關(guān)系不大嫡秕,更像是一種思維邏輯的訓(xùn)練渴语。
計科的知識學(xué)而時習(xí)之,基本功扎實了昆咽,才能修好內(nèi)功。
云計算
PaaS和DaaS的概念已經(jīng)清晰了牙甫。大數(shù)據(jù)服務(wù)上云掷酗,數(shù)據(jù)即服務(wù)的趨勢明朗,云計算的邊角料該掌握就掌握窟哺,順勢而為泻轰。
建議先學(xué)習(xí)容器化
重要的方向
數(shù)據(jù)質(zhì)量、數(shù)據(jù)治理和數(shù)據(jù)湖正當(dāng)其時且轨。如果只會大數(shù)據(jù)三件套浮声,已經(jīng)無法突破卷的結(jié)界了,提升綜合能力旋奢,成為π型人才才能更加可靠泳挥。
這個方向可以圍繞數(shù)據(jù)倉庫和中臺概念展開。
未雨綢繆至朗,時不我待屉符。
計劃每一個一級分類會創(chuàng)建出一個專題進(jìn)行梳理,持續(xù)更新锹引,一起學(xué)習(xí)吧矗钟。
點:技術(shù)地圖
線:架構(gòu)通識
面:大數(shù)據(jù)
更新于2021/5/18
暮小七