一位岔、背景
最近領(lǐng)導(dǎo)和團(tuán)隊溝通,想提高數(shù)據(jù)建模團(tuán)隊的能力堡牡。結(jié)合自己工作的經(jīng)驗和朋友的交流抒抬,來總結(jié)下如何去做。
二晤柄、我做過什么
很多大數(shù)據(jù)數(shù)據(jù)倉庫人員都是從事過傳統(tǒng)BI業(yè)務(wù)或者數(shù)據(jù)庫業(yè)務(wù)的擦剑。傳統(tǒng)BI一般都是Oracle存儲過程,O是真的牛,很多銀行和電力業(yè)務(wù)目前還是存儲過程寫的業(yè)務(wù)代碼惠勒。自己曾經(jīng)親身經(jīng)歷過赚抡,兩千行的業(yè)務(wù)package,寫起來和改起來特別有“成就感”纠屋!后來聽說了Hadoop涂臣,網(wǎng)上自己自己找資料,Win環(huán)境搭建了起來售担,現(xiàn)在去百度還能搜到那篇文章赁遗。后來再也不推薦別人去碰Win搭建Hadoop!
后來機(jī)遇灼舍,進(jìn)了大數(shù)據(jù)行業(yè)吼和,參與主導(dǎo)了一些大數(shù)據(jù)從無到有的建設(shè)過程。真的很感謝那段晚上十點后回家的歲月骑素,還有工作中的伙伴炫乓,這段工作算是自己的一個能力的很大提升。從沒有接觸過Linux到寫過近1000行的數(shù)據(jù)處理腳本献丑,現(xiàn)在公司應(yīng)該還在用吧末捣。接觸運維了百億級別數(shù)據(jù)聚合秒出的Vertica (商業(yè)軟件真好用),建了一個100多人的技術(shù)交流群创橄,雖然不活躍箩做,但確實幫到很多人。(還專門申請了一個Vertica的域名妥畏,部署了自己博客 http://vertica.club/ ,又該續(xù)費了……)
了解了zeppelin邦邦,參與了早期的一些功能建議和驗證,雖然后來工作中沒用到醉蚁,自己也沒有再跟社區(qū)燃辖,但這個工具真好用,這是專門給數(shù)據(jù)人的工具网棍,非常好黔龟,可以寫出很漂亮的數(shù)據(jù)報告。(下面找我名字吧…)
三滥玷、數(shù)據(jù)人應(yīng)該做什么
還是說說我熟悉的數(shù)據(jù)倉庫建設(shè)氏身。個人認(rèn)為數(shù)據(jù)人員可以走兩個大方向提升自己(當(dāng)然數(shù)倉理論知識必須得掌握),一惑畴、精通業(yè)務(wù)蛋欣,熟練SQL,加強(qiáng)工程能力如贷。記住工程能力很重要豁状!二捉偏、了解算法,掌握PYTHON泻红,熟練做分析夭禽。我是那種什么都想做的人……
1)、精通業(yè)務(wù)谊路,就要做到業(yè)務(wù)指標(biāo)的標(biāo)準(zhǔn)由你說了算讹躯,努力成為業(yè)務(wù)專家,參與一些重要指標(biāo)的定義缠劝。比如去看公司的Wiki潮梯,通過在公司熟悉的同事找到業(yè)務(wù)架構(gòu)負(fù)責(zé)人,了解相關(guān)資料惨恭。
2)秉馏、熟練SQL,并不僅僅是熟練寫脱羡。要做到了解SQL的執(zhí)行計劃萝究,掌握執(zhí)行數(shù)據(jù)庫環(huán)境的調(diào)優(yōu)。當(dāng)然很多人會說這是DBA做的工作锉罐,但是數(shù)據(jù)人應(yīng)該比DBA寫的SQL多吧帆竹,當(dāng)你發(fā)現(xiàn)你寫的一段邏輯能從1個小時優(yōu)化到5分鐘,你就會發(fā)現(xiàn)這是多有成就感脓规。掌握數(shù)據(jù)庫栽连,要從數(shù)據(jù)庫的存儲架構(gòu)出發(fā),掌握數(shù)據(jù)庫的簡單管理侨舆,熟練應(yīng)用場景秒紧。最終你掌握幾種數(shù)據(jù)庫使用后,你會發(fā)現(xiàn)你能夠幫助公司或部門做數(shù)據(jù)庫選型了挨下。
算法這個筆者自己現(xiàn)在還沒真正入門噩茄,學(xué)習(xí)中……,歡迎大神帶進(jìn)門复颈!
四、如何做
1)沥割,既然是做大數(shù)據(jù)的數(shù)據(jù)倉庫耗啦,對大數(shù)據(jù)各個組件要有了解,對大數(shù)據(jù)整個處理架構(gòu)要有了解机杜,從數(shù)據(jù)采集帜讲,到處理,再到數(shù)據(jù)展示椒拗,數(shù)據(jù)運營等似将,都需要了解获黔。推薦一本書《大數(shù)據(jù)之路》,很感謝上家公司選購了這本書在验,給員工看玷氏。
2),SQL 熟能生巧腋舌,其實可以嘗試用SQL寫一些小工具盏触,記得自己15年的時候閑暇寫了一個身份證解析的包,大家用著很不錯块饺。附上代碼 :https://blog.csdn.net/windyqcf/article/details/46048657
3)赞辩,養(yǎng)成筆記的習(xí)慣,記得剛開始接觸Vertica數(shù)據(jù)庫的時候授艰,自己上網(wǎng)百度辨嗽,很少有資料,沒辦法淮腾,只能自己看英文版的官方文檔糟需,在自己的環(huán)境和工作中嘗試總結(jié),形成博客来破,慢慢發(fā)現(xiàn)自己積累了很多篮灼。