從IT時(shí)代到DT時(shí)代偏竟,我們所面臨的知識(shí)體系和結(jié)構(gòu)不可避免的發(fā)生了一些變化煮落,對(duì)IT技術(shù)宅男的我們也造成了不小的沖擊,那么踊谋,作為IT從業(yè)者的我們蝉仇,如何順利完成DT時(shí)代技術(shù)的升級(jí)和轉(zhuǎn)型,不至于補(bǔ)淘汰被出局的命運(yùn)呢?且聽我下面一一道來(lái)量淌;
隨著大數(shù)據(jù)并行處理技術(shù)的出現(xiàn)并日趨成熟骗村,以數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)及應(yīng)用在現(xiàn)在的IT行業(yè)中所扮演的位置越來(lái)越重要,市場(chǎng)份額越來(lái)越大呀枢,如果你是一家稍微有點(diǎn)規(guī)模的公司胚股,你還沒(méi)有hadoop環(huán)境(專門用于大數(shù)據(jù)分布式處理的平臺(tái)),你都不好意思說(shuō)你是一家IT公司裙秋。而這些變化其實(shí)都離不開智能手機(jī)的普及和電信技術(shù)的發(fā)展琅拌,不然即使有大數(shù)據(jù)并行處理技術(shù)的出現(xiàn),這么大的數(shù)據(jù)量也無(wú)用武之地摘刑。但是伴隨這個(gè)發(fā)展過(guò)程进宝,在IT行業(yè)摸爬滾打的我們不可避免的遇到了如下一些問(wèn)題:
(1) 只掌握單純的編程技術(shù),無(wú)法滿足新的需求變化帶來(lái)的沖擊枷恕;
(2) 數(shù)據(jù)分析人員現(xiàn)有的知識(shí)結(jié)構(gòu)党晋,無(wú)法完成新的需求任務(wù);
(3) IT行業(yè)中的DBA如果只掌握結(jié)構(gòu)化數(shù)據(jù)庫(kù)的知識(shí)徐块,已經(jīng)無(wú)法勝任新的DBA工作未玻;
(4) 項(xiàng)目管理者面對(duì)著新的體系架構(gòu),無(wú)法設(shè)計(jì)出合理的架構(gòu)。
上面這些沖擊胡控,其實(shí)已經(jīng)足以毀滅一家傳統(tǒng)的IT行業(yè)公司扳剿,所以行業(yè)中都是拼命的一定要和大數(shù)據(jù)扯上關(guān)系不行,不然好像你就活不下去了似的昼激。尤其是2016年Google的AlphaGo戰(zhàn)勝世界圍棋冠軍李世石庇绽,這一科技熱點(diǎn)更是加速了整體行業(yè)涌入大數(shù)據(jù)的步伐。
最近給人的感受是傳統(tǒng)行業(yè)的開發(fā)者們更是猶如熱鍋上的螞蟻橙困,尤其是哪些只掌握單一技能的開發(fā)者或者是一直在傳統(tǒng)行業(yè)公司干幾很多年瞧掺,只會(huì)用C,Delphi,C++之類編程語(yǔ)言的開發(fā)者凡傅,更會(huì)有末日都要到了的感覺辟狈。那么我們來(lái)看一看為何大數(shù)據(jù)技術(shù)的出現(xiàn)和發(fā)展會(huì)對(duì)傳統(tǒng)IT行業(yè)的從業(yè)者們?cè)斐扇绱舜蟮膫δ兀看篌w原因如下:
(1) 隨著電信行業(yè)的發(fā)展像捶,使得通過(guò)智能設(shè)備搜集數(shù)據(jù)(包括文本上陕,圖片,視頻等)上傳到服務(wù)器端成為可能拓春,使得我們目前的數(shù)據(jù)維度之豐富释簿,數(shù)據(jù)量之大,如果還使用老的思路來(lái)進(jìn)行數(shù)據(jù)處理和數(shù)據(jù)分析已經(jīng)不可能完成硼莽,這樣打個(gè)比喻吧庶溶,用以前的技術(shù)來(lái)處理現(xiàn)在的數(shù)據(jù)量煮纵,可能你在有生之年都看不到最終結(jié)果,所有這是hadoop得以誕生后得以訊速發(fā)展的原因,雖然haddop的原生技術(shù)是用JAVA寫的偏螺,但是光掌握單一的JAVA語(yǔ)言已經(jīng)不能完成新的任務(wù)了行疏;
(2) 當(dāng)我們現(xiàn)有的數(shù)據(jù)變豐富后,也就是維度變大后套像,我們需要從更多的角度來(lái)分析一個(gè)事務(wù)酿联,而不像以前那樣,數(shù)據(jù)分析人員夺巩,只需要根據(jù)年齡段贞让,性別,經(jīng)濟(jì)收入和工作性質(zhì)等少數(shù)據(jù)幾個(gè)維度來(lái)分析數(shù)據(jù)柳譬,和其它公司使用大數(shù)據(jù)喳张,更多維度分析得出來(lái)的結(jié)論準(zhǔn)確性,沒(méi)有可比性美澳,所以對(duì)數(shù)據(jù)分析人員需要分析更多維度的數(shù)據(jù)销部,而且需要找出其中的關(guān)聯(lián)性,所以發(fā)展出了新的技術(shù)分析方法制跟,以前的技術(shù)人員已經(jīng)無(wú)法勝認(rèn)新的工作了舅桩;
(3) 對(duì)于結(jié)構(gòu)化數(shù)據(jù)時(shí)代為王的DBA,由于大數(shù)據(jù)技術(shù)的發(fā)展,出現(xiàn)的新的數(shù)據(jù)庫(kù)存儲(chǔ)方式和方法和以前的結(jié)構(gòu)化數(shù)據(jù)都不一致的數(shù)據(jù)庫(kù)方法凫岖,不能按以前的知識(shí)體系來(lái)管理新的數(shù)據(jù)庫(kù)了江咳,而且由于數(shù)據(jù)量的巨增逢净,轉(zhuǎn)化后需要存儲(chǔ)的數(shù)據(jù)量也遠(yuǎn)遠(yuǎn)比以前多了好多倍哥放,這就需要新的分布式結(jié)構(gòu)化數(shù)據(jù)庫(kù)來(lái)管理,這結(jié)DBA來(lái)說(shuō)爹土,也是一種新的知識(shí)甥雕;
(4) 而站在項(xiàng)目管理者和架構(gòu)師的角度看,如果沒(méi)有接觸過(guò)或者了解過(guò)新的架構(gòu)體系胀茵,首先就是不知道新的體系架構(gòu)承載多大的數(shù)據(jù)量社露,多大的并發(fā)量比較合理,所以設(shè)計(jì)出來(lái)的系統(tǒng)架構(gòu)可能會(huì)比較不合理琼娘,如果在加上人為因素峭弟,就會(huì)帶來(lái)成本的不合理,而這些都是需要在使用中逐漸才能解決的問(wèn)題脱拼;
(5) 隨著維度豐富的數(shù)據(jù)及及相應(yīng)匹配的技術(shù)的出現(xiàn)瞒瘸,使得數(shù)據(jù)挖掘的價(jià)值大有可為,而這類人才熄浓,因?yàn)樾录夹g(shù)是最新才出現(xiàn)的情臭,所以不可避免的就會(huì)缺少相應(yīng)的人才,而且是極度缺少。
好了俯在,從IT到DT時(shí)代竟秫,把我們面臨的問(wèn)題和原因都找到了,那么我們具體來(lái)看一下我們都需要那些技能才能跟上時(shí)代的步伐呢跷乐,結(jié)果筆者所在行業(yè)肥败,作了一下簡(jiǎn)單的整理,如下:
(1) Hadoop(含hdfs,Hbase):完成離線處理作業(yè);
(2) Apache Spark:流式處理框架愕提,主要完成在線作業(yè)拙吉;
(3) Apache Storm: 側(cè)重于極低延遲的流處理框架,主要完成在線作業(yè)揪荣;
(4) Apache Samza: 與Apache Kafka消息系統(tǒng)緊密綁定的流處理框架;
(5) HIVE/Impala: 主要完成關(guān)系型分析查詢作業(yè);
(6) Pig:主要完成數(shù)據(jù)清洗筷黔,ETL 等腳本作業(yè);
(7) Greenplum:分布式結(jié)構(gòu)化數(shù)據(jù)庫(kù),主要完成結(jié)構(gòu)化的數(shù)據(jù)處理;
(8) Mahout: 用于數(shù)據(jù)挖掘仗颈。
那么作為IT技術(shù)宅男的我們佛舱,如何去習(xí)得這些技術(shù)并發(fā)揚(yáng)光大呢,話說(shuō)在學(xué)會(huì)一門技術(shù)的最快的學(xué)習(xí)去使用它挨决,那們?nèi)绾味加心男┕驹谑褂媚厍胱妫芎?jiǎn)單就能知道,去百度搜索一下2016互聯(lián)網(wǎng)公司top100脖祈,劃出一個(gè)名單來(lái)肆捕,直接去應(yīng)聘大數(shù)據(jù)部門就是了,為了不至于被虐成狗盖高,要求掌握的最低最低要技能如下:
練熟掌握J(rèn)AVA慎陵,好呆也做過(guò)幾個(gè)拿得出手的項(xiàng)目吧;
掌握基本的數(shù)據(jù)庫(kù)知識(shí);
掌握hadoop基本框架喻奥,最好能自己搭一套席纽,并做一些具體練習(xí)。