在美國,大數(shù)據(jù)工程師平均年薪達17.5萬美元摧茴,在中國頂尖的互聯(lián)網(wǎng)公司里绵载,大數(shù)據(jù)工程師的薪酬比同級別的其他職位高出30%以上。DT時代來得太突然了蓬蝶,國內(nèi)發(fā)展勢頭很猛尘分,而大數(shù)據(jù)相關(guān)的人才卻非常地有限,在未來若干年內(nèi)都會是供不應(yīng)求的狀況丸氛,因此程序員們培愁,你們的春天到了!
轉(zhuǎn)行也并非一朝一夕的事情缓窜,你需要對這個行業(yè)有一定的了解定续,并匹配一下自己的知識和能力結(jié)構(gòu)。
以下是一位在BAT大數(shù)據(jù)領(lǐng)域打滾了N年后的分析師寫下的一些總結(jié)和體會給想入行或是剛?cè)胄写髷?shù)據(jù)的朋友借鑒學(xué)習(xí)禾锤!
成為數(shù)據(jù)分析師有哪些要求私股?
1、理論知識要寬泛恩掷,涉及數(shù)學(xué)倡鲸、市場和技術(shù)。要求及對數(shù)據(jù)敏感黄娘,包括統(tǒng)計知識峭状、市場研究克滴、模型原理等。
2优床、常規(guī)分析工具的使用劝赔,包括數(shù)據(jù)庫、數(shù)據(jù)挖掘胆敞、統(tǒng)計分析工具着帽,常用辦公軟件(Excel、PPT移层、思維導(dǎo)圖)等等仍翰。
3、有一定的業(yè)務(wù)理解能力幽钢,能理解業(yè)務(wù)背后的商業(yè)邏輯歉备。因為只有理解了商業(yè)問題,才能轉(zhuǎn)換成數(shù)據(jù)分析的問題匪燕,從而滿足部門的要求蕾羊。
4、數(shù)據(jù)報告和數(shù)據(jù)可視化的能力帽驯。數(shù)據(jù)分析得再好龟再,如果不能以漂亮的方式“表達”,成效也會大打折扣尼变。
現(xiàn)在大多工作都需要你擁有邏輯分析能力利凑,尤其是對數(shù)據(jù)的分析理解。在數(shù)據(jù)化運營理念深入的今天嫌术,BAT這樣的大型互聯(lián)網(wǎng)公司強調(diào)全員參與數(shù)據(jù)化運營哀澈,把數(shù)據(jù)分析當(dāng)作一種能力在培訓(xùn),也必定是未來趨勢度气。
數(shù)據(jù)分析師所需具備的能力和知識(從數(shù)據(jù)分析的4個步驟來理解)
數(shù)據(jù)分析的四個步驟:數(shù)據(jù)獲取割按、數(shù)據(jù)處理、數(shù)據(jù)分析磷籍、數(shù)據(jù)呈現(xiàn)适荣。
1、數(shù)據(jù)獲取
數(shù)據(jù)獲取看似簡單院领,但是需要把握對問題的商業(yè)理解弛矛,轉(zhuǎn)化成數(shù)據(jù)問題來解決,直白點講就是需要哪些數(shù)據(jù)比然,從哪些角度來分析丈氓,界定問題后,再進行數(shù)據(jù)采集。此環(huán)節(jié)万俗,需要數(shù)據(jù)分析師具備結(jié)構(gòu)化的邏輯思維鱼鼓。
推薦書籍:《金字塔原理》、麥肯錫三部曲:麥肯錫意識该编、工具、方法硕淑;
推薦工具:思維導(dǎo)圖工具(Xmind\百度腦圖等)课竣;
2、數(shù)據(jù)處理
數(shù)據(jù)的處理需要掌握有效率的工具:
Excel及高端技能:日常工作通用置媳,容易掌握于樟,處理10萬級別的數(shù)據(jù)很輕松。
學(xué)習(xí)高端Excel需要哪些技能拇囊?
學(xué)習(xí)excel是個循序漸進的過程
基礎(chǔ):簡單的表格數(shù)據(jù)處理迂曲、打印、查詢寥袭、篩選路捧、排序
函數(shù)和公式:常用函數(shù)传黄、高級數(shù)據(jù)計算膘掰、數(shù)組公式、多維引用凡伊、function
可視化圖表:圖形圖示展示窒舟、高級圖表辜纲、圖表插件
數(shù)據(jù)透視表耕腾、VBA程序開發(fā)
按照我習(xí)慣的方法,先過一遍基礎(chǔ)苍苞,知道什么是什么,然后找?guī)讉€case練習(xí)骂际。多逛逛excelhome論壇歉铝,平常多思考如何用excel來解決問題凑耻,善用插件,還有記得保存香浩。
帆軟FineReport:專業(yè)的報表工具,日常做報表設(shè)計一個模板可通用餐弱,只要會寫SQL就可上手囱晴。相比excel做報表,開發(fā)的技術(shù)要求較少降允,能很快地開發(fā)常規(guī)報表艺糜、動態(tài)報表破停,并可以放在移動端和大屏查看真慢。
Oracle和SQL sever:企業(yè)最常用的千萬級別的數(shù)據(jù)庫,熟練掌握SQL語言管嬉。
保持不斷的技術(shù)學(xué)習(xí)蚯撩,比如學(xué)習(xí)新流行的hadoop之類的分布式數(shù)據(jù)庫來提升個人能力胎挎,對求職有幫助。
3德迹、分析數(shù)據(jù)
分析數(shù)據(jù)往往需要各類統(tǒng)計分析模型揭芍,如關(guān)聯(lián)規(guī)則、聚類称杨、分類流酬、預(yù)測模型等等列另。
因此,熟練掌握一些統(tǒng)計分析工具不可免:
SPSS系列:老牌的統(tǒng)計分析軟件,SPSS Statistics(偏統(tǒng)計功能阴绢、市場研究)店乐、SPSS Modeler(偏數(shù)據(jù)挖掘)呻袭,不用編程,易學(xué)左电。
SAS:經(jīng)典挖掘軟件廉侧,需要編程篓足。
R:開源軟件,新流行栈拖,對非結(jié)構(gòu)化數(shù)據(jù)處理效率上更高,需編程涩哟。
各類BI工具:
Tableau:可視化工具的鼻祖,對于處理好的數(shù)據(jù)可作自由的可視化分析潜腻,圖表效果驚人
大數(shù)據(jù)BI工具FineBI:類同Tableau锻弓,可在前端做任意維度分析暴心;數(shù)據(jù)可在前端繼續(xù)處理(計算妓盲、篩選過濾等),可對接hadoop之類的大數(shù)據(jù)平臺檀夹,數(shù)據(jù)處理性能較好筋粗。
推薦書籍:
1、《說菜鳥不會數(shù)據(jù)分析》系列炸渡,入門級書娜亿,初學(xué)者最適。
2蚌堵、《數(shù)據(jù)挖掘與數(shù)據(jù)化運營實戰(zhàn)买决,思路、方法吼畏、技巧與應(yīng)用》督赤,內(nèi)容很系統(tǒng)很全面。
3躲舌、《市場研究定量分析方法與應(yīng)用》,簡明等編著没卸,中國人民大學(xué)出版社。
4办悟、數(shù)據(jù)可視化呈現(xiàn)
很多數(shù)據(jù)分析工具已經(jīng)涵蓋了數(shù)據(jù)可視化部分,只需要把數(shù)據(jù)結(jié)果進行有效的呈現(xiàn)和演講匯報病蛉,可用word\PPT\H5等方式展現(xiàn)瑰煎。
學(xué)習(xí)路線規(guī)劃
高清完整圖文末獲取
第一階段(基礎(chǔ)階段)
Linux學(xué)習(xí)
Linux操作系統(tǒng)介紹與安裝铺然、Linux常用命令魄健、Linux常用軟件安裝、Linux網(wǎng)絡(luò)沽瘦、 防火墻革骨、Shell編程等析恋。
Java 高級學(xué)習(xí)(《深入理解Java虛擬機》、《Java高并發(fā)實戰(zhàn)》)
掌握多線程助隧、掌握并發(fā)包下的隊列、掌握JVM技術(shù)并村、掌握反射和動態(tài)代理、了解JMS哩牍。
Zookeeper學(xué)習(xí)
Zookeeper分布式協(xié)調(diào)服務(wù)介紹、Zookeeper集群的安裝部署瓦盛、Zookeeper數(shù)據(jù)結(jié)構(gòu)、命令。
第二階段(攻堅階段)
Hadoop挠唆、Hive处窥、HBase滔驾、Scala、Spark哆致、Python
第三階段(輔助工具工學(xué)習(xí)階段)
Sqoop、Flume摊阀、Oozie、Hue這些工具的學(xué)習(xí)主要在CSDN胞此,51CTO以及官網(wǎng)都可以學(xué)習(xí)。
那如何學(xué)習(xí)才能快速入門并精通呢漱牵?
學(xué)習(xí)Hadoop生態(tài)(MR、Hbase酣胀、Spark刁赦、Storm等)開發(fā)技術(shù)甚脉,深度講解了數(shù)據(jù)挖掘、機器學(xué)習(xí)相關(guān)的算法宦焦、神經(jīng)網(wǎng)絡(luò)等內(nèi)容!
而且還把集群需要用到的各種程序進行了打包波闹,根據(jù)基礎(chǔ)視頻可以讓你輕松搭建Hadoop完全分布式環(huán)境,像在企業(yè)生產(chǎn)環(huán)境一樣進行學(xué)習(xí)和實踐精堕。
再次強調(diào):
1、把數(shù)據(jù)分析作為一種能力培養(yǎng)歹篓,讓自己在現(xiàn)在的團隊中展現(xiàn)出良好的數(shù)據(jù)分析能力,為你以后內(nèi)部轉(zhuǎn)崗做好準(zhǔn)備庄撮。
2毙籽、扎實學(xué)好一、兩門數(shù)據(jù)挖掘軟件坑赡,基于你已有得編程基礎(chǔ),可以學(xué)SAS或者R毅否,基本能夠滿足很大部分企業(yè)的需求。
3螟加、多看多想多觀察,學(xué)習(xí)業(yè)務(wù)職能是這樣捆探,細水長流,還需要不斷工作積累和廣泛的閱讀徐许。
最后,希望你能夠成為你想成為的人雌隅!