·數(shù)據(jù)分析師應(yīng)該具備哪些技能?
要明確學(xué)習(xí)的路徑,最有效的方式就是看具體的職業(yè)访圃、工作崗位對(duì)于技能的具體需求。
從拉勾上找了一些最具有代表性的數(shù)據(jù)分析師職位信息相嵌,來看看薪資不菲的數(shù)據(jù)分析師腿时,到底需要哪些技能。
其實(shí)企業(yè)對(duì)數(shù)據(jù)分析師的基礎(chǔ)技能需求差別不大饭宾,可總結(jié)如下:
SQL數(shù)據(jù)庫的基本操作批糟,會(huì)基本的數(shù)據(jù)管理
會(huì)用Excel/SQL做基本的數(shù)據(jù)分析和展示
會(huì)用腳本語言進(jìn)行數(shù)據(jù)分析,Python or R
有獲取外部數(shù)據(jù)的能力看铆,如爬蟲
會(huì)基本的數(shù)據(jù)可視化技能徽鼎,能撰寫數(shù)據(jù)報(bào)告
熟悉常用的數(shù)據(jù)挖掘算法:回歸分析、決策樹弹惦、隨機(jī)森林否淤、支持向量機(jī)等。
·尋找最合適的學(xué)習(xí)路徑
·最高效的學(xué)習(xí)路徑是什么樣的棠隐?
一定要清楚的是石抡,你想要達(dá)到的目標(biāo)是什么?如果你想利用數(shù)據(jù)分析的方法來支撐工作決策助泽,那么你可能需要知道數(shù)據(jù)分析的流程是什么啰扛,通過數(shù)據(jù)分析的方法能獲得哪些信息,這些信息可以用來支撐什么工作嗡贺。
然后你需要知道要達(dá)到這樣的目的隐解,需要哪些必備的技能,哪些是不需要學(xué)習(xí)的诫睬。其實(shí)在這個(gè)過程中你對(duì)知識(shí)的框架就有了大概的了解煞茫,并知道如何去避免無效的信息。
更重要的是摄凡,你需要了解续徽,完成一個(gè)數(shù)據(jù)分析項(xiàng)目,基本的流程是什么架谎。這樣你才知道學(xué)習(xí)的知識(shí)炸宵,在具體的工作中是如何應(yīng)用,并能夠在學(xué)習(xí)之后進(jìn)行針對(duì)性的訓(xùn)練谷扣,做到有的放矢土全。
·數(shù)據(jù)分析的工作流程
1. 定義問題
在做具體的分析前捎琐,你需要確定要分析的問題是什么?你想得出哪些結(jié)論裹匙?
比如某地區(qū)空氣質(zhì)量變化的趨勢(shì)是什么瑞凑?
影響公司銷售額增長(zhǎng)的關(guān)鍵因素是什么?
生產(chǎn)環(huán)節(jié)中影響產(chǎn)能和質(zhì)量的核心指標(biāo)是什么概页?
如何對(duì)分析用戶畫像并進(jìn)行精準(zhǔn)營(yíng)銷籽御?
如何基于歷史數(shù)據(jù)預(yù)測(cè)未來某個(gè)階段用戶行為?
問題的定義需要你去了解業(yè)務(wù)的核心知識(shí)惰匙,并從中獲得一些可以幫助你進(jìn)行分析的經(jīng)驗(yàn)源武。
2. 數(shù)據(jù)獲取
有了具體的問題县习,你就需要獲取相關(guān)的數(shù)據(jù)了。比如你要探究北京空氣質(zhì)量變化的趨勢(shì),你可能就需要收集北京最近幾年的空氣質(zhì)量數(shù)據(jù)赏寇、天氣數(shù)據(jù)困曙,甚至工廠數(shù)據(jù)概而、氣體排放數(shù)據(jù)诗宣、重要日程數(shù)據(jù)等等。
如果你要分析影響公司銷售的關(guān)鍵因素龄毡,你就需要調(diào)用公司的歷史銷售數(shù)據(jù)吠卷、用戶畫像數(shù)據(jù)、廣告投放數(shù)據(jù)等沦零。
數(shù)據(jù)的獲取方式有多種祭隔。
一是公司的銷售、用戶數(shù)據(jù)蠢终⌒蛉粒可以直接從企業(yè)數(shù)據(jù)庫調(diào)取,所以你需要SQL技能去完成數(shù)據(jù)提取等的數(shù)據(jù)庫管理工作寻拂。比如你可以根據(jù)你的需要提取2017年所有的銷售數(shù)據(jù)、提取今年銷量最大的50件商品的數(shù)據(jù)丈牢、提取上海祭钉、廣東地區(qū)用戶的消費(fèi)數(shù)據(jù)……,SQL可以通過簡(jiǎn)單的命令幫你完成這些工作己沛。
第二種是獲取外部的公開數(shù)據(jù)集慌核,一些科研機(jī)構(gòu)、企業(yè)申尼、政府會(huì)開放一些數(shù)據(jù)垮卓,你需要到特定的網(wǎng)站去下載這些公開數(shù)據(jù)。
第三種是編寫網(wǎng)頁爬蟲师幕。比如你可以通過爬蟲獲取招聘網(wǎng)站某一職位的招聘信息粟按,爬取租房網(wǎng)站上某城市的租房信息诬滩,獲取知乎點(diǎn)贊排行等∶鸾基于互聯(lián)網(wǎng)爬取的數(shù)據(jù)疼鸟,你可以對(duì)某個(gè)行業(yè)、某種人群進(jìn)行分析庙曙,這算是非晨站担靠譜的市場(chǎng)調(diào)研、競(jìng)品分析的方式了捌朴。
3. 數(shù)據(jù)預(yù)處理
原始的數(shù)據(jù)可能會(huì)有很多問題吴攒,比如殘缺的數(shù)據(jù)、重復(fù)的數(shù)據(jù)砂蔽、無效的數(shù)據(jù)等等舶斧。把這些影響分析的數(shù)據(jù)處理好,才能獲得更加精確地分析結(jié)果察皇。
比如空氣質(zhì)量的數(shù)據(jù)茴厉,其中有很多天的數(shù)據(jù)由于設(shè)備的原因是沒有監(jiān)測(cè)到的,有一些數(shù)據(jù)是記錄重復(fù)的什荣,還有一些數(shù)據(jù)是設(shè)備故障時(shí)監(jiān)測(cè)無效的矾缓。
那么我們需要用相應(yīng)的方法去處理,比如殘缺數(shù)據(jù)稻爬,我們是直接去掉這條數(shù)據(jù)嗜闻,還是用臨近的值去補(bǔ)全,這些都是需要考慮的問題桅锄。
當(dāng)然在這里我們還可能會(huì)有數(shù)據(jù)的分組琉雳、基本描述統(tǒng)計(jì)量的計(jì)算、基本統(tǒng)計(jì)圖形的繪制友瘤、數(shù)據(jù)取值的轉(zhuǎn)換翠肘、數(shù)據(jù)的正態(tài)化處理等,能夠幫助我們掌握數(shù)據(jù)的分布特征辫秧,是進(jìn)一步深入分析和建模的基礎(chǔ)束倍。
4. 數(shù)據(jù)分析與建模
在這個(gè)部分需要了解基本的數(shù)據(jù)分析方法、數(shù)據(jù)挖掘算法盟戏,了解不同方法適用的場(chǎng)景和適合的問題绪妹。分析時(shí)應(yīng)切忌濫用和誤用統(tǒng)計(jì)分析方法。濫用和誤用統(tǒng)計(jì)分析方法主要是由于對(duì)方法能解決哪類問題柿究、方法適用的前提邮旷、方法對(duì)數(shù)據(jù)的要求不清等原因造成的。
比如你發(fā)現(xiàn)在一定條件下蝇摸,銷量和價(jià)格是正比關(guān)系婶肩,那么你可以據(jù)此建立一個(gè)線性回歸模型办陷,你發(fā)現(xiàn)價(jià)格和廣告是非線性關(guān)系,你可以先建立一個(gè)邏輯回歸模型來進(jìn)行分析狡孔。
當(dāng)然你也可以了解一些數(shù)據(jù)挖掘的算法懂诗、特征提取的方法來優(yōu)化自己的模型,獲得更好的結(jié)果苗膝。
5. 數(shù)據(jù)可視化及數(shù)據(jù)報(bào)告撰寫
分析結(jié)果最直接的是統(tǒng)計(jì)量的描述和統(tǒng)計(jì)量的展示殃恒。
比如我們通過數(shù)據(jù)的分布發(fā)現(xiàn)數(shù)據(jù)分析師工資最高的5個(gè)城市,目前各種編程語言的流行度排行榜辱揭,近幾年北京空氣質(zhì)量的變化趨勢(shì)离唐,商品消費(fèi)者的地區(qū)分布……這些都是我們通過簡(jiǎn)單數(shù)據(jù)分析與可視化就可以展現(xiàn)出的結(jié)果。
另外一些則需要深入探究?jī)?nèi)部的關(guān)系问窃,比如影響產(chǎn)品質(zhì)量最關(guān)鍵的幾個(gè)指標(biāo)亥鬓,你需要對(duì)不同指標(biāo)與產(chǎn)品質(zhì)量進(jìn)行相關(guān)性分析之后才能得出正確結(jié)論。又比如你需要預(yù)測(cè)未來某個(gè)時(shí)間段的產(chǎn)品銷量域庇,則需要你對(duì)歷史數(shù)據(jù)進(jìn)行建模和分析嵌戈,才能對(duì)未來的情況有更精準(zhǔn)的預(yù)測(cè)。
數(shù)據(jù)分析報(bào)告不僅是分析結(jié)果的直接呈現(xiàn)听皿,還是對(duì)相關(guān)情況的一個(gè)全面的認(rèn)識(shí)熟呛。所以你需要一個(gè)講故事的邏輯,如何從一個(gè)宏觀的問題尉姨,深入庵朝、細(xì)化到問題內(nèi)部的方方面面,得出令人信服的結(jié)果又厉。