作者:數(shù)據(jù)分析不是個事兒
鏈接:http://www.reibang.com/p/fa5e96eb2476
來源:簡書
一個完整的數(shù)據(jù)分析都需要經(jīng)歷這樣幾個步驟:
1配深、數(shù)據(jù)獲取——這里我已經(jīng)用Python爬好了;
2、明確分析目的——你拿這數(shù)據(jù)要得到什么信息,解決什么問題掺炭;
3、觀察數(shù)據(jù)——各個數(shù)據(jù)字段的含義珠插,中英文釋義奴迅;
4、數(shù)據(jù)清洗——無效值均抽、缺失值嫁赏、重復(fù)值處理,數(shù)據(jù)結(jié)構(gòu)是否一致等油挥;
5潦蝇、分析過程——圍繞目的展開分析;
6喘漏、制作可視化——做圖表做可視化報告护蝶。
一、明確目的
數(shù)據(jù)分析的大忌是不知道分析的方向和目的翩迈,拿著一堆數(shù)據(jù)不知所措持灰。數(shù)據(jù)用來解決什么問題?
是進行匯總統(tǒng)計制作成報表负饲?
是進行數(shù)據(jù)可視化堤魁,作為一張信息圖?
是驗證某一類業(yè)務(wù)假設(shè)返十?
是希望提高某一個指標(biāo)的KPI妥泉?
要知道一切數(shù)據(jù)分析都是以業(yè)務(wù)為核心目的,所以要找到業(yè)務(wù)問題的思考點洞坑。關(guān)于找到問題的切入點盲链,之前數(shù)據(jù)分析思維篇講過。永遠(yuǎn)不要妄圖在一堆數(shù)據(jù)中找結(jié)論,目標(biāo)在前刽沾,數(shù)據(jù)在后本慕,哪怕是把數(shù)據(jù)做個平均值比較,也比沒有方向好侧漓。每一步嘗試都會引發(fā)進一步思考锅尘,比如為什么這個值這么低,原因在哪里布蔗,這個差異波動有何規(guī)律……
假設(shè)我是一個BI工程師藤违,我想知道:
目前BI工程師的平均薪資水平如何,薪資的區(qū)間分布如何
各地區(qū)對BI工程師的需求量是多少纵揍,哪些地區(qū)設(shè)崗最多顿乒。
不同年限的BI工程師薪資差異如何,3年后我差不多是什么樣的價位骡男?
薪水較高的公司有哪些淆游?
帶著這樣的問題,那我們的分析就有了方向隔盛,后續(xù)則是將目標(biāo)拆解為實際分析展示的過程犹菱。
二、了解數(shù)據(jù)概況
拿到數(shù)據(jù)肯定是要先看一下的吮炕,你想要的數(shù)據(jù)全不全腊脱,拿到的數(shù)據(jù)有哪些可分析之處。主要就是看數(shù)據(jù)字段龙亲,要了解數(shù)據(jù)字段的含義:
JobName——崗位名稱
Company——公司名
Salary——薪水
City——城市
Jobtype——崗位領(lǐng)域
Edulevel——學(xué)歷要求
WorkingExp——工作年限要求
三陕凹、數(shù)據(jù)清洗
接下來進行數(shù)據(jù)清洗。數(shù)據(jù)清洗一般包括無效值鳄炉、缺失值杜耙、重復(fù)值處理;數(shù)據(jù)是否有亂碼拂盯,錯位現(xiàn)象佑女;數(shù)據(jù)口徑問題,兩張表的關(guān)聯(lián)ID名是否一致谈竿;還有是否有統(tǒng)一的標(biāo)準(zhǔn)或命名团驱,如公司名全寫或縮寫的區(qū)分。數(shù)據(jù)轉(zhuǎn)換則是將數(shù)據(jù)規(guī)整為統(tǒng)一格式處理空凸。因為這是只是Excel級別的數(shù)據(jù)分析嚎花,且就一張簡單的數(shù)據(jù)表,不會有太多復(fù)雜的操作呀洲。這里簡單總結(jié)下紊选。
1啼止、有無缺失值
數(shù)據(jù)的缺失會很大程度影響分析結(jié)果。數(shù)據(jù)缺失的原因很多丛楚,比如數(shù)據(jù)采集的時候族壳,因為技術(shù)的原因,爬蟲沒有完全抓去趣些。但工作上更多的原因是數(shù)據(jù)入庫的時候就沒有收集全,有沒填有遺漏贰您,這又是數(shù)據(jù)規(guī)范數(shù)據(jù)治理的話題了坏平。一般來說,如果某一字段數(shù)據(jù)缺失超過40%~50%锦亦,就沒有分析意義了舶替,考慮刪除或作其他措施。
看數(shù)據(jù)有沒有缺失杠园,只要在Excel中選中該列看計數(shù)顾瞪。
2、臟數(shù)據(jù)處理
發(fā)現(xiàn)jobName列里面有一些類似BIM工程師的崗位信息抛蚁,這些應(yīng)該都是土木行業(yè)的工程師陈醒,爬去時沒做過濾,還有包含“bim”“BIOS””BIW”等字段瞧甩。
因為包含多重過濾钉跷,這里我建立輔助列,設(shè)立判斷條件肚逸,然后進行篩選過濾爷辙。
3、重復(fù)數(shù)據(jù)
重復(fù)數(shù)據(jù)一般對唯一標(biāo)識字段來處理朦促,比如用戶ID膝晾,訂單ID,公司ID這些务冕,這些字段都代表這一行數(shù)據(jù)是唯一存在的血当。嚴(yán)格來講,這里的表應(yīng)該存在公司ID這一字段洒疚,爬取數(shù)據(jù)的問題歹颓,我這就懶得再重爬了,就對Company字段做重復(fù)值處理油湖。
這里有一個快速竅門巍扛,使用Excel的刪除重復(fù)項功能,快速定位是否有重復(fù)數(shù)據(jù)乏德。對company列進行重復(fù)項刪除操作:
撤奸。只剩下562個值了吠昭。到此,一些臟數(shù)據(jù)基本清理的差不多了胧瓜。
最后矢棚,salary有一些數(shù)據(jù)是“薪資面議”,“校招”的府喳,這里也一并過濾掉蒲肋。Jobtype過濾掉汽車、電子等行業(yè)钝满,只留包含IT互聯(lián)網(wǎng)行業(yè)兜粘,最后剩下不到500條數(shù)據(jù)。
4弯蚜、數(shù)據(jù)再加工
一者是salary薪水用了幾K表示孔轴,這是文本,不能直接用于計算碎捺。而且還是一個范圍路鹰,后續(xù)得按照最高薪水和最低薪水拆成兩列。
二者由于城市字段存儲有的數(shù)據(jù)為“城市-區(qū)域”格式收厨,例如“上海-徐匯區(qū)”晋柱,為了方便分析每個城市的數(shù)據(jù),最后新增列“城市”帽氓,截取“-”前面的真實城市數(shù)據(jù)趣斤。
為了方便整理,和原數(shù)據(jù)區(qū)分黎休,也防止原數(shù)據(jù)丟失浓领,這里把之前處理的數(shù)據(jù)復(fù)制粘貼到另一張表里。
① 薪水處理
將salary拆成最高薪水和最低薪水有三種辦法势腮。
一是直接分列联贩,以"-"為拆分符,得到兩列數(shù)據(jù)捎拯,然后利用替換功能刪除 k這個字符串泪幌。得到結(jié)果。
二是自動填充功能署照,填寫已填寫的內(nèi)容自動計算填充所有列祸泪。
三是利用文本查找,重點講一下這個建芙。
寫公式的思路是没隘,先查找第一個K出現(xiàn)的位置,然后再-1禁荸,去除掉K右蒲。所以公式是:
同樣的思路阀湿,最高薪水需要利用find查找"-"位置,然后截取 從"-" 到最后第二個位置的字符串。
=MID(C2,FIND("-",C2,1)+1,LEN(C2)-FIND("-",C2,1)-1)
這里瑰妄,在新增數(shù)據(jù)列,平均薪水间坐,來近似代表實際的準(zhǔn)確薪資。平均薪水=(薪水下限+薪水上限)/2逝撬,即可得到每個崗位的平均薪水。
②真實城市截取
由于城市字段存儲有的數(shù)據(jù)為“城市-區(qū)域”格式,例如“上海-徐匯區(qū)”彬伦,為了方便分析每個城市的數(shù)據(jù)回官,最后新增列“城市”,截取“-”前面的真實城市數(shù)據(jù)苔巨。
=IF(COUNTIF(G2,"*-*")=0,G2,LEFT(G2,FIND("-",G2,1)-1))
至此蔬顾,所有數(shù)據(jù)清洗加工完畢娩践,食材已經(jīng)全部準(zhǔn)備好,下面可以正式開始數(shù)據(jù)可視化的美食下鍋烹飪了。
四葬馋、分析過程
分析過程有很多玩法甩恼,因為這里主要數(shù)據(jù)均是文本格式切端,數(shù)據(jù)又很簡單茵瀑,所以偏向匯總統(tǒng)計的計算。如果數(shù)值型的數(shù)據(jù)比較多,就會涉及到統(tǒng)計灶轰、比例等概念阱缓。如果有時間類數(shù)據(jù)喉悴,那么還會有趨勢今魔、變化的概念障贸。
整體分析使用數(shù)據(jù)透視表完成嘀粱,先利用數(shù)據(jù)透視表獲得匯總型統(tǒng)計娃磺。
北上廣深的BI工程師崗位遠(yuǎn)多于其他城市,成都杭州武漢梯隊次之。1~3年以及3~5年經(jīng)驗的缺口相當(dāng)大。
2儡湾、BI工程薪資情況分析
各經(jīng)驗?zāi)挲g的平均薪資狀況妒穴,差距梯度還是很明顯的