用Excel做一次完整的數(shù)據(jù)分析

作者:數(shù)據(jù)分析不是個事兒

鏈接:http://www.reibang.com/p/fa5e96eb2476

來源:簡書

一個完整的數(shù)據(jù)分析都需要經(jīng)歷這樣幾個步驟:

1配深、數(shù)據(jù)獲取——這里我已經(jīng)用Python爬好了;

2、明確分析目的——你拿這數(shù)據(jù)要得到什么信息,解決什么問題掺炭;

3、觀察數(shù)據(jù)——各個數(shù)據(jù)字段的含義珠插,中英文釋義奴迅;

4、數(shù)據(jù)清洗——無效值均抽、缺失值嫁赏、重復(fù)值處理,數(shù)據(jù)結(jié)構(gòu)是否一致等油挥;

5潦蝇、分析過程——圍繞目的展開分析;

6喘漏、制作可視化——做圖表做可視化報告护蝶。

一、明確目的

數(shù)據(jù)分析的大忌是不知道分析的方向和目的翩迈,拿著一堆數(shù)據(jù)不知所措持灰。數(shù)據(jù)用來解決什么問題?

是進行匯總統(tǒng)計制作成報表负饲?

是進行數(shù)據(jù)可視化堤魁,作為一張信息圖?

是驗證某一類業(yè)務(wù)假設(shè)返十?

是希望提高某一個指標(biāo)的KPI妥泉?

要知道一切數(shù)據(jù)分析都是以業(yè)務(wù)為核心目的,所以要找到業(yè)務(wù)問題的思考點洞坑。關(guān)于找到問題的切入點盲链,之前數(shù)據(jù)分析思維篇講過。永遠(yuǎn)不要妄圖在一堆數(shù)據(jù)中找結(jié)論,目標(biāo)在前刽沾,數(shù)據(jù)在后本慕,哪怕是把數(shù)據(jù)做個平均值比較,也比沒有方向好侧漓。每一步嘗試都會引發(fā)進一步思考锅尘,比如為什么這個值這么低,原因在哪里布蔗,這個差異波動有何規(guī)律……

假設(shè)我是一個BI工程師藤违,我想知道:

目前BI工程師的平均薪資水平如何,薪資的區(qū)間分布如何

各地區(qū)對BI工程師的需求量是多少纵揍,哪些地區(qū)設(shè)崗最多顿乒。

不同年限的BI工程師薪資差異如何,3年后我差不多是什么樣的價位骡男?

薪水較高的公司有哪些淆游?

帶著這樣的問題,那我們的分析就有了方向隔盛,后續(xù)則是將目標(biāo)拆解為實際分析展示的過程犹菱。

二、了解數(shù)據(jù)概況

拿到數(shù)據(jù)肯定是要先看一下的吮炕,你想要的數(shù)據(jù)全不全腊脱,拿到的數(shù)據(jù)有哪些可分析之處。主要就是看數(shù)據(jù)字段龙亲,要了解數(shù)據(jù)字段的含義:

JobName——崗位名稱

Company——公司名

Salary——薪水

City——城市

Jobtype——崗位領(lǐng)域

Edulevel——學(xué)歷要求

WorkingExp——工作年限要求


三陕凹、數(shù)據(jù)清洗


接下來進行數(shù)據(jù)清洗。數(shù)據(jù)清洗一般包括無效值鳄炉、缺失值杜耙、重復(fù)值處理;數(shù)據(jù)是否有亂碼拂盯,錯位現(xiàn)象佑女;數(shù)據(jù)口徑問題,兩張表的關(guān)聯(lián)ID名是否一致谈竿;還有是否有統(tǒng)一的標(biāo)準(zhǔn)或命名团驱,如公司名全寫或縮寫的區(qū)分。數(shù)據(jù)轉(zhuǎn)換則是將數(shù)據(jù)規(guī)整為統(tǒng)一格式處理空凸。因為這是只是Excel級別的數(shù)據(jù)分析嚎花,且就一張簡單的數(shù)據(jù)表,不會有太多復(fù)雜的操作呀洲。這里簡單總結(jié)下紊选。

1啼止、有無缺失值

數(shù)據(jù)的缺失會很大程度影響分析結(jié)果。數(shù)據(jù)缺失的原因很多丛楚,比如數(shù)據(jù)采集的時候族壳,因為技術(shù)的原因,爬蟲沒有完全抓去趣些。但工作上更多的原因是數(shù)據(jù)入庫的時候就沒有收集全,有沒填有遺漏贰您,這又是數(shù)據(jù)規(guī)范數(shù)據(jù)治理的話題了坏平。一般來說,如果某一字段數(shù)據(jù)缺失超過40%~50%锦亦,就沒有分析意義了舶替,考慮刪除或作其他措施。

看數(shù)據(jù)有沒有缺失杠园,只要在Excel中選中該列看計數(shù)顾瞪。

2、臟數(shù)據(jù)處理

發(fā)現(xiàn)jobName列里面有一些類似BIM工程師的崗位信息抛蚁,這些應(yīng)該都是土木行業(yè)的工程師陈醒,爬去時沒做過濾,還有包含“bim”“BIOS””BIW”等字段瞧甩。

因為包含多重過濾钉跷,這里我建立輔助列,設(shè)立判斷條件肚逸,然后進行篩選過濾爷辙。

3、重復(fù)數(shù)據(jù)

重復(fù)數(shù)據(jù)一般對唯一標(biāo)識字段來處理朦促,比如用戶ID膝晾,訂單ID,公司ID這些务冕,這些字段都代表這一行數(shù)據(jù)是唯一存在的血当。嚴(yán)格來講,這里的表應(yīng)該存在公司ID這一字段洒疚,爬取數(shù)據(jù)的問題歹颓,我這就懶得再重爬了,就對Company字段做重復(fù)值處理油湖。

這里有一個快速竅門巍扛,使用Excel的刪除重復(fù)項功能,快速定位是否有重復(fù)數(shù)據(jù)乏德。對company列進行重復(fù)項刪除操作:

撤奸。只剩下562個值了吠昭。到此,一些臟數(shù)據(jù)基本清理的差不多了胧瓜。

最后矢棚,salary有一些數(shù)據(jù)是“薪資面議”,“校招”的府喳,這里也一并過濾掉蒲肋。Jobtype過濾掉汽車、電子等行業(yè)钝满,只留包含IT互聯(lián)網(wǎng)行業(yè)兜粘,最后剩下不到500條數(shù)據(jù)。

4弯蚜、數(shù)據(jù)再加工

一者是salary薪水用了幾K表示孔轴,這是文本,不能直接用于計算碎捺。而且還是一個范圍路鹰,后續(xù)得按照最高薪水和最低薪水拆成兩列。

二者由于城市字段存儲有的數(shù)據(jù)為“城市-區(qū)域”格式收厨,例如“上海-徐匯區(qū)”晋柱,為了方便分析每個城市的數(shù)據(jù),最后新增列“城市”帽氓,截取“-”前面的真實城市數(shù)據(jù)趣斤。

為了方便整理,和原數(shù)據(jù)區(qū)分黎休,也防止原數(shù)據(jù)丟失浓领,這里把之前處理的數(shù)據(jù)復(fù)制粘貼到另一張表里。

① 薪水處理

將salary拆成最高薪水和最低薪水有三種辦法势腮。

一是直接分列联贩,以"-"為拆分符,得到兩列數(shù)據(jù)捎拯,然后利用替換功能刪除 k這個字符串泪幌。得到結(jié)果。

二是自動填充功能署照,填寫已填寫的內(nèi)容自動計算填充所有列祸泪。

三是利用文本查找,重點講一下這個建芙。

寫公式的思路是没隘,先查找第一個K出現(xiàn)的位置,然后再-1禁荸,去除掉K右蒲。所以公式是:

同樣的思路阀湿,最高薪水需要利用find查找"-"位置,然后截取 從"-" 到最后第二個位置的字符串。

=MID(C2,FIND("-",C2,1)+1,LEN(C2)-FIND("-",C2,1)-1)

這里瑰妄,在新增數(shù)據(jù)列,平均薪水间坐,來近似代表實際的準(zhǔn)確薪資。平均薪水=(薪水下限+薪水上限)/2逝撬,即可得到每個崗位的平均薪水。

②真實城市截取

由于城市字段存儲有的數(shù)據(jù)為“城市-區(qū)域”格式,例如“上海-徐匯區(qū)”彬伦,為了方便分析每個城市的數(shù)據(jù)回官,最后新增列“城市”,截取“-”前面的真實城市數(shù)據(jù)苔巨。

=IF(COUNTIF(G2,"*-*")=0,G2,LEFT(G2,FIND("-",G2,1)-1))

至此蔬顾,所有數(shù)據(jù)清洗加工完畢娩践,食材已經(jīng)全部準(zhǔn)備好,下面可以正式開始數(shù)據(jù)可視化的美食下鍋烹飪了。

四葬馋、分析過程

分析過程有很多玩法甩恼,因為這里主要數(shù)據(jù)均是文本格式切端,數(shù)據(jù)又很簡單茵瀑,所以偏向匯總統(tǒng)計的計算。如果數(shù)值型的數(shù)據(jù)比較多,就會涉及到統(tǒng)計灶轰、比例等概念阱缓。如果有時間類數(shù)據(jù)喉悴,那么還會有趨勢今魔、變化的概念障贸。

整體分析使用數(shù)據(jù)透視表完成嘀粱,先利用數(shù)據(jù)透視表獲得匯總型統(tǒng)計娃磺。


加了一下增材區(qū)分吆倦,增加數(shù)據(jù)大小的辨識度。(條件格式——色階)

北上廣深的BI工程師崗位遠(yuǎn)多于其他城市,成都杭州武漢梯隊次之。1~3年以及3~5年經(jīng)驗的缺口相當(dāng)大。


2儡湾、BI工程薪資情況分析


各經(jīng)驗?zāi)挲g的平均薪資狀況妒穴,差距梯度還是很明顯的

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市瘦赫,隨后出現(xiàn)的幾起案子窘问,更是在濱河造成了極大的恐慌惠赫,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,692評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件罐呼,死亡現(xiàn)場離奇詭異嫉柴,居然都是意外死亡瞧壮,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評論 3 392
  • 文/潘曉璐 我一進店門灯谣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來呐萨,“玉大人朽缎,你說我怎么就攤上這事〈仓” “怎么了尾抑?”我有些...
    開封第一講書人閱讀 162,995評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長逻淌。 經(jīng)常有香客問我俐巴,道長骨望,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,223評論 1 292
  • 正文 為了忘掉前任欣舵,我火速辦了婚禮擎鸠,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘缘圈。我一直安慰自己劣光,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,245評論 6 388
  • 文/花漫 我一把揭開白布糟把。 她就那樣靜靜地躺著绢涡,像睡著了一般。 火紅的嫁衣襯著肌膚如雪遣疯。 梳的紋絲不亂的頭發(fā)上雄可,一...
    開封第一講書人閱讀 51,208評論 1 299
  • 那天,我揣著相機與錄音另锋,去河邊找鬼。 笑死狭归,一個胖子當(dāng)著我的面吹牛夭坪,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播过椎,決...
    沈念sama閱讀 40,091評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼室梅,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起亡鼠,我...
    開封第一講書人閱讀 38,929評論 0 274
  • 序言:老撾萬榮一對情侶失蹤赏殃,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后间涵,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體仁热,經(jīng)...
    沈念sama閱讀 45,346評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,570評論 2 333
  • 正文 我和宋清朗相戀三年勾哩,在試婚紗的時候發(fā)現(xiàn)自己被綠了抗蠢。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,739評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡思劳,死狀恐怖迅矛,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情潜叛,我是刑警寧澤秽褒,帶...
    沈念sama閱讀 35,437評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站威兜,受9級特大地震影響销斟,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜牡属,卻給世界環(huán)境...
    茶點故事閱讀 41,037評論 3 326
  • 文/蒙蒙 一票堵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧逮栅,春花似錦悴势、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至侥加,卻和暖如春捧存,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背担败。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評論 1 269
  • 我被黑心中介騙來泰國打工昔穴, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人提前。 一個月前我還...
    沈念sama閱讀 47,760評論 2 369
  • 正文 我出身青樓吗货,卻偏偏與公主長得像,于是被迫代替她去往敵國和親狈网。 傳聞我的和親對象是個殘疾皇子宙搬,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,647評論 2 354

推薦閱讀更多精彩內(nèi)容