前言
最近松懈了命锄,花了很多時間在玩游戲看視頻上堰乔,把學(xué)習(xí)計劃耽擱了,總說要自律累舷,但光說不做是沒用的浩考,最主要是自控能力太差了,得承認(rèn)自己和大多數(shù)人一樣被盈,愛玩析孽、不愿意邁出舒適區(qū),“知行合一”只怎,只四個字袜瞬,大道至簡,卻超過99%的人都做不到身堡。在前進(jìn)的路上邓尤,希望自己能克服惰性,提升自控力,按計劃耐心學(xué)習(xí)并踐行汞扎。
1季稳、數(shù)據(jù)分析步驟:
提出問題→理解數(shù)據(jù)→數(shù)據(jù)清洗→構(gòu)建模型→數(shù)據(jù)可視化
2、實(shí)踐案例:
利用一份招聘網(wǎng)站的數(shù)據(jù)作為實(shí)戰(zhàn)案例澈魄。
第一步提出問題:
1)在哪些城市找到數(shù)據(jù)分師工作的機(jī)會比較大景鼠?
2)數(shù)據(jù)分師的薪水如何?
3)根據(jù)工作經(jīng)驗的不同痹扇,薪酬是怎樣變化的铛漓?
第二步理解數(shù)據(jù):
初始數(shù)據(jù)有6875條,14項內(nèi)容鲫构。
設(shè)置表格列寬(步驟如下圖)浓恶,顯示全部內(nèi)容,方便后續(xù)操作结笨,最后保存包晰。
第三步清洗數(shù)據(jù):
這一步需要花費(fèi)的時間占大部分,把數(shù)據(jù)處理成自己想要的樣子禀梳。
1杜窄、選擇子集:選擇公司全名和公司ID兩列并隱藏(取消隱藏方法:全選表格→開始→格式→隱藏和取消隱藏→取消隱藏列)
2、列名重命名:雙擊列名可以修改成自己想要的列名算途。
3塞耕、刪除重復(fù)值:選擇職位ID將其重復(fù)值刪除(步驟如下圖)
4、缺失值處理:選擇職位ID列計數(shù)5032嘴瓤,選擇城市列計數(shù)5030扫外,城市列缺失兩個數(shù)據(jù)。
查找并定位城市列的缺失值(步驟如下圖)廓脆,缺失值填上海筛谚。
缺失值處理的4種方法,根據(jù)情況靈活使用:
1)通過人工手動補(bǔ)全停忿;
2)刪除缺失的數(shù)據(jù)驾讲;
3)用平均值代替缺失值;
4)用統(tǒng)計模型計算出的值去代替缺失值席赂。
5吮铭、一致化處理:對“公司所屬領(lǐng)域”進(jìn)行一致化處理(步驟如下圖)
將原來的“公司所屬領(lǐng)域”列隱藏,并將復(fù)制的列進(jìn)行分列:
6颅停、數(shù)據(jù)排序:
7谓晌、異常值處理:
第四步構(gòu)建模型
第五步數(shù)據(jù)可視化
通過上面的分析,我們可以得到的以下分析結(jié)論有:
1)數(shù)據(jù)分析這一崗位癞揉,有大量的工作機(jī)會集中在北上廣深以及新一線城市纸肉,如果你將來去這些城市找工作溺欧,可以提高你成功的條件概率。
2)從待遇上看柏肪,數(shù)據(jù)分析師留在深圳發(fā)展是個不錯的選擇姐刁,其次是北京、上海烦味。
3)數(shù)據(jù)分析是個年輕的職業(yè)方向龙填,大量的工作經(jīng)驗需求集中在1-3年。
對于數(shù)據(jù)分析師來說拐叉,5年似乎是個瓶頸期,如果在5年之內(nèi)沒有提升自己的能力扇商,大概以后的競爭壓力會比較大凤瘦。
4)隨著經(jīng)驗的提升,數(shù)據(jù)分析師的薪酬也在不斷提高案铺,10年以上工作經(jīng)驗的人蔬芥,能獲得相當(dāng)豐厚的薪酬。
3控汉、劃重點(diǎn):
1)分列功能會覆蓋掉右列單元格笔诵,所以我們記得先要復(fù)制這一列到最后一個空白列的地方,再進(jìn)行分列操作姑子。
2)上面圖片中的函數(shù):IF(COUNT(FIND({"數(shù)據(jù)運(yùn)營","數(shù)據(jù)分析","分析師"},L2)),"是","否")乎婿。
3)Ctrl+Eneter快捷鍵,在不連續(xù)的單元格中同時輸入同一個數(shù)據(jù)或公式時很好用街佑。
4)精確查找和近似查找(模糊查找)的區(qū)別
(1)精確查找是指從第一行開始往最后一行逐個查找谢翎。一找到匹配項就停止查詢,所以返回找到的第一個值沐旨。
(2)當(dāng)你要近似查找的時候,它就會苦逼地查遍所有的數(shù)據(jù),返回的是最后一個匹配到的值酵熙。
5)在使用vlookup函數(shù)時鉴吹,在很多情況下使用的是精確匹配,而在進(jìn)行分組時需要用模糊匹配谊迄,所以這里要輸入“1”來進(jìn)行模糊匹配闷供。
6)Excel設(shè)置了快捷鍵F4幫助用戶迅速切換相對引用、絕對引用和混合引用鳞上,步驟如下:
(1)選定包含該公式的單元格这吻;
(2)在編輯欄中選擇要更改的公式內(nèi)容,并按 F4 鍵篙议;
(3)以引用單元格A1為例唾糯,每次按 F4 鍵時怠硼,Excel會依次在以下組合間切換:
按一次F4是絕對引用
按兩次、三次F4是混合引用
按四次F4是相對引用
7)使用這個函數(shù)過程中移怯,如果出現(xiàn)錯誤標(biāo)識“#N/A”香璃,一般是3個原因?qū)е拢?/p>
(1)第2個參數(shù):查找范圍里第一列的值必須是要查找的值。
比如這個案例里第2個參數(shù)選定的的范圍里第一列是姓名舟误,是要查找值的列葡秒。
(2)數(shù)據(jù)存在空格,此時可以嵌套使用TRIM函數(shù)將空格批量刪除嵌溢。
(3)數(shù)據(jù)類型或格式不一致眯牧,此時將數(shù)據(jù)類型或格式轉(zhuǎn)為一致即可。