摘要:本次實戰(zhàn)題目和數(shù)據(jù)選取自公眾號“秦路”榛做,是針對數(shù)據(jù)分析的招聘崗位的需求分析。數(shù)據(jù)抓取時間是2016.11月内狸,抓取的是當(dāng)時各大招聘網(wǎng)站有關(guān)數(shù)據(jù)分析的崗位數(shù)據(jù)检眯。以下是個人的實操過程。
數(shù)據(jù)分析的大忌是不知道分析方向和目的昆淡,拿著一堆數(shù)據(jù)不知所措锰瘸。一切數(shù)據(jù)分析都是以業(yè)務(wù)為核心目的的,以數(shù)據(jù)為目的的數(shù)據(jù)分析都是耍流氓~~
數(shù)據(jù)用來解決什么問題的:
比如說:
是進(jìn)行匯總統(tǒng)計制作成報表瘪撇?
是進(jìn)行數(shù)據(jù)可視化获茬,作為一張信息圖?
是驗證某一類業(yè)務(wù)假設(shè)倔既?
是希望提高某一個指標(biāo)的KPI?
......
PS:經(jīng)過后面的思考鹏氧,發(fā)現(xiàn)下圖中行業(yè)&公司一欄里的兩個問題其實是重復(fù)的渤涌,“什么行業(yè)”和“哪類公司”其實含義是一樣的。
補(bǔ)充一個問題:公司越大把还,對數(shù)據(jù)分析師的需求越大嗎实蓬?
數(shù)據(jù)的缺失值很大程度上會影響分析結(jié)果。引起缺失的原因有很多吊履,例如技術(shù)安皱,爬蟲沒有完全抓去,埋點沒有做好等等艇炎,例如本身的缺失酌伊,該崗位的HR沒有填寫(關(guān)于數(shù)據(jù)缺失處理,希望以后能寫一篇菜鳥學(xué)習(xí)文章出來)
一致化指的是數(shù)據(jù)是否有統(tǒng)一的標(biāo)準(zhǔn)或命名缀踪。例如上海市數(shù)據(jù)分析有限公司和上海數(shù)據(jù)分析有限公司居砖,只差了一個字,但是對機(jī)器和程序而言驴娃,它們依舊會把它們認(rèn)成是兩家奏候。這會影響最后的計數(shù)、數(shù)據(jù)透視的結(jié)果唇敞。
臟數(shù)據(jù)是指分析過程中很討厭的環(huán)節(jié)蔗草。例如亂碼咒彤,錯位(),重復(fù)值咒精,未匹配數(shù)據(jù)(數(shù)據(jù)不完整性)蔼紧,加密數(shù)據(jù)等。能影響到分析結(jié)果的都是臟數(shù)據(jù)狠轻,沒有一致化也可以算奸例。
數(shù)據(jù)標(biāo)準(zhǔn)結(jié)構(gòu),就是將特殊結(jié)構(gòu)的數(shù)據(jù)進(jìn)行轉(zhuǎn)換和規(guī)整向楼。
數(shù)據(jù)清洗
1查吊、首先是清洗薪資。
溫馨小tips:excel如何批量自動填充單元格湖蜕。
http://jingyan.baidu.com/article/546ae1853742b11149f28cb2.html
2逻卖、接下來把companyLabelList,businessZones昭抒,positionAdvantage進(jìn)行分列评也。
可以看到companyLabelList標(biāo)簽都是固定的內(nèi)容,而positionLables灭返、positionAdvantage盗迟、businessZones雖然也可用分列法做,但是這三個字段都是由HR自己填寫的熙含,所以你會發(fā)現(xiàn)這會有各種不統(tǒng)一的描述罚缕。
這些自定義的內(nèi)容,并沒有特別大的分析價值怎静。
溫馨小tips:excel只替換某一列數(shù)據(jù)
http://jingyan.baidu.com/article/fcb5aff7aa222cedaa4a718e.html
總結(jié)篇
數(shù)據(jù)分析的思路:
一邮弹、明確數(shù)據(jù)分析的目的
二、觀察數(shù)據(jù)
? ? ? ? 1蚓聘、了解數(shù)據(jù)背后的含義
? ? ? ? 2腌乡、看看這些數(shù)據(jù)之間有什么聯(lián)系
? ? ? ? 3、明確要保留/分析哪些數(shù)據(jù)
三夜牡、數(shù)據(jù)清洗
四与纽、分析結(jié)論