總結(jié)數(shù)據(jù)分析師的崗位要求和工作流程-筆記

·數(shù)據(jù)分析師應(yīng)該具備哪些技能?

要明確學(xué)習(xí)的路徑,最有效的方式就是看具體的職業(yè)访圃、工作崗位對(duì)于技能的具體需求。

從拉勾上找了一些最具有代表性的數(shù)據(jù)分析師職位信息相嵌,來看看薪資不菲的數(shù)據(jù)分析師腿时,到底需要哪些技能。


其實(shí)企業(yè)對(duì)數(shù)據(jù)分析師的基礎(chǔ)技能需求差別不大饭宾,可總結(jié)如下:

SQL數(shù)據(jù)庫的基本操作批糟,會(huì)基本的數(shù)據(jù)管理

會(huì)用Excel/SQL做基本的數(shù)據(jù)分析和展示

會(huì)用腳本語言進(jìn)行數(shù)據(jù)分析,Python or R

有獲取外部數(shù)據(jù)的能力看铆,如爬蟲

會(huì)基本的數(shù)據(jù)可視化技能徽鼎,能撰寫數(shù)據(jù)報(bào)告

熟悉常用的數(shù)據(jù)挖掘算法:回歸分析、決策樹弹惦、隨機(jī)森林否淤、支持向量機(jī)等。


·尋找最合適的學(xué)習(xí)路徑

·最高效的學(xué)習(xí)路徑是什么樣的棠隐?

一定要清楚的是石抡,你想要達(dá)到的目標(biāo)是什么?如果你想利用數(shù)據(jù)分析的方法來支撐工作決策助泽,那么你可能需要知道數(shù)據(jù)分析的流程是什么啰扛,通過數(shù)據(jù)分析的方法能獲得哪些信息,這些信息可以用來支撐什么工作嗡贺。

然后你需要知道要達(dá)到這樣的目的隐解,需要哪些必備的技能,哪些是不需要學(xué)習(xí)的诫睬。其實(shí)在這個(gè)過程中你對(duì)知識(shí)的框架就有了大概的了解煞茫,并知道如何去避免無效的信息。

更重要的是摄凡,你需要了解续徽,完成一個(gè)數(shù)據(jù)分析項(xiàng)目,基本的流程是什么架谎。這樣你才知道學(xué)習(xí)的知識(shí)炸宵,在具體的工作中是如何應(yīng)用,并能夠在學(xué)習(xí)之后進(jìn)行針對(duì)性的訓(xùn)練谷扣,做到有的放矢土全。


·數(shù)據(jù)分析的工作流程

1. 定義問題

在做具體的分析前捎琐,你需要確定要分析的問題是什么?你想得出哪些結(jié)論裹匙?

比如某地區(qū)空氣質(zhì)量變化的趨勢(shì)是什么瑞凑?

影響公司銷售額增長(zhǎng)的關(guān)鍵因素是什么?

生產(chǎn)環(huán)節(jié)中影響產(chǎn)能和質(zhì)量的核心指標(biāo)是什么概页?

如何對(duì)分析用戶畫像并進(jìn)行精準(zhǔn)營(yíng)銷籽御?

如何基于歷史數(shù)據(jù)預(yù)測(cè)未來某個(gè)階段用戶行為?

問題的定義需要你去了解業(yè)務(wù)的核心知識(shí)惰匙,并從中獲得一些可以幫助你進(jìn)行分析的經(jīng)驗(yàn)源武。


2. 數(shù)據(jù)獲取

有了具體的問題县习,你就需要獲取相關(guān)的數(shù)據(jù)了。比如你要探究北京空氣質(zhì)量變化的趨勢(shì),你可能就需要收集北京最近幾年的空氣質(zhì)量數(shù)據(jù)赏寇、天氣數(shù)據(jù)困曙,甚至工廠數(shù)據(jù)概而、氣體排放數(shù)據(jù)诗宣、重要日程數(shù)據(jù)等等。

如果你要分析影響公司銷售的關(guān)鍵因素龄毡,你就需要調(diào)用公司的歷史銷售數(shù)據(jù)吠卷、用戶畫像數(shù)據(jù)、廣告投放數(shù)據(jù)等沦零。

數(shù)據(jù)的獲取方式有多種祭隔。

一是公司的銷售、用戶數(shù)據(jù)蠢终⌒蛉粒可以直接從企業(yè)數(shù)據(jù)庫調(diào)取,所以你需要SQL技能去完成數(shù)據(jù)提取等的數(shù)據(jù)庫管理工作寻拂。比如你可以根據(jù)你的需要提取2017年所有的銷售數(shù)據(jù)、提取今年銷量最大的50件商品的數(shù)據(jù)丈牢、提取上海祭钉、廣東地區(qū)用戶的消費(fèi)數(shù)據(jù)……,SQL可以通過簡(jiǎn)單的命令幫你完成這些工作己沛。

第二種是獲取外部的公開數(shù)據(jù)集慌核,一些科研機(jī)構(gòu)、企業(yè)申尼、政府會(huì)開放一些數(shù)據(jù)垮卓,你需要到特定的網(wǎng)站去下載這些公開數(shù)據(jù)

第三種是編寫網(wǎng)頁爬蟲师幕。比如你可以通過爬蟲獲取招聘網(wǎng)站某一職位的招聘信息粟按,爬取租房網(wǎng)站上某城市的租房信息诬滩,獲取知乎點(diǎn)贊排行等∶鸾基于互聯(lián)網(wǎng)爬取的數(shù)據(jù)疼鸟,你可以對(duì)某個(gè)行業(yè)、某種人群進(jìn)行分析庙曙,這算是非晨站担靠譜的市場(chǎng)調(diào)研、競(jìng)品分析的方式了捌朴。


3. 數(shù)據(jù)預(yù)處理

原始的數(shù)據(jù)可能會(huì)有很多問題吴攒,比如殘缺的數(shù)據(jù)、重復(fù)的數(shù)據(jù)砂蔽、無效的數(shù)據(jù)等等舶斧。把這些影響分析的數(shù)據(jù)處理好,才能獲得更加精確地分析結(jié)果察皇。

比如空氣質(zhì)量的數(shù)據(jù)茴厉,其中有很多天的數(shù)據(jù)由于設(shè)備的原因是沒有監(jiān)測(cè)到的,有一些數(shù)據(jù)是記錄重復(fù)的什荣,還有一些數(shù)據(jù)是設(shè)備故障時(shí)監(jiān)測(cè)無效的矾缓。

那么我們需要用相應(yīng)的方法去處理,比如殘缺數(shù)據(jù)稻爬,我們是直接去掉這條數(shù)據(jù)嗜闻,還是用臨近的值去補(bǔ)全,這些都是需要考慮的問題桅锄。

當(dāng)然在這里我們還可能會(huì)有數(shù)據(jù)的分組琉雳、基本描述統(tǒng)計(jì)量的計(jì)算、基本統(tǒng)計(jì)圖形的繪制友瘤、數(shù)據(jù)取值的轉(zhuǎn)換翠肘、數(shù)據(jù)的正態(tài)化處理等,能夠幫助我們掌握數(shù)據(jù)的分布特征辫秧,是進(jìn)一步深入分析和建模的基礎(chǔ)束倍。


4. 數(shù)據(jù)分析與建模

在這個(gè)部分需要了解基本的數(shù)據(jù)分析方法、數(shù)據(jù)挖掘算法盟戏,了解不同方法適用的場(chǎng)景和適合的問題绪妹。分析時(shí)應(yīng)切忌濫用和誤用統(tǒng)計(jì)分析方法。濫用和誤用統(tǒng)計(jì)分析方法主要是由于對(duì)方法能解決哪類問題柿究、方法適用的前提邮旷、方法對(duì)數(shù)據(jù)的要求不清等原因造成的。

比如你發(fā)現(xiàn)在一定條件下蝇摸,銷量和價(jià)格是正比關(guān)系婶肩,那么你可以據(jù)此建立一個(gè)線性回歸模型办陷,你發(fā)現(xiàn)價(jià)格和廣告是非線性關(guān)系,你可以先建立一個(gè)邏輯回歸模型來進(jìn)行分析狡孔。

當(dāng)然你也可以了解一些數(shù)據(jù)挖掘的算法懂诗、特征提取的方法來優(yōu)化自己的模型,獲得更好的結(jié)果苗膝。


5. 數(shù)據(jù)可視化及數(shù)據(jù)報(bào)告撰寫

分析結(jié)果最直接的是統(tǒng)計(jì)量的描述和統(tǒng)計(jì)量的展示殃恒。

比如我們通過數(shù)據(jù)的分布發(fā)現(xiàn)數(shù)據(jù)分析師工資最高的5個(gè)城市,目前各種編程語言的流行度排行榜辱揭,近幾年北京空氣質(zhì)量的變化趨勢(shì)离唐,商品消費(fèi)者的地區(qū)分布……這些都是我們通過簡(jiǎn)單數(shù)據(jù)分析與可視化就可以展現(xiàn)出的結(jié)果。

另外一些則需要深入探究?jī)?nèi)部的關(guān)系问窃,比如影響產(chǎn)品質(zhì)量最關(guān)鍵的幾個(gè)指標(biāo)亥鬓,你需要對(duì)不同指標(biāo)與產(chǎn)品質(zhì)量進(jìn)行相關(guān)性分析之后才能得出正確結(jié)論。又比如你需要預(yù)測(cè)未來某個(gè)時(shí)間段的產(chǎn)品銷量域庇,則需要你對(duì)歷史數(shù)據(jù)進(jìn)行建模和分析嵌戈,才能對(duì)未來的情況有更精準(zhǔn)的預(yù)測(cè)。

數(shù)據(jù)分析報(bào)告不僅是分析結(jié)果的直接呈現(xiàn)听皿,還是對(duì)相關(guān)情況的一個(gè)全面的認(rèn)識(shí)熟呛。所以你需要一個(gè)講故事的邏輯,如何從一個(gè)宏觀的問題尉姨,深入庵朝、細(xì)化到問題內(nèi)部的方方面面,得出令人信服的結(jié)果又厉。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末九府,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子覆致,更是在濱河造成了極大的恐慌侄旬,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,265評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件篷朵,死亡現(xiàn)場(chǎng)離奇詭異勾怒,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)声旺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來段只,“玉大人腮猖,你說我怎么就攤上這事≡拚恚” “怎么了澈缺?”我有些...
    開封第一講書人閱讀 156,852評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵坪创,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我姐赡,道長(zhǎng)莱预,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,408評(píng)論 1 283
  • 正文 為了忘掉前任项滑,我火速辦了婚禮依沮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘枪狂。我一直安慰自己危喉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評(píng)論 5 384
  • 文/花漫 我一把揭開白布州疾。 她就那樣靜靜地躺著辜限,像睡著了一般。 火紅的嫁衣襯著肌膚如雪严蓖。 梳的紋絲不亂的頭發(fā)上薄嫡,一...
    開封第一講書人閱讀 49,772評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音颗胡,去河邊找鬼毫深。 笑死,一個(gè)胖子當(dāng)著我的面吹牛杭措,可吹牛的內(nèi)容都是我干的费什。 我是一名探鬼主播,決...
    沈念sama閱讀 38,921評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼手素,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼鸳址!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起泉懦,我...
    開封第一講書人閱讀 37,688評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤稿黍,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后崩哩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體巡球,經(jīng)...
    沈念sama閱讀 44,130評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評(píng)論 2 325
  • 正文 我和宋清朗相戀三年邓嘹,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了酣栈。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,617評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡汹押,死狀恐怖矿筝,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情棚贾,我是刑警寧澤窖维,帶...
    沈念sama閱讀 34,276評(píng)論 4 329
  • 正文 年R本政府宣布榆综,位于F島的核電站,受9級(jí)特大地震影響铸史,放射性物質(zhì)發(fā)生泄漏鼻疮。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評(píng)論 3 312
  • 文/蒙蒙 一琳轿、第九天 我趴在偏房一處隱蔽的房頂上張望判沟。 院中可真熱鬧,春花似錦利赋、人聲如沸水评。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽中燥。三九已至,卻和暖如春塘偎,著一層夾襖步出監(jiān)牢的瞬間疗涉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評(píng)論 1 265
  • 我被黑心中介騙來泰國(guó)打工吟秩, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留咱扣,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,315評(píng)論 2 360
  • 正文 我出身青樓涵防,卻偏偏與公主長(zhǎng)得像闹伪,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子壮池,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容