數(shù)據(jù)分析的職業(yè)規(guī)劃

文章轉(zhuǎn)載自*秦路老師的微信公眾號(hào)

最近有不少同學(xué)在后臺(tái)問我數(shù)據(jù)分析的職業(yè)發(fā)展相關(guān)祭隔,這里先列一個(gè)簡易大綱疾渴。它更多是以我所在的互聯(lián)網(wǎng)行業(yè)展開的搞坝。

入門和職業(yè)規(guī)劃應(yīng)該從兩個(gè)角度考慮:領(lǐng)域和路線桩撮。

領(lǐng)域是不少新人常忽略的要素,其實(shí)數(shù)據(jù)分析不會(huì)脫離業(yè)務(wù)存在融师。你進(jìn)入哪個(gè)行業(yè)旱爆,很大程度會(huì)決定你初期的技能樹和技能點(diǎn)怀伦。譬如金融領(lǐng)域的風(fēng)控模型浩淘、營銷領(lǐng)域的生命周期张抄、廣告領(lǐng)域的點(diǎn)擊率預(yù)估等署惯,各有各的特色极谊。

如果是一位應(yīng)屆生,不妨多了解自己感興趣的領(lǐng)域域那,和專業(yè)相關(guān)是最好的次员,并且積累相關(guān)的經(jīng)驗(yàn)市殷,為面試做準(zhǔn)備醋寝。

如果已經(jīng)有一定行業(yè)履歷甥桂,只是想要轉(zhuǎn)崗數(shù)據(jù)分析師,那么跨崗不跨行貌夕,避免跳到一個(gè)陌生的領(lǐng)域啡专。

領(lǐng)域經(jīng)驗(yàn)太寬泛,我給不了太多的指點(diǎn)鲸鹦,主要也就三點(diǎn):1.自己感興趣的齐板,2.自己擅長的,3.有錢途的济舆。從職場生涯看吗冤,成為某領(lǐng)域的數(shù)據(jù)專家,會(huì)是一個(gè)更好的籌碼

而路線大致可以劃分成四大方向:

數(shù)據(jù)分析儡羔,數(shù)據(jù)挖掘汰蜘,數(shù)據(jù)產(chǎn)品族操,數(shù)據(jù)工程色难。

** 數(shù)據(jù)分析/數(shù)據(jù)運(yùn)營/商業(yè)分析**

這是業(yè)務(wù)方向的數(shù)據(jù)分析師娇昙。

絕大部分人笤妙,都是從這個(gè)崗位開始自己的數(shù)據(jù)之路冒掌,也是基數(shù)最大的崗位。

因?yàn)榛鶖?shù)大蹲盘,所以這類崗位通常魚龍混雜股毫。有些雖然叫數(shù)據(jù)分析師,但是每天只需要和Excel打交道辜限,完成leader布置的表格整理工作就行皇拣。混個(gè)幾年薄嫡,成為一位數(shù)據(jù)分析主管,給下面的新人繼續(xù)布置Excel任務(wù)。

又有一種數(shù)據(jù)分析師腥沽,崗位職責(zé)要求你掌握常用的機(jī)器學(xué)習(xí)算法墓臭,面試首先推導(dǎo)一個(gè)決策樹或者邏輯回歸妙痹。入職后也是各類代碼,和分析打交道的情況不多迹炼。

都叫數(shù)據(jù)分析師增蹭,其實(shí)天差地別。

這里更多指互聯(lián)網(wǎng)行業(yè)证舟,偏業(yè)務(wù)的數(shù)據(jù)分析師抵知,一般屬于運(yùn)營部門浊闪。不少公司也稱數(shù)據(jù)運(yùn)營或者商業(yè)分析。

這類崗位的職位描述一般是:

  • 負(fù)責(zé)和支撐各部門相關(guān)的報(bào)表栗菜;

  • 建立和優(yōu)化指標(biāo)體系;

  • 監(jiān)控?cái)?shù)據(jù)的波動(dòng)和異常涯捻,找出問題摄欲;

  • 優(yōu)化和驅(qū)動(dòng)業(yè)務(wù),推動(dòng)數(shù)據(jù)化運(yùn)營;

  • 找出可增長的市場或產(chǎn)品優(yōu)化空間;

  • 輸出專題分析報(bào)告;

實(shí)際情況是,不少業(yè)務(wù)端的數(shù)據(jù)分析師,主要工作只做第一點(diǎn)饿这。別管它用匯總串结、分析、數(shù)據(jù)支持什么修飾詞,基本是跑SQL掉奄,做報(bào)表。硬生生活成了業(yè)務(wù)端的表哥措译。

這是很常見的情況塌衰,也是入門新人的第一個(gè)坑。因?yàn)閺念^到尾蝠嘉,這類分析師最疆,都沒有解決問題。

業(yè)務(wù)部門往往更關(guān)心蚤告,某個(gè)指標(biāo)為什么下跌或者上升努酸。產(chǎn)品的用戶是什么樣的?怎么能更好的完成自己的KPI罩缴。

以活躍指標(biāo)的下跌舉例:

  • 活躍指標(biāo)下跌了多少蚊逢?是屬于合理的數(shù)據(jù)波動(dòng),還是突發(fā)式箫章?

  • 什么時(shí)候開始的下跌烙荷?

  • 是整體的活躍用戶下跌,還是部分用戶檬寂?

  • 為什么下跌终抽?是產(chǎn)品版本,還是運(yùn)營失誤桶至?

  • 怎么解決下跌的問題

這是一套標(biāo)準(zhǔn)的解決思維昼伴。分別對(duì)應(yīng)what、when镣屹、who圃郊、why、how女蜈,每一部分都不是三言兩語可以解釋清楚持舆。不要看它簡單,例如你通過多維分析伪窖,發(fā)現(xiàn)某個(gè)地區(qū)的活躍下跌了逸寓,不要急著把它作為分析的結(jié)論,這是不合格的數(shù)據(jù)分析覆山。某地區(qū)的活躍下跌竹伸,只是現(xiàn)象,不是原因簇宽,把它作為結(jié)論提交勋篓,肯定會(huì)被罵的吧享。

你要解決的是禾酱,為什么這個(gè)地區(qū)的活躍下跌了呻袭。是該地渠道,是該地競爭對(duì)手疟赊,是該地市場環(huán)境孤荣?這些問題都是細(xì)化深入的范疇。并且须揣,它們要能以量化解釋盐股,而不是我認(rèn)為。

做好了這點(diǎn)耻卡,才是一個(gè)真正的業(yè)務(wù)端的數(shù)據(jù)分析師疯汁。

當(dāng)然,這一點(diǎn)看的是leader卵酪。leader能否帶你進(jìn)入業(yè)務(wù)分析的大門幌蚊,決定你將來是不是成為一個(gè)表哥。新人切記切記溃卡。

解決問題是一方面工作溢豆,另外一方面,數(shù)據(jù)分析師的職責(zé)是將業(yè)務(wù)數(shù)據(jù)體系化瘸羡,建立一套指標(biāo)框架漩仙。活躍下跌的問題,本質(zhì)上也是指標(biāo)問題犹赖。什么時(shí)候開始下跌队他,哪部分下跌,都能轉(zhuǎn)化成對(duì)應(yīng)指標(biāo)峻村,如日活躍用戶數(shù)麸折,新老用戶活躍數(shù),地區(qū)活躍數(shù)粘昨。

你不能衡量它垢啼,就無法增長它,指的就是指標(biāo)體系雾棺。指標(biāo)體系可以是業(yè)務(wù)部門建立膊夹,但數(shù)據(jù)分析師也挺合適。一方面他們比數(shù)據(jù)挖掘這類技術(shù)崗位更貼合業(yè)務(wù)捌浩,一方面不像業(yè)務(wù)崗位對(duì)數(shù)據(jù)抓瞎放刨。

兩者結(jié)合,這崗位也能稱為數(shù)據(jù)運(yùn)營尸饺。

指標(biāo)體系如果工程化自動(dòng)化进统,也就是BI助币,所以數(shù)據(jù)分析師可以算半個(gè)BI分析師,這里不包括BI報(bào)表開發(fā)螟碎。BI如果采購第三方眉菱,數(shù)據(jù)分析師負(fù)責(zé)BI沒問題,如果自有開發(fā)掉分,那么BI崗技術(shù)的色彩更濃厚俭缓。

數(shù)據(jù)分析思維和業(yè)務(wù)的理解,是分析師賴以生存的技能酥郭。很多時(shí)候华坦,工具是錦上添花的作用。掌握Excel+SQL/hive不从,了解描述統(tǒng)計(jì)學(xué)惜姐,知道常見的可視化表達(dá),足夠完成大部分任務(wù)椿息。機(jī)器學(xué)習(xí)這類能力歹袁,對(duì)此類數(shù)據(jù)分析師不是必須的,Python也一樣寝优,只是加分項(xiàng)条舔。畢竟為什么下跌,你無法用數(shù)據(jù)挖掘解答乏矾。

數(shù)據(jù)分析師是一個(gè)基礎(chǔ)崗位逞刷,如果專精于業(yè)務(wù),更適合往管理端發(fā)展妻熊,單純的工具和技巧很難拉開差距夸浅。數(shù)據(jù)分析的管理崗,比較常見的有數(shù)據(jù)運(yùn)營經(jīng)理/總監(jiān)扔役,數(shù)據(jù)分析經(jīng)理等帆喇,相對(duì)應(yīng)的能力是能建立指標(biāo)體系,并且解決日常的各類「為什么」問題亿胸。

商業(yè)/市場分析是另外一個(gè)方向坯钦,更多見于傳統(tǒng)行業(yè)。你要開一家超市侈玄,你得考慮哪里開婉刀,這就要考慮居民密度,居民消費(fèi)能力序仙,競爭對(duì)手的多寡突颊,步行交通距離,開車交通距離等。這些數(shù)據(jù)是宏觀的大指標(biāo)律秃,往往靠搜索和調(diào)研完成爬橡,這是和互聯(lián)網(wǎng)數(shù)據(jù)分析師最大的差異。

若往其他分支發(fā)展棒动,比如數(shù)據(jù)挖掘工程師糙申,則要繼續(xù)掌握Python和機(jī)器學(xué)習(xí)等。從業(yè)務(wù)型發(fā)展上來的好處是接地氣船惨,具備商業(yè)洞察力(天天搞報(bào)表柜裸,怎么可能不熟),這點(diǎn)是直接做數(shù)據(jù)挖掘粱锐,或者程序員轉(zhuǎn)崗粘室,所不具備的。

新人卜范,比較普適的發(fā)展路線是先成為一位數(shù)據(jù)分析師。積累相關(guān)的經(jīng)驗(yàn)鹿榜,在一兩年后海雪,決定往后的發(fā)展,是數(shù)據(jù)挖掘舱殿,還是專精數(shù)據(jù)分析成為管理崗奥裸。

學(xué)習(xí)資料:

這里對(duì)學(xué)習(xí)資料不再多做推薦,看歷史文章:如何七周成為數(shù)據(jù)分析師

** 數(shù)據(jù)挖掘/算法專家**

這是技術(shù)向的數(shù)據(jù)崗沪袭,有些歸類在研發(fā)部門湾宙,有些則單獨(dú)成立數(shù)據(jù)部門。

數(shù)據(jù)挖掘工程師要求更高的統(tǒng)計(jì)學(xué)能力冈绊、數(shù)理能力以及編程技巧侠鳄。

從概念上說,數(shù)據(jù)挖掘Data mining是一種方式死宣,機(jī)器學(xué)習(xí)Machine Learning是一門方法/學(xué)科伟恶。機(jī)器學(xué)習(xí)主要是有監(jiān)督和無監(jiān)督學(xué)習(xí),有監(jiān)督又可劃分成回歸和分類毅该,它們是從過去的歷史數(shù)據(jù)中學(xué)習(xí)到一個(gè)模型博秫,模型可以針對(duì)特定問題求解。

數(shù)據(jù)挖掘的范圍則大得多眶掌,即可以通過機(jī)器學(xué)習(xí)挡育,而能借助其他算法。比如協(xié)同過濾朴爬、關(guān)聯(lián)規(guī)則即寒、PageRank等,它們是數(shù)據(jù)挖掘的經(jīng)典算法,但不屬于機(jī)器學(xué)習(xí)蒿叠,所以在機(jī)器學(xué)習(xí)的書籍上明垢,你是看不到的。

除此之外市咽,還有一個(gè)領(lǐng)域痊银,屬于最優(yōu)化問題的運(yùn)籌學(xué)。現(xiàn)實(shí)中的問題往往有很多約束施绎,比如護(hù)士排班溯革,一共有三班(早、中谷醉、晚)致稀,現(xiàn)在要求每班滿足最低護(hù)士人數(shù),每位護(hù)士盡量不能連班俱尼,每位護(hù)士不能連續(xù)工作5天抖单。每位護(hù)士的夜班數(shù)要均衡,每位護(hù)士每月的班數(shù)要均衡…這些問題很難用機(jī)器學(xué)習(xí)的方法完成遇八,而在最優(yōu)化領(lǐng)域矛绘,則有遺傳算法、模擬退火算法刃永、蟻群算法等货矮。

實(shí)際的應(yīng)用場景中,如外賣行業(yè)斯够,如何尋找騎手效率最大化的最優(yōu)路徑囚玫,同樣屬于最優(yōu)化,也是數(shù)據(jù)挖掘的工作范疇读规。

數(shù)據(jù)挖掘工程師抓督,除了掌握算法,同樣需要編程能力去實(shí)現(xiàn)束亏,不論R本昏、Python、Scala/Java枪汪,至少掌握一種涌穆。模型的實(shí)施,往往也要求Hadoop/Spark的工程實(shí)踐經(jīng)驗(yàn)雀久,精通SQL/Hive是必須的宿稀。

常見數(shù)據(jù)挖掘項(xiàng)目的閉環(huán)如下:

  • 定義問題

  • 數(shù)據(jù)抽取

  • 數(shù)據(jù)清洗

  • 特征選取/特征工程

  • 數(shù)據(jù)模型

  • 數(shù)據(jù)驗(yàn)證

  • 迭代優(yōu)化

單看環(huán)節(jié),數(shù)據(jù)挖掘?qū)Ψ治瞿芰]有業(yè)務(wù)型那么高赖捌。這不代表業(yè)務(wù)不重要祝沸,尤其在特征選取方面矮烹,對(duì)業(yè)務(wù)的理解很大程度會(huì)影響特征怎么選取,進(jìn)而影響模型質(zhì)量罩锐。用戶流失是一個(gè)經(jīng)典的考題奉狈,如何選取合適的特征,預(yù)測用戶會(huì)否流失涩惑,能夠考察對(duì)業(yè)務(wù)是否深刻洞察仁期。

數(shù)據(jù)挖掘的業(yè)務(wù)領(lǐng)域一樣可以細(xì)分。金融行業(yè)的信用模型和風(fēng)控模型/反欺詐模型竭恬、廣告模型的點(diǎn)擊預(yù)估模型跛蛋、電商行業(yè)的推薦系統(tǒng)和用戶畫像系統(tǒng)。從需求提出到落地痊硕,數(shù)據(jù)挖掘工程師除了全程跟進(jìn)也要熟悉業(yè)務(wù)赊级。

因?yàn)橐蟾撸詳?shù)據(jù)挖掘的平均薪資高于數(shù)據(jù)分析師岔绸。

一個(gè)分工明確的團(tuán)隊(duì)理逊,數(shù)據(jù)分析師負(fù)責(zé)將業(yè)務(wù)需求抽象成一個(gè)具體的數(shù)據(jù)假設(shè)或者模型。比如盒揉,運(yùn)營希望減少用戶流失晋被,那么設(shè)立一個(gè)流失指標(biāo),現(xiàn)在需要預(yù)測用戶流失率的模型预烙。模型可以是數(shù)據(jù)分析師完成,也能是數(shù)據(jù)挖掘工程師道媚。最終由數(shù)據(jù)挖掘團(tuán)隊(duì)部署到線上扁掸。

在一些公司,高級(jí)數(shù)據(jù)分析師會(huì)等價(jià)于數(shù)據(jù)挖掘工程師(其實(shí)行業(yè)內(nèi)最域,對(duì)Title并沒有嚴(yán)格的標(biāo)準(zhǔn))谴分,只是工程能力可以稍弱,模型部署由專門的工程團(tuán)隊(duì)完成镀脂。

數(shù)據(jù)挖掘工程師牺蹄,往后發(fā)展,稱為算法專家薄翅。后者對(duì)理論要求更嚴(yán)苛沙兰,幾乎都要閱讀國外的前沿論文。方向不局限于簡單的分類或者回歸翘魄,還包括圖像識(shí)別鼎天、自然語言處理、智能量化投顧這種復(fù)合領(lǐng)域暑竟。這里開始會(huì)對(duì)從業(yè)者的學(xué)校和學(xué)歷提出要求斋射,名校+碩士無疑是一個(gè)大優(yōu)勢,也有很多人直接做數(shù)據(jù)挖掘。

深度學(xué)習(xí)則更前沿罗岖,它由神經(jīng)網(wǎng)絡(luò)發(fā)展而來涧至,是機(jī)器學(xué)習(xí)的一個(gè)子集。因?yàn)楦黝惪蚣荛_枝散葉桑包,諸多模型百花齊放南蓬,也可以算一個(gè)全新的分支。除了要求熟悉TensorFlow, Caffe, MXNet等深度學(xué)習(xí)框架捡多,對(duì)模型的應(yīng)用和調(diào)參也是必備的蓖康,后者往往是劃分普通人和大牛的天塹。

算法專家和深度學(xué)習(xí)專家垒手,薪資level會(huì)更高一級(jí)蒜焊,一般對(duì)應(yīng)于業(yè)務(wù)型的數(shù)據(jù)運(yùn)營/分析總監(jiān)。

數(shù)據(jù)科學(xué)家是上述崗位的最終形態(tài)之一科贬,要么理論能力非常強(qiáng)泳梆,往往擔(dān)任研究院的一把手。要么工程能力突出榜掌,上述的系統(tǒng)都能完成平臺(tái)化的部署优妙。

學(xué)習(xí)資料:

這類崗位對(duì)基礎(chǔ)知識(shí)要求扎實(shí),所以書籍需要比較大的閱讀量憎账,而且要保持領(lǐng)域新論文的吸收套硼。

統(tǒng)計(jì)知識(shí),除了「商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)」外胞皱,國外有一本「The Elements of Statistical Learning」邪意,評(píng)價(jià)不錯(cuò)。

機(jī)器學(xué)習(xí)的入門反砌,李航的「統(tǒng)計(jì)學(xué)習(xí)方法」雾鬼,周志華的「機(jī)器學(xué)習(xí)」都是好書,英文好也能看PRML宴树。

Python入門書籍的推薦太多策菜,略過【票幔「用Python進(jìn)行數(shù)據(jù)分析」是必備的又憨,當(dāng)然這本書有點(diǎn)老,活用官網(wǎng)最新文檔和stackoverflow锭吨,基本無礙竟块。Python可視化查閱文檔也夠了,不用看書耐齐。

再進(jìn)一步浪秘,則是機(jī)器學(xué)習(xí)的代碼實(shí)現(xiàn)蒋情,比較知名的有「集體智慧編程」,「機(jī)器學(xué)習(xí)實(shí)戰(zhàn)」等耸携。其實(shí)最近還有不少新書棵癣,「Python DataScience Handbook」等,我當(dāng)然不可能都看過夺衍,所以也不好推(hu)薦(you)狈谊。

除了基礎(chǔ),行業(yè)領(lǐng)域的也別落下沟沙,諸如推薦系統(tǒng)實(shí)戰(zhàn)河劝、計(jì)算廣告…按需學(xué)習(xí)。如果你們公司對(duì)于人才有較高的挑戰(zhàn)(一個(gè)人當(dāng)兩個(gè)人用)矛紫,大概Spark/Hadoop機(jī)器學(xué)習(xí)相關(guān)的框架也得了解赎瞎。

** 數(shù)據(jù)產(chǎn)品經(jīng)理**

這個(gè)崗位比較新興,它有兩種理解颊咬,一種是具備強(qiáng)數(shù)據(jù)分析能力的PM务甥,一種是公司數(shù)據(jù)產(chǎn)品的規(guī)劃者。

前者喳篇,以數(shù)據(jù)導(dǎo)向優(yōu)化和改進(jìn)產(chǎn)品敞临。在產(chǎn)品強(qiáng)勢的公司,數(shù)據(jù)分析也會(huì)劃歸到產(chǎn)品部門麸澜,甚至運(yùn)營也屬于產(chǎn)品部挺尿。這類產(chǎn)品經(jīng)理有更多的機(jī)會(huì)接觸業(yè)務(wù),屬于順便把分析師的活也干了炊邦,一專多能的典型编矾。

他們會(huì)運(yùn)用不同的數(shù)據(jù)源,對(duì)用戶的行為特征分析和挖掘铣耘,達(dá)到改進(jìn)產(chǎn)品洽沟。最典型的場景就是AB測試以故。大到頁面布局蜗细、路徑規(guī)劃、小到按鈕的顏色和樣式怒详,均可以通過數(shù)據(jù)指標(biāo)評(píng)估炉媒。

下圖的案例,就是弱化心愿單按鈕的存在感昆烁,讓用戶更多的聚焦在直接購買而不是收藏吊骤,最終讓銷售額提高了35%。

[圖片上傳失敗...(image-c68c66-1542839138747)]

俗話說静尼,再優(yōu)秀的產(chǎn)品經(jīng)理也跑不過一半AB測試白粉。此類數(shù)據(jù)產(chǎn)品經(jīng)理传泊,更多是注重?cái)?shù)據(jù)分析能力,擅長用分析進(jìn)行決策鸭巴。數(shù)據(jù)是能力的一部分眷细。

后者,是真正意義上的數(shù)據(jù)產(chǎn)品經(jīng)理鹃祖。在公司邁大邁強(qiáng)后溪椎,數(shù)據(jù)量與日俱增,此時(shí)會(huì)有不少數(shù)據(jù)相關(guān)的產(chǎn)品項(xiàng)目:包括大數(shù)據(jù)平臺(tái)恬口、埋點(diǎn)采集系統(tǒng)校读、BI、推薦系統(tǒng)祖能、廣告平臺(tái)等歉秫。這些當(dāng)然也是產(chǎn)品,自然需要提煉需求芯杀、設(shè)計(jì)端考、規(guī)劃、項(xiàng)目排期揭厚,乃至落地却特。

我們不妨看幾個(gè)數(shù)據(jù)產(chǎn)品經(jīng)理要求:

  • 負(fù)責(zé)大數(shù)據(jù)產(chǎn)品的設(shè)計(jì),輸出需求文檔筛圆、產(chǎn)品原型裂明;

  • 負(fù)責(zé)推薦算法的產(chǎn)品策略,完成相關(guān)推薦及個(gè)性化推薦產(chǎn)品的需求分析太援;

  • 負(fù)責(zé)分析和挖掘用戶消費(fèi)內(nèi)容的行為數(shù)據(jù)闽晦,為改進(jìn)算法策略提供依據(jù);

  • 負(fù)責(zé)客戶端數(shù)據(jù)需求的對(duì)接提岔,制定相關(guān)埋點(diǎn)規(guī)范及口徑仙蛉,相關(guān)業(yè)務(wù)指標(biāo)驗(yàn)證;

  • 報(bào)表展示工具的落地和應(yīng)用碱蒙;

和C端注重用戶體驗(yàn)不同荠瘪,數(shù)據(jù)產(chǎn)品,更注重整體的分析能力和邏輯赛惩。除了產(chǎn)品經(jīng)理最基礎(chǔ)的Axure哀墓、Visio、MindManager等工具喷兼。往往還需要很多技術(shù)型的能力篮绰。比如了解BI/DW原理和實(shí)施、了解常用的推薦算法季惯、了解機(jī)器學(xué)習(xí)模型等吠各。這也很容易理解臀突,C端要求你了解用戶需求,而在數(shù)據(jù)端贾漏,主要用戶就是數(shù)據(jù)惧辈。

這當(dāng)然不是說,用戶體驗(yàn)不重要磕瓷,拿推薦算法來說盒齿,除了滿足用戶最基本的感興趣,也要考慮時(shí)效性困食,考慮新興趣的挖掘边翁,考慮無數(shù)據(jù)時(shí)的冷啟動(dòng)問題…這些一樣是用戶體驗(yàn),只是解決方案也得從數(shù)據(jù)出發(fā)硕盹。再多思考一步符匾,模型是離線還是實(shí)時(shí),實(shí)時(shí)怎么實(shí)現(xiàn)它瘩例?技術(shù)細(xì)則不用多考慮啊胶,但你要知道會(huì)有這些坑。后端的數(shù)據(jù)產(chǎn)品垛贤,如報(bào)表焰坪,用戶往往是你隔壁工位的小秦或小路,設(shè)計(jì)得丑一點(diǎn)不要緊聘惦,要是數(shù)據(jù)指標(biāo)口徑不統(tǒng)一某饰,那才會(huì)分分鐘罵街。

雖然數(shù)據(jù)PM需要熟悉各類數(shù)據(jù)模型善绎、指標(biāo)黔漂、數(shù)據(jù)挖掘和數(shù)據(jù)工程的實(shí)現(xiàn),但是聚焦點(diǎn)是把它作為一個(gè)項(xiàng)目去實(shí)現(xiàn)禀酱,故而不用精通炬守。

數(shù)據(jù)產(chǎn)品經(jīng)理是一個(gè)比較新興的崗位,所以有豐富經(jīng)驗(yàn)的從業(yè)者并不多剂跟,我個(gè)人認(rèn)為减途,還是存在比較大的職業(yè)缺口。當(dāng)然也有其他問題浩聋,一是因?yàn)樾屡d观蜗,部門負(fù)責(zé)人本身也沒有想好他們能干什么臊恋,不少數(shù)據(jù)PM還從事表哥的工作衣洁。二是數(shù)據(jù)產(chǎn)品本身可借鑒的經(jīng)驗(yàn)不多,像APP產(chǎn)品抖仅,可以下載體驗(yàn)坊夫,總歸有一個(gè)學(xué)習(xí)的過程砖第。然而用戶畫像、BI环凿、算法策略梧兼,都是其他公司的內(nèi)部機(jī)密,無從參考智听,我就遇到不少對(duì)用戶畫像實(shí)現(xiàn)非常感興趣的數(shù)據(jù)PM羽杰。

從職業(yè)發(fā)展上看,數(shù)據(jù)分析師做數(shù)據(jù)產(chǎn)品經(jīng)理更合適到推。普通的產(chǎn)品經(jīng)理考赛,對(duì)前端、后端的技術(shù)棧尚未熟悉莉测,何況日新月異的數(shù)據(jù)棧颜骤。這個(gè)崗位,適合對(duì)數(shù)據(jù)特別感興趣捣卤,但是數(shù)理天賦不高的職場人忍抽,那么以溝通、項(xiàng)目管理和需求規(guī)劃為能力董朝,也不錯(cuò)鸠项。

學(xué)習(xí)資料:

數(shù)據(jù)產(chǎn)品經(jīng)理,如果有數(shù)據(jù)挖掘經(jīng)驗(yàn)子姜,那么技術(shù)相關(guān)的書籍倒不重要锈锤,別落伍就行,更關(guān)注產(chǎn)品經(jīng)理本身的能力闲询,包括Axure久免,各類文檔的編寫、項(xiàng)目管理扭弧、需求整理等阎姥,市面上資料比較多。

這里再補(bǔ)充兩本鸽捻,「數(shù)據(jù)挖掘與數(shù)據(jù)化運(yùn)營實(shí)戰(zhàn)」呼巴,沒啥高深技術(shù),但是能夠了解體系的初步建立御蒲∫赂希「數(shù)據(jù)挖掘技術(shù)—應(yīng)用于市場營銷、銷售與客戶關(guān)系管理」厚满,這本書我推薦它是糾結(jié)的府瞄,它的知識(shí)點(diǎn)比較豐富,業(yè)務(wù)人員也能看懂碘箍,但是翻譯的實(shí)在太糟糕了……

更多書籍參考其他崗位即可遵馆。

** 數(shù)據(jù)工程師**

數(shù)據(jù)工程師其實(shí)更偏技術(shù)鲸郊,從職業(yè)道路上看,程序員走這條路更開闊货邓。

在很多中小型的公司秆撮,一方面數(shù)據(jù)是無序的、缺失的换况、原始的职辨,另外一方面各種業(yè)務(wù)報(bào)表又嗷嗷待哺。沒辦法戈二,分析師只能自己擼起袖子拨匆,一個(gè)人當(dāng)三個(gè)人用。兼做數(shù)據(jù)清洗+ETL+BI挽拂。

經(jīng)歷過的大概都懂惭每,數(shù)據(jù)分析踏上數(shù)據(jù)工程的不歸路如下:

  • 每天都要從五六張表上join,那么不妨加工成一張中間表亏栈;

  • ETL的依賴關(guān)系越來越復(fù)雜台腥,嘗試用kettle/airflow等框架搞定,弄個(gè)DAG美滋滋绒北;

  • 運(yùn)營部門的周報(bào)次次都要這幾個(gè)指標(biāo)黎侈,看看能否做一個(gè)自動(dòng)化BI;

  • 數(shù)據(jù)量逐日增多闷游,最近T+1的日?qǐng)?bào)需要幾個(gè)小時(shí)完成峻汉,研究下查詢語句的優(yōu)化;

  • 查詢語句的優(yōu)化空間也不大了脐往,開始遷移到Hadoop/Spark分布式平臺(tái)休吠,新技術(shù)棧的學(xué)習(xí);

  • 新平臺(tái)业簿,原有的工具也不管用了瘤礁,某大牛說apache上有工具能解決這個(gè)問題,于是閱讀文檔梅尤;

  • 公司部署了私有化的埋點(diǎn)采集柜思,數(shù)據(jù)缺失比較厲害,業(yè)務(wù)部門天天罵娘巷燥,繼續(xù)埋Flume/Kafka的坑赡盘;

  • 等等…

如果分析師在技術(shù)方面的靈性不錯(cuò),那么技能點(diǎn)會(huì)往技術(shù)棧方向遷移缰揪。從最初的SQL陨享,到了解Hadoop集群、了解presto/impala/spark、了解ELK霉咨、了解分布式存儲(chǔ)和NoSQL……

這也是一個(gè)不錯(cuò)的發(fā)展方向,因?yàn)閿?shù)據(jù)挖掘需要了解算法/模型拍屑,理論知識(shí)要求過高途戒,不少碩士和博士還過來搶飯碗,自己不擅長容易遇到天花板僵驰。選擇更底層的工程實(shí)現(xiàn)和架構(gòu)喷斋,也是出路,薪資也不會(huì)低于數(shù)據(jù)挖掘/算法專家蒜茴。

部分歸屬到技術(shù)部的數(shù)據(jù)分析師星爪,雖然Title叫數(shù)據(jù)分析(其實(shí)應(yīng)該叫數(shù)據(jù)分析開發(fā)工程師),很多工作也是圍繞ETL/DW/BI進(jìn)行粉私,那么這就是標(biāo)準(zhǔn)的數(shù)據(jù)工程路線顽腾。

部分公司會(huì)將機(jī)器學(xué)習(xí)模型的部署和實(shí)現(xiàn)交給數(shù)據(jù)工程團(tuán)隊(duì),這要求數(shù)據(jù)工程師熟悉sparkMLlib诺核、Mahout此類框架抄肖。

數(shù)據(jù)工程師,可以從數(shù)據(jù)分析師的SQL技能窖杀,往數(shù)據(jù)的底層收集漓摩、存儲(chǔ)、計(jì)算入客、運(yùn)維拓展管毙。往后發(fā)展則是數(shù)據(jù)總監(jiān)、或者數(shù)據(jù)架構(gòu)師桌硫。因?yàn)閿?shù)據(jù)分析出身夭咬,與純技術(shù)棧的程序員比,思考會(huì)更貼合業(yè)務(wù)铆隘,比如指標(biāo)背后的數(shù)據(jù)模型皱埠,但是技術(shù)底子的薄弱需要彌補(bǔ)。

另外咖驮,DBA边器、BI這些傳統(tǒng)的數(shù)據(jù)庫從業(yè)者,也是能按這條路線進(jìn)階托修,或者選擇數(shù)據(jù)產(chǎn)品經(jīng)理方向忘巧。

學(xué)習(xí)資料:

數(shù)據(jù)工程類的書籍,我看的不多睦刃,給不了建議砚嘴。主要按各類名詞搜索吧,什么linux、數(shù)據(jù)倉庫际长、Hadoop耸采、Spark、Storm工育、Elasticsearch等虾宇。這類崗位發(fā)展,技術(shù)更新速度比較快如绸,所以需要保持吸收以及活用開源嘱朽。

最后

以上四個(gè)崗位就是數(shù)據(jù)分析的發(fā)展方向,它們互有關(guān)聯(lián)怔接,如果從整個(gè)架構(gòu)圖來看(一篇?dú)v史舊文有更詳細(xì)的描述:從零開始搪泳,構(gòu)建數(shù)據(jù)化運(yùn)營體系)。

[圖片上傳失敗...(image-653de9-1542839138745)]

我們可以將其劃分為數(shù)據(jù)收集—數(shù)據(jù)加工—數(shù)據(jù)運(yùn)營—數(shù)據(jù)觸達(dá)扼脐。

數(shù)據(jù)收集負(fù)責(zé)收集各種各樣的原始數(shù)據(jù)岸军,比如用戶何時(shí)何地做了什么事情。它依賴于埋點(diǎn)采集系統(tǒng)瓦侮,而埋點(diǎn)采集凛膏,需要收集什么類型數(shù)據(jù),往往由數(shù)據(jù)產(chǎn)品經(jīng)理確定規(guī)范(還是看公司脏榆,數(shù)據(jù)運(yùn)營和數(shù)據(jù)分析師也能負(fù)責(zé))猖毫。

收集上來的數(shù)據(jù)需要存儲(chǔ),往往因?yàn)楦咄掏铝啃胛梗枰WC數(shù)據(jù)和日志的穩(wěn)定性吁断,會(huì)采用Flume+Kafka,如果有實(shí)時(shí)統(tǒng)計(jì)要求坞生,也得考慮流數(shù)據(jù)仔役。這塊則是數(shù)據(jù)工程的范疇,包括原始數(shù)據(jù)的再加工是己,數(shù)據(jù)清洗又兵,都是專門的數(shù)據(jù)團(tuán)隊(duì)完成。

當(dāng)獲得數(shù)據(jù)后卒废,首先第一點(diǎn)是講各種明細(xì)數(shù)據(jù)加工業(yè)務(wù)指標(biāo)沛厨,沒有指標(biāo)不成方圓,這里由數(shù)據(jù)分析師定義的摔认。有了指標(biāo)逆皮,配合各種數(shù)據(jù)產(chǎn)品輸出,如用戶畫像用戶標(biāo)簽参袱、BI報(bào)表电谣,這些數(shù)據(jù)產(chǎn)品都由數(shù)據(jù)PM統(tǒng)籌排期…另外一方面秽梅,數(shù)據(jù)挖掘工程師和算法專家則憑各種數(shù)據(jù)建立模型,進(jìn)行實(shí)時(shí)或離線運(yùn)算剿牺。

模型可能會(huì)預(yù)測用戶會(huì)不會(huì)購買某個(gè)商品企垦,可能是做出一系列的推薦,可能是判斷用戶屬于哪個(gè)類型晒来,不一而足钞诡。

更上面一層是業(yè)務(wù)相關(guān),數(shù)據(jù)分析師會(huì)監(jiān)控和分析BI上指標(biāo)的波動(dòng)潜索、數(shù)據(jù)挖掘工程是通過用戶反饋數(shù)據(jù)臭增,衡量算法的優(yōu)劣懂酱、數(shù)據(jù)PM按AB測試的結(jié)果改進(jìn)產(chǎn)品竹习。數(shù)據(jù)工程師保證系統(tǒng)的穩(wěn)定。

所有層次一環(huán)扣一環(huán)列牺,每個(gè)崗位在其中都發(fā)揮特有的作用整陌。數(shù)據(jù)工程偏底層技術(shù),數(shù)據(jù)分析偏上層業(yè)務(wù)瞎领,數(shù)據(jù)挖掘和數(shù)據(jù)產(chǎn)品處于中間形態(tài)泌辫。不同公司雖然業(yè)務(wù)形態(tài)不一致,架構(gòu)會(huì)有差異九默,但是職責(zé)不會(huì)偏差太大震放。這也是數(shù)據(jù)分析為什么會(huì)有四個(gè)方向。

講到這里驼修,你大概對(duì)數(shù)據(jù)分析的職業(yè)規(guī)劃有了明晰的了解殿遂。當(dāng)然,它們彼此間并不完全獨(dú)立乙各,到后期墨礁,很多界限會(huì)變得模糊。所以規(guī)劃是一方面耳峦,是否愿意執(zhí)行恩静、學(xué)習(xí)和吃透,才是職業(yè)真正的道路呀蹲坷。

**** 用戶贊賞用****

另外驶乾,這次更新確實(shí)久等了

[圖片上傳失敗...(image-4dd199-1542839138744)]

[圖片上傳失敗...(image-3937e7-1542839138750)]

Scan QR Code via WeChat
to follow Official Account

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市循签,隨后出現(xiàn)的幾起案子轻掩,更是在濱河造成了極大的恐慌,老刑警劉巖懦底,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件唇牧,死亡現(xiàn)場離奇詭異罕扎,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)丐重,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門腔召,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人扮惦,你說我怎么就攤上這事臀蛛。” “怎么了崖蜜?”我有些...
    開封第一講書人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵浊仆,是天一觀的道長。 經(jīng)常有香客問我豫领,道長抡柿,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任等恐,我火速辦了婚禮洲劣,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘课蔬。我一直安慰自己囱稽,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開白布二跋。 她就那樣靜靜地躺著战惊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪扎即。 梳的紋絲不亂的頭發(fā)上吞获,一...
    開封第一講書人閱讀 52,246評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音铺遂,去河邊找鬼衫哥。 笑死,一個(gè)胖子當(dāng)著我的面吹牛襟锐,可吹牛的內(nèi)容都是我干的撤逢。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼粮坞,長吁一口氣:“原來是場噩夢啊……” “哼蚊荣!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起莫杈,我...
    開封第一講書人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤互例,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后筝闹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體媳叨,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡为迈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年分瘾,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡狈涮,死狀恐怖絮姆,靈堂內(nèi)的尸體忽然破棺而出伊履,到底是詐尸還是另有隱情蝙茶,我是刑警寧澤,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布汞舱,位于F島的核電站伍纫,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏昂芜。R本人自食惡果不足惜莹规,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望说铃。 院中可真熱鬧访惜,春花似錦嘹履、人聲如沸腻扇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽幼苛。三九已至,卻和暖如春焕刮,著一層夾襖步出監(jiān)牢的瞬間舶沿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來泰國打工配并, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留括荡,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓溉旋,卻偏偏與公主長得像畸冲,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子观腊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容