繼《普通程序員蝶涩,如何轉(zhuǎn)型大數(shù)據(jù)相關(guān)方向理朋?》和《給大數(shù)據(jù)入行者的,建議和書單
》之后子寓,特此摘述幾個(gè)大數(shù)據(jù)從業(yè)者的職場履歷暗挑!
1
彭先生 ?亞馬遜-機(jī)器學(xué)習(xí)研究員笋除、數(shù)據(jù)科學(xué)家
見證了大數(shù)據(jù)從炙手可熱的全過程
【履歷】
2010年-2012年斜友,Google實(shí)習(xí)生
2012年-2017年,博士畢業(yè)垃它,入職亞馬遜擔(dān)任機(jī)器學(xué)習(xí)研究員和數(shù)據(jù)科學(xué)家鲜屏。
【見聞】
當(dāng)年一起從事數(shù)據(jù)研究(數(shù)據(jù)挖掘)的同事,都去哪兒了国拇?
A.??約50%轉(zhuǎn)為純程序員:數(shù)據(jù)科學(xué)家的價(jià)值洛史,體現(xiàn)非常曲折。牛逼的大有人在酱吝,因心累而轉(zhuǎn)為純程序員的也在所難免也殖,因?yàn)槌绦騿T的選擇面很寬,高者其薪資也可能高過數(shù)據(jù)科學(xué)家。
B. 約40%轉(zhuǎn)為PM:述者原話“數(shù)據(jù)科學(xué)家免不了忽悠忆嗜,忽悠多了失去了自己己儒,有的就變成了會(huì)寫SQL的產(chǎn)品經(jīng)理”,可采納度自行揣度~
C. 約10%轉(zhuǎn)為全棧數(shù)據(jù)科學(xué)家:在數(shù)據(jù)科學(xué)方面混得比較久的捆毫,多轉(zhuǎn)為了全椛镣澹科學(xué)家。全椉保化既可以往底層通程序員途样、系統(tǒng)構(gòu)架,也可以往高處通管理層濒憋,大侃價(jià)值觀何暇,把握全局,做的東西也更容易落地跋炕;但勞神費(fèi)力同樣在所難免赖晶。
總結(jié):數(shù)據(jù)科學(xué)家就像是咨詢公司一樣,不是特別適合作為終身職業(yè)辐烂。若早期入行遏插,可能風(fēng)光無限;但長遠(yuǎn)來講纠修,價(jià)值的落地胳嘲、測量都比較困難。
【經(jīng)驗(yàn)】
1)機(jī)器學(xué)習(xí)技術(shù)方面
模型容易獲得扣草,但經(jīng)驗(yàn)難得(無論做研究了牛,還是做業(yè)務(wù),都是如此)辰妙。
模型方面鹰祸,不外乎五大生態(tài)系統(tǒng):
A.?Python + Scikit Learn,最適合生產(chǎn)環(huán)境和數(shù)據(jù)研究混用;
B.?Spark + MLLib;
C.?Java + Weka ;
D.?TensorFlow等深度學(xué)習(xí)生態(tài);
E.?微軟等內(nèi)部重造輪子生態(tài)
以上五種生態(tài)密浑,除了最后一個(gè)外蛙婴,其余都容易入門(有基本的數(shù)學(xué)、統(tǒng)計(jì)知識(shí)尔破,看看github源代碼等)街图。但事關(guān)參數(shù)調(diào)試和具體成果,則要視研究領(lǐng)域和上下游情況而定懒构。不過餐济,系統(tǒng)工具方面的快速發(fā)展,給新入門者提供了許多便利之處胆剧,如Elasticsearch + Logstash + Kibana (ELK) 絮姆、Docker、?Kubernetes等都非常好用,同時(shí)部署門檻降低篙悯,部署速度得到提升冤灾。
經(jīng)驗(yàn):Docker出現(xiàn)以后,如果一件課題的代碼超過了2000行辕近,就說明你做錯(cuò)了韵吨。
2)管理方面
跟對(duì)老板/部門,尤其是老板移宅,上升速度會(huì)比較快归粉。而事實(shí)情況是,雖然大數(shù)據(jù)很火漏峰,但有上升機(jī)會(huì)的部門卻不多糠悼,例如做risk和預(yù)測的部門,往往比較苦逼浅乔。
2
某數(shù)據(jù)分析(挖掘)工程師
三年數(shù)據(jù)分析從業(yè)經(jīng)驗(yàn)
1)數(shù)據(jù)分析也好數(shù)據(jù)挖掘也好倔喂,其實(shí)都有套路;
如靖苇,流失分析:從用戶C端轉(zhuǎn)化率漏斗找漏洞席噩,通過多維組合分析找原因,并用abtest驗(yàn)證原因贤壁,最后分類識(shí)別深挖潛在目標(biāo)用戶悼枢。
2)東西變化很快,但實(shí)用的沒有那么多脾拆;
算法每年更新馒索,但行業(yè)里面通用的東西變化并不是很大
3)入?yún)⑦x擇很困難
能走多遠(yuǎn),不在于算法學(xué)的有多好名船,而在于對(duì)所處行業(yè)的理解深度绰上。
3
XX(轉(zhuǎn)行至數(shù)據(jù)挖掘)
三年數(shù)據(jù)挖掘從業(yè)經(jīng)驗(yàn)
1)大部分?jǐn)?shù)據(jù)挖掘工程師,偏算法應(yīng)用渠驼,但不執(zhí)于算法蜈块;
互聯(lián)網(wǎng)領(lǐng)域,大部分?jǐn)?shù)據(jù)挖掘工程師偏算法應(yīng)用渴邦,旨在用算法提升業(yè)務(wù)疯趟。
大數(shù)據(jù)挖掘門檻不會(huì)很高:數(shù)據(jù)處理能力為必須拘哨;算法方面谋梭,懂些理論,知道能解決什么問題倦青,參數(shù)怎么調(diào)瓮床,就能入門了(當(dāng)然,懂得算法理論細(xì)節(jié)最好)。
然而隘庄,算法牛逼不一定能做出牛逼的項(xiàng)目踢步,算法不牛逼也不一定做不出牛逼的項(xiàng)目。
2)跟著業(yè)務(wù)拓展算法丑掺;
鑒于業(yè)務(wù)發(fā)展階段問題和個(gè)人實(shí)力問題获印,并沒有很多機(jī)會(huì)讓你接觸到牛逼哄哄的技術(shù),跟著工作拓展算法(廣告dmp系統(tǒng)等)更加可行街州。
3)奮斗方向:用數(shù)據(jù)和算法驅(qū)動(dòng)業(yè)務(wù)增長漆诽;
通過數(shù)據(jù)和算法驅(qū)動(dòng)業(yè)務(wù)的增長乒裆。
如從事廣告,便期望對(duì)互聯(lián)網(wǎng)廣告業(yè)務(wù)有深入了解和實(shí)踐。比如實(shí)踐上薄坏,目前做的廣告dmp系統(tǒng)大部分是離線計(jì)算,希望將來業(yè)務(wù)發(fā)展能做dsp系統(tǒng)系羞,對(duì)接ssp參與廣告競價(jià)复罐。
4)給新入行者的建議
如果你數(shù)學(xué)功底和算法理論足夠強(qiáng)大,可以考慮偏算法理論研究和算法平臺(tái)開發(fā)的崗位趟紊,不然就考慮偏算法應(yīng)用的崗位氮双,做一位增長黑客。