數(shù)據(jù)挖掘森篷、數(shù)據(jù)分析已成為各大企業(yè)的重點输钩,市場前景一片光明,但如何在短時間內(nèi)成為大數(shù)據(jù)挖掘工程師呢仲智?今天买乃,大圣眾包平臺(www.dashengzb.cn)小編就為大家介紹一位在萬達電商做數(shù)據(jù)挖掘的妹子小曼的經(jīng)歷,看她是如何從數(shù)學(xué)女生一年內(nèi)獲得萬達數(shù)據(jù)挖掘工程師offer钓辆。
數(shù)據(jù)挖掘師需要哪些技能剪验?
1、無論是數(shù)據(jù)分析還是數(shù)據(jù)挖掘岩馍,統(tǒng)計的概念碉咆、知識是必備的,因此蛀恩,EXCEL、SPSS茂浮、SAS等這些至少要熟練双谆。小曼本身是數(shù)學(xué)系,接觸這些工具也比較多席揽,有基礎(chǔ)好掌握顽馋。
2、另外幌羞,數(shù)據(jù)挖掘還至少會一門編程語言寸谜,比如現(xiàn)在流行Python、Java属桦、hadoop等熊痴,有時用MapReduce寫程序,再用Hadoop或者Hyp來處理數(shù)據(jù)聂宾,如果用Python的話會和Spark相結(jié)合更配哦果善。
3、做數(shù)據(jù)挖掘的話系谐,其實就是從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律然后分類巾陕,應(yīng)用到一些高等數(shù)學(xué)、概率論等知識,所以數(shù)據(jù)專業(yè)有優(yōu)勢鄙煤,另外還需要懂些算法晾匠。比如樸素貝葉斯算法需要概率方面的知識,SKM算法需要高等代數(shù)或者區(qū)間論方面的知識梯刚。個人建議要想長遠發(fā)展凉馆,數(shù)學(xué)知識是很有必要的。
數(shù)據(jù)挖掘主要工作內(nèi)容有哪些乾巧?
以上是個人工作句喜,不代表各家企業(yè)的數(shù)據(jù)挖掘。
數(shù)據(jù)分析的話更傾向于統(tǒng)計沟于、分析然后作圖作報告咳胃,這方面較少做。
數(shù)據(jù)挖掘的話主要是建模型旷太,比如展懈,我們做百貨的數(shù)據(jù)分析。萬達電商本身的數(shù)據(jù)非常大供璧,具體要做什么需要項目組自己來定存崖。我們分析百貨數(shù)據(jù)就是為了提升銷售業(yè)績,帶動新的業(yè)務(wù)睡毒,因此来惧,我們從這些點出發(fā),去進行用戶分群工作演顾;就拿刷卡消費記錄來說供搀,萬達會員卡的卡號信息及歷史記錄都有,我們利用這些數(shù)據(jù)聚類钠至,分不同的用戶群葛虐,然后用戶背后購買行為,比如傾向女裝棉钧、家居用品還是親子類等等屿脐,然后針對性推薦營銷。
一般宪卿,用戶分類主要是用K-means的诵、K-means++等方法。(不懂挖掘算法可看《如何用數(shù)據(jù)挖掘算法進行精準(zhǔn)營銷》)處理數(shù)據(jù)的維度特別大愧捕,是300w*142維奢驯,如果全部拿來聚類,效果不太好次绘,所以我們會進行降維瘪阁,這時需要用到AutoEncoder算法撒遣,比如我們把142維數(shù)據(jù)灌進去,在隱含層降成50維數(shù)據(jù)管跺,輸出還是142維數(shù)據(jù)义黎。也就是說把一開始的142維數(shù)據(jù)投射到50維數(shù)據(jù)之后,再還原成142維豁跑,這142維與之前的142維數(shù)據(jù)之間的映射關(guān)系是一樣的廉涕,那么我們就可以用中間50維的數(shù)據(jù)做聚類分析。最后需要一個評價指標(biāo)艇拍,分析降維前后的效果狐蜕。
無論是數(shù)據(jù)挖掘師還是數(shù)據(jù)分析師,每個人都有自己的優(yōu)勢及興趣卸夕,但從長遠發(fā)展而言层释,個人建議不應(yīng)貪多,而是提高自己的技術(shù)和業(yè)務(wù)水平快集,多學(xué)習(xí)編程語言贡羔,這些技術(shù)都可以慢慢學(xué),但真正要長遠下去个初,并獲得升值成為核心乖寒,業(yè)務(wù)能力才是最重要,希望結(jié)合興趣院溺,在一個領(lǐng)域成為專家便足矣楣嘁。
(更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨、兼職機會及行業(yè)資源分享等請關(guān)注大圣眾包平臺珍逸,或添加大圣花花個人微信號(dashenghuaer)马澈,拉你入bigdata&BI交流群330648564。)