隨著數(shù)據(jù)規(guī)模的日益龐大昧识,僅僅支持查詢疮丛、統(tǒng)計(jì)的產(chǎn)品已經(jīng)不能滿足大部分用戶,進(jìn)而對數(shù)據(jù)分析挖掘的需求越來越大驴党。
盡管意識到數(shù)據(jù)分析挖掘的重要性瘪撇,但數(shù)據(jù)分析挖掘具體能做什么呢?究竟能帶來什么具體化的價(jià)值呢?
本文將從以下幾個(gè)角度描述:
一倔既、描述統(tǒng)計(jì)
提到數(shù)據(jù)分析挖掘第一反應(yīng)是各種高深恕曲、復(fù)雜的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)框架渤涌,但對于一個(gè)僅支持查詢码俩、統(tǒng)計(jì)的產(chǎn)品首先需要的是描述度量。
1歼捏、度量指數(shù)
管理學(xué)大師彼得德魯克曾經(jīng)說過“你如果無法度量它稿存,就無法管理它”(“It you can’t measure it, you can’t manage it”)。要想有效管理瞳秽,就難以繞開度量的問題瓣履。
(1)NBA球員效率指數(shù)
例如對于一個(gè)新手而言,想要知道哪個(gè)球員是最優(yōu)秀的练俐,如果告訴他得分?jǐn)?shù)袖迎、助攻數(shù)、搶斷數(shù)等信息腺晾,肯定會被搞的暈頭轉(zhuǎn)向燕锥,如果你直接告訴他NBA球員效率指數(shù)會省事很多。
NBA球員效率指數(shù) = [(得分?jǐn)?shù)+助攻數(shù)+總籃板數(shù)+搶斷數(shù)+蓋帽數(shù))-(投籃出手?jǐn)?shù)-投籃命中數(shù))-(罰球出手?jǐn)?shù)-罰球命中數(shù))-失誤數(shù)]/球員的比賽場次
有了NBA球員效率指數(shù)悯蝉,我們可以用一個(gè)單一的數(shù)字來綜合判斷球員表現(xiàn)归形,比較各個(gè)球員間的整體表現(xiàn)。
(2)空氣污染指數(shù)
例如想知道當(dāng)天的空氣污染情況鼻由,空氣污染的污染物有:煙塵暇榴、懸浮顆粒物、二氧化氮蕉世、二氧化硫蔼紧、一氧化碳、揮發(fā)性有機(jī)化合物等等狠轻,根據(jù)這樣一堆數(shù)據(jù)很難衡量當(dāng)天的空氣污染情況奸例,用空氣污染指數(shù)可以簡潔明了的表示。
空氣污染指數(shù)向楼,是將常規(guī)監(jiān)測的幾種空氣污染物濃度簡化成為單一的概念性指數(shù)值形式查吊。
空氣污染指數(shù)劃分為0-50、51-100蜜自、101-150菩貌、151-200、201-300和大于300六檔重荠,對應(yīng)于空氣質(zhì)量的六個(gè)級別箭阶,指數(shù)越大虚茶,級別越高,說明污染越嚴(yán)重仇参,對人體健康的影響也越明顯嘹叫。
(3)平均學(xué)分績點(diǎn)
例如想知道學(xué)生在大學(xué)四年的學(xué)習(xí)表現(xiàn),如果告訴他在大一那年毛概考了多少分诈乒,大二那年高數(shù)考了多少分顯然不是很合適罩扇。我們使用GPA來衡量。
平均學(xué)分績點(diǎn)(Grade Point Average怕磨,即GPA)是以學(xué)分與績點(diǎn)作為衡量學(xué)生學(xué)習(xí)的量與質(zhì)的計(jì)算單位.
我國院形辜ⅲ基本上采用百分制,在轉(zhuǎn)換為GPA時(shí)應(yīng)采取以下標(biāo)準(zhǔn):90至100=4肠鲫,80至89=3员帮,70至79=2,60至69=1导饲,小于60分=0
在申請?jiān)盒r(shí)可以根據(jù)GPA快速的衡量一個(gè)學(xué)生的學(xué)習(xí)綜合能力捞高。
(4)構(gòu)建你的業(yè)務(wù)指數(shù)
生活中有各種這類指數(shù)(支付寶芝麻信用、股票的投資風(fēng)險(xiǎn)系數(shù)渣锦、體重的IBM指數(shù)硝岗,...),有的計(jì)算方法很簡單袋毙,有的計(jì)算比較復(fù)雜型檀,考慮影響因素很多。
盡管沒有一個(gè)指數(shù)能完美無缺的衡量問題娄猫,但沒有比這種指數(shù)更簡單明了的度量信息了贱除。
這樣的指數(shù)構(gòu)建往往需要考慮業(yè)務(wù)的需求,參考行業(yè)標(biāo)準(zhǔn)媳溺,考慮的影響因素要盡可能全面,要使搭建的指數(shù)值得信服碍讯。
2悬蔽、不是純粹的統(tǒng)計(jì)
數(shù)據(jù)分析的目的就是發(fā)現(xiàn)數(shù)據(jù)的特征和變化規(guī)律,如果只告訴你一個(gè)數(shù)字捉兴,比如昨天UV是10萬蝎困,你能分析出什么?該UV值是好還是壞倍啥?是在變好還是變壞禾乘?其實(shí)什么結(jié)論都得不到,你所做的只是將數(shù)據(jù)展現(xiàn)出來虽缕,并非在做分析始藕。
在發(fā)展初級階段,我們經(jīng)常見到根據(jù)各種屬性畫分類餅圖
、重點(diǎn)數(shù)值的顯示
伍派,根據(jù)時(shí)間畫折線圖
江耀、根據(jù)地域及數(shù)量畫熱力地圖
、根據(jù)對象及數(shù)量畫top柱形圖
诉植,本著豐富內(nèi)容的目的蠻橫堆砌祥国,全篇下來沒有看到什么真正有價(jià)值的信息。
單純的數(shù)據(jù)統(tǒng)計(jì)圖價(jià)值是不大的晾腔,有價(jià)值的是能夠反應(yīng)什么有意義的信息舌稀。
以典型的折線圖為例
(1)尋找拐點(diǎn)的原因[2]
下圖展示了2015-2019年間某家企業(yè)的年增長率(折線)和營收總額(柱狀)變化情況。
如果到畫出這張圖就結(jié)束了灼擂,可不太行哦壁查。我們需要關(guān)注“拐點(diǎn)”。
2017年是折線拐點(diǎn)缤至,要結(jié)合其他維度數(shù)據(jù)找到異常原因潮罪。
為什么企業(yè)年增長率從2015年開始的不斷上升,突然在2017年急劇下降呢领斥?
需要另一維度的數(shù)據(jù)進(jìn)行對比分析嫉到,比如圖中的營收總額,很明顯在2017年的時(shí)候月洛,營收總額突然下降何恶,之后雖然營收總額不斷回升,卻仍然阻止不了企業(yè)增長率的下跌嚼黔。
【結(jié)論】
2017年企業(yè)營收情況太差细层,造成企業(yè)增長速率的放緩;
2017年之后唬涧,企業(yè)營收基本保持不變疫赎,難以支撐高速發(fā)展的企業(yè),因此企業(yè)發(fā)展逐漸陷入停滯碎节;
(2)有效預(yù)測[2]
到拐點(diǎn)分析就結(jié)束顯然是不夠體現(xiàn)分析價(jià)值的捧搞,預(yù)測是很重要的分析能力。
數(shù)據(jù)預(yù)測的方法有很多狮荔,這里使用回歸預(yù)測胎撇,預(yù)測下年度的值為XXX(在0.09左右)。
【結(jié)論】
因?yàn)闋I收情況的平緩增長殖氏,企業(yè)的增長率大概率會保持在現(xiàn)有的9%不變晚树,或者緩慢下降,除非企業(yè)采取措施擴(kuò)大市場等促進(jìn)營收增長的方案雅采。
(3)差異點(diǎn)原因[2]
下圖為A爵憎、B慨亲、C、D纲堵、E五個(gè)不同產(chǎn)品在不同時(shí)間內(nèi)的銷售情況巡雨。
由于數(shù)據(jù)波動(dòng)比較大席函,拐點(diǎn)太多铐望,轉(zhuǎn)而尋找差異點(diǎn)。
畫完圖就結(jié)束了可不行哦。
2010年3月B產(chǎn)品的銷量上升到了高峰茂附,而其他產(chǎn)品均下降正蛙,這就是一個(gè)差異點(diǎn);
而2011年1月雖然B產(chǎn)品銷量也達(dá)到了高峰营曼,但是其他產(chǎn)品也同時(shí)呈現(xiàn)了銷量上升的情況乒验,因此不足以成為一個(gè)差異點(diǎn)
我們需要尋找差異點(diǎn)原因。
(4)趨勢分析[2]
根據(jù)一個(gè)產(chǎn)品的趨勢情況蒂阱,提出分析建議
B產(chǎn)品3年每月的銷售趨勢走向折線圖如下
2009年整體平穩(wěn)锻全,略有上升趨勢,需增加投資录煤;
2010年銷售波動(dòng)大鳄厌,上升趨勢,需控制風(fēng)險(xiǎn)妈踊,進(jìn)行優(yōu)化了嚎;
2011年,沒有規(guī)律下降廊营,產(chǎn)品不行了歪泳;
二、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中那些有用信息的非平凡過程露筒,這些信息的表現(xiàn)形式為規(guī)則呐伞、概念、規(guī)律及模式等[3]慎式。
1荸哟、常見的數(shù)據(jù)分析挖掘項(xiàng)目
1.1、群體處理
(1)群體細(xì)分
群體細(xì)分的目的一般是對不同類型客戶的精準(zhǔn)營銷瞬捕,實(shí)現(xiàn)利潤最大化。
多采用聚類技術(shù)來進(jìn)行群體細(xì)分舵抹,群體劃分?jǐn)?shù)量的設(shè)置比較麻煩肪虎;
當(dāng)然如果已有標(biāo)簽數(shù)據(jù)的存儲,可以用決策樹等有監(jiān)督分類算法惧蛹;
數(shù)據(jù)特征的選擇要盡可能全面扇救、相關(guān)刑枝。
群體細(xì)分不僅能夠?qū)崿F(xiàn)客戶的分類,還給出了每一類的特征迅腔,有助于對每一類小群體的了解装畅。
航空公司為了針對不同類型客戶,進(jìn)行精準(zhǔn)營銷沧烈,實(shí)現(xiàn)利潤最大化掠兄,需要對客戶進(jìn)行細(xì)分。
衡量一個(gè)客戶價(jià)值需要考慮:消費(fèi)時(shí)間間隔R锌雀,客戶關(guān)系長度L蚂夕,消費(fèi)頻率F,飛行里程M和折扣系數(shù)的平均值C五個(gè)因素腋逆。
傳統(tǒng)的統(tǒng)計(jì)對于多指標(biāo)的劃分并不方便婿牍,我們使用聚類算法來處理。
利用K-Means聚類進(jìn)行航空公司客戶價(jià)值分析
針對不同的群體特征設(shè)置客戶價(jià)值惩歉,對不同類型客戶做精準(zhǔn)營銷等脂。
(2)群體社交關(guān)系
社交網(wǎng)絡(luò)是由許多節(jié)點(diǎn)構(gòu)成的一種社會結(jié)構(gòu),節(jié)點(diǎn)通常是指個(gè)人或組織撑蚌,而社交網(wǎng)絡(luò)代表著各種社會關(guān)系上遥。一般使用社交網(wǎng)絡(luò)算法來進(jìn)行關(guān)系挖掘。
金融欺詐往往組團(tuán)發(fā)展锨并,我們采用社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用挖掘欺詐團(tuán)伙露该。
社交關(guān)系的構(gòu)建數(shù)據(jù)可以是來自直接關(guān)系數(shù)據(jù),如聯(lián)系人數(shù)據(jù)(用戶申請貸款時(shí)填寫的緊急聯(lián)系人號碼)等第煮;也可以來自間接關(guān)系數(shù)據(jù)解幼,如通過用戶行為數(shù)據(jù)挖掘出共用手機(jī)設(shè)備等,基于這樣的關(guān)系構(gòu)建社交網(wǎng)絡(luò)包警。
如圖是一個(gè)典型的欺詐團(tuán)體撵摆,紅色是被拒絕的用戶,黑色是通過但是有逾期表現(xiàn)的用戶害晦,綠色是通過并且表現(xiàn)良好的用戶特铝,該團(tuán)的拒絕率達(dá)到66.8%,說明該團(tuán)的平均用戶信用值較低壹瘟,而通過的用戶中91.4%有逾期表現(xiàn)鲫剿,進(jìn)一步驗(yàn)證了該團(tuán)的欺詐性。
(2)群體特征挖掘
已知群體劃分結(jié)果稻轨,想要知道特殊群體的特征信息灵莲,例如付費(fèi)用戶特征、續(xù)費(fèi)用戶特征等殴俱。
一般采用有監(jiān)督政冻、決策樹算法枚抵。
從美國1994年人口普查數(shù)據(jù)庫中抽取數(shù)據(jù),想要了解年收入超過50k群體的特征明场∑。可使用的變量為:年齡age、工作類別workclass苦锨、fnlwgt逼泣、教育education、教育年限education.num逆屡、婚姻狀況marital.status圾旨、職業(yè)occupation、社會角色relationship魏蔗、種族race砍的、性別sex、資本收益capital.gain莺治、資本損失capital.loss廓鞠、每周幾小時(shí)hours.per.week、祖國native.country谣旁、收入income
藍(lán)色部分為年收入>50k的群體床佳,藍(lán)色越深表示依據(jù)這些特性的判斷結(jié)果越準(zhǔn)確,從左往右來看的藍(lán)色群體的特征:
1榄审、婚姻狀況marital.status<=4.5年砌们,資本收益capital.gain>7139.5
2、婚姻狀況marital.status>4.5年搁进,教育年限education.num<12.5年浪感,資本收益capital.gain>5059.5
3、婚姻狀況marital.status>4.5年饼问,教育年限education.num<12.5年影兽,資本收益capital.gain<=5059.5,職業(yè)occupation>8.5莱革,資本損失capital.loss>1846
...
1.2峻堰、概率預(yù)測
概率學(xué)是一門研究不確定事件和結(jié)果的學(xué)問,對于很多不確定風(fēng)險(xiǎn)盅视,我們使用概率來量化風(fēng)險(xiǎn)捐名,幫助決策者認(rèn)清哪些事情值得冒險(xiǎn)。
一般是有監(jiān)督闹击、分類模型桐筏,可選擇的算法很廣,多試試選擇最合適的就好。
我們想知道哪些客戶可能會成為流失客戶梅忌,通過概率預(yù)測找到這些客戶提前采取營銷手段進(jìn)行客戶挽留。
以電信客戶流失預(yù)測為例:
提供數(shù)據(jù)為用戶ID除破、性別牧氮、是否老年人、月費(fèi)用瑰枫、總費(fèi)用等19個(gè)特征踱葛,該用戶是否流失(Yes or No)為標(biāo)簽信息。
構(gòu)建分類模型光坝,使用10中分類算法做算法選型
擬合發(fā)現(xiàn)10種分類算法中樸素貝葉斯(Naive Bayes)的F1 Score最大尸诽,所以使用樸素貝葉斯模型效果最好,使用model.predict_proba()預(yù)測客戶的流失概率盯另。
1.3性含、趨勢與預(yù)測
我們需要趨勢預(yù)測來對未來行情的總體運(yùn)行方向有一個(gè)清晰的認(rèn)識
(1)趨勢預(yù)測
趨勢預(yù)測分析法亦稱時(shí)間序列預(yù)測分析法,將過去的歷史資料按時(shí)間順序排列鸳惯,然后再運(yùn)用一定的數(shù)字模型來預(yù)計(jì)商蕴、推測一種預(yù)測方法。
一般使用指數(shù)平滑法芝发、ARAMA绪商、LSTM等時(shí)序算法,本質(zhì)是序列擬合辅鲸。
《哪吒之魔童降世》上映以來朋友圈和微博各種安利格郁,上映第8天,實(shí)時(shí)票房15億多独悴。哪吒票房最終究竟能有多少例书?用科學(xué)預(yù)測下《哪吒》票房:
通過對歷史票房數(shù)據(jù)進(jìn)行多項(xiàng)式曲線擬合,建立一個(gè)票房走勢的“模型”绵患,再把現(xiàn)有的票房套進(jìn)模型里做計(jì)算
假設(shè)上映60天雾叭,預(yù)計(jì)票房結(jié)果是 41.3 億
(2)回歸預(yù)測
回歸預(yù)測把影響預(yù)測目標(biāo)的各因素找出來,然后找出這些因素和預(yù)測目標(biāo)之間的聯(lián)系關(guān)系落蝙。
一般采用有監(jiān)督织狐、預(yù)測相關(guān)算法,可選模型比較多筏勒。
以房價(jià)預(yù)測為例移迫,影響房價(jià)的因素有房屋面積、樓層管行、車庫厨埋、建筑年份等因素。
比較隨機(jī)森林捐顷、邏輯回歸荡陷、線性回歸雨效、SVM算法的預(yù)測,比較而言废赞,對于這份數(shù)據(jù)集隨機(jī)森林的預(yù)測效果最優(yōu)徽龟,SVM調(diào)參后有性能提升的空間。
當(dāng)提供有房屋面積唉地、樓層据悔、車庫、建筑年份等信息時(shí)耘沼,即可預(yù)測該房屋的售價(jià)极颓。
1.3、路徑分析
(1)路徑挖掘
路徑挖掘是常用的數(shù)據(jù)挖據(jù)方法之一群嗤, 是一種找尋頻繁訪問路徑的方法菠隆。
一般采用關(guān)聯(lián)算法、社交網(wǎng)絡(luò)算法
通過挖掘?qū)W習(xí)者訪問路徑習(xí)慣骚烧,以此改善教學(xué)平臺站點(diǎn)的設(shè)計(jì)浸赫,基于關(guān)聯(lián)算法在網(wǎng)絡(luò)教學(xué)平臺中頻繁訪問路徑研究
采集數(shù)據(jù)庫內(nèi)用戶的頁面訪問路徑信息,頁面用A-K代替
假設(shè)我們得到這樣的結(jié)構(gòu)
A->D^E 0.333333333333
A^C->D 0.285714285714
A^C->E 1.0
即如果用戶訪問了A赃绊,有33%的可能會訪問D和E既峡;
如果用戶訪問了A和C,有28%的可能會訪問D碧查;
如果用戶訪問了A和C运敢,有100%的可能會訪問E
此時(shí),我們可以以此為依據(jù)忠售,根據(jù)用戶行為改進(jìn)網(wǎng)頁的站點(diǎn)了传惠。
(2)最優(yōu)路徑分析方法
路徑的最優(yōu)化問題(暫放)
1.4、推薦系統(tǒng)
推薦系統(tǒng)是一種信息過濾系統(tǒng)稻扬,用于預(yù)測用戶對物品的評分或偏好卦方。
(1)相似對象/產(chǎn)品挖掘
基于領(lǐng)域的協(xié)同過濾算法主要有兩種,一種是基于物品的泰佳,一種是基于用戶的盼砍。
協(xié)同過濾推薦的本質(zhì)是尋找相似的對象/產(chǎn)品,所以在實(shí)現(xiàn)推薦的同時(shí)逝她,我們可以挖掘出面向客戶行為的相似對象浇坐。
已知客戶A,想要知道數(shù)據(jù)庫里和客戶A有相似行為的客戶有哪些黔宛?一直產(chǎn)品B近刘,想知道和產(chǎn)品B一樣被某類客戶喜歡的產(chǎn)品還有哪些?
例如協(xié)同過濾-音樂推薦,根據(jù)不同用戶對不同音樂的喜好得分觉渴,構(gòu)建協(xié)同過濾模型介劫。
算法結(jié)果可以反饋每個(gè)用戶/音樂的相似度,例如用戶1相關(guān)的相似度為:
相似度 影評人編號
[(0.0500000000000213, '用戶2'),
(0.040000000000004, '用戶3'),
......]
向該用戶推薦音樂的話可以找到相似度高/滿足閾值的用戶疆拘,推薦他們喜歡的音樂蜕猫。
(2)其他推薦方法
當(dāng)然還有其他的推薦方法,例如基于內(nèi)容的推薦哎迄、基于相似行為的推薦。
2隆圆、業(yè)務(wù)需求針對性項(xiàng)目
2.1漱挚、有監(jiān)督分類模型
有監(jiān)督項(xiàng)目要求積累一定的業(yè)務(wù)數(shù)據(jù)與對應(yīng)的分類標(biāo)簽信息,基于業(yè)務(wù)長期積累的有監(jiān)督數(shù)據(jù)構(gòu)建有價(jià)值的分類模型渺氧。
一般使用各種分類模型(SVM\隨機(jī)森林\xgboost...)旨涝、神經(jīng)網(wǎng)絡(luò),選擇很廣侣背。
例如金融評分卡模型白华、文本分類模型
2.2、其他
其他業(yè)務(wù)需求分析
參考資料
[1] 《赤裸裸的統(tǒng)計(jì)學(xué)》查爾斯·惠倫
[2] 趨勢分析:https://zhuanlan.zhihu.com/p/91309321
[3] 《數(shù)據(jù)挖掘與數(shù)據(jù)化運(yùn)營實(shí)戰(zhàn)》盧輝