數(shù)據(jù)挖掘(Data Mining娃肿,簡稱DM)咕缎,顧名思義,就是指從大量的數(shù)據(jù)中挖掘出未知的且有價值的信息和知識的過程料扰。
相較于更注重技術(shù)和算法的機器學(xué)習(xí)而言凭豪,數(shù)據(jù)挖掘更偏向于“數(shù)據(jù)”而非算法,且包括了很多數(shù)據(jù)的前期處理工作晒杈,爬取數(shù)據(jù)嫂伞,數(shù)據(jù)清洗,數(shù)據(jù)整合,數(shù)據(jù)有效性檢測帖努,數(shù)據(jù)可視化(畫圖)等等撰豺,因此是個比較寬泛的概念。
商業(yè)上的諸多問題拼余,例如:
如何降低用戶流失率污桦?
某個用戶是否會響應(yīng)本次營銷活動?
如何細(xì)分現(xiàn)有目標(biāo)市場匙监?
如何制定交叉銷售策略以提升銷售額凡橱?
如何預(yù)測未來銷量?
從數(shù)據(jù)挖掘的角度看舅柜,都可以轉(zhuǎn)換為四大問題:分類梭纹、聚類躲惰、關(guān)聯(lián)致份、預(yù)測。
數(shù)據(jù)挖掘四大基本問題
分類:分類問題帶有預(yù)測性础拨,簡單來說就是判斷一個未知數(shù)據(jù)屬于哪種類別氮块。
▲分類算法示意
聚類:根據(jù)選定的指標(biāo),對數(shù)據(jù)進行劃分诡宗,算法根據(jù)“物以類聚”的原則滔蝉,判斷各條數(shù)據(jù)之間的相似性,相似的就將其歸為一類塔沃。
聚類問題容易與分類問題混淆蝠引,主要是語言表達的原因,但兩者之間有著本質(zhì)的區(qū)別蛀柴。分類問題是預(yù)測一個未知類別的用戶屬于哪個類別(相當(dāng)于做單選題)螃概,而聚類問題是根據(jù)選定的指標(biāo),對一群用戶進行劃分(相當(dāng)于做開放式的論述題)鸽疾,它不屬于預(yù)測問題吊洼。
▲聚類算法示意
關(guān)聯(lián):基于數(shù)據(jù)識別其中潛在的相關(guān)性。
預(yù)測:采用統(tǒng)計學(xué)技術(shù)制肮,例如回歸冒窍、時間序列等研究目標(biāo)變量與影響它的若干相關(guān)變量之間的關(guān)系。
關(guān)聯(lián)中蘊藏價值
關(guān)聯(lián)中蘊藏著巨大的價值豺鼻,最典型的便是“啤酒-尿布”的故事综液,我們姑且不論該故事是否是編造而來,但隱藏在啤酒和尿布之間這種表面上并沒有任何痕跡的關(guān)聯(lián)儒飒,如果不通過數(shù)據(jù)挖掘技術(shù)谬莹,僅僅靠拍腦袋,是難以想出來的。
通過關(guān)聯(lián)規(guī)則的挖掘届良,我們便可以找到數(shù)據(jù)間的相關(guān)性笆凌,從而指導(dǎo)實際工作。同時士葫,通過尋找關(guān)聯(lián)關(guān)系乞而,我們又能發(fā)現(xiàn)其間的因果溯源。
預(yù)測指導(dǎo)決策
預(yù)測慢显,是大數(shù)據(jù)算法應(yīng)用中最核心的問題爪模,絕大部分我們可以想象到的應(yīng)用問題,例如:個性化推薦荚藻、精分營銷屋灌、員工績效管理、銀行信用卡征信应狱、小微企業(yè)貸款共郭、生產(chǎn)線優(yōu)化控制、精準(zhǔn)廣告投放和營業(yè)網(wǎng)點選擇……等等疾呻,其本質(zhì)都是預(yù)測問題除嘹。
生活中,我們比較常見的大數(shù)據(jù)預(yù)測方法有點擊購買類的預(yù)測(預(yù)測一個消費者有多大可能性會點擊某個廣告岸蜗,購買某種商品)尉咕、基于移動軌跡的位置預(yù)測(通過“簽到-分享”類應(yīng)用積累消費者數(shù)據(jù)從而發(fā)現(xiàn)商業(yè)價值)、鏈路預(yù)測(社交網(wǎng)絡(luò)上的朋友推薦)等璃岳。
當(dāng)確定分析問題和指標(biāo)以后年缎,通過對數(shù)據(jù)進行清洗、特征提取铃慷、模型訓(xùn)練单芜、模型融合,就可以利用數(shù)據(jù)挖掘工具對數(shù)據(jù)進行較好的挖掘和分析枚冗。
國內(nèi)外主流數(shù)據(jù)挖掘工具
當(dāng)前缓溅,國內(nèi)外主流的數(shù)據(jù)挖掘工具有RapidMiner、Weka赁温、SAS坛怪、R、IBM SPSS Modeler股囊、iCloudUnion袜匿、Microsoft ML Studio等。
其中稚疹,iCloudUnion作為國內(nèi)率先出現(xiàn)的數(shù)據(jù)挖掘產(chǎn)品居灯,以其輕便的B/S架構(gòu)祭务、特定領(lǐng)域的新算法響應(yīng)、安全的多用戶協(xié)作共享空間等眾多優(yōu)點逐步走進大眾視野怪嫌。