當(dāng)我們談?wù)摂?shù)據(jù)挖掘時芦昔,究竟是在說什么?

數(shù)據(jù)挖掘(Data Mining娃肿,簡稱DM)咕缎,顧名思義,就是指從大量的數(shù)據(jù)中挖掘出未知的且有價值的信息和知識的過程料扰。

相較于更注重技術(shù)和算法的機器學(xué)習(xí)而言凭豪,數(shù)據(jù)挖掘更偏向于“數(shù)據(jù)”而非算法,且包括了很多數(shù)據(jù)的前期處理工作晒杈,爬取數(shù)據(jù)嫂伞,數(shù)據(jù)清洗,數(shù)據(jù)整合,數(shù)據(jù)有效性檢測帖努,數(shù)據(jù)可視化(畫圖)等等撰豺,因此是個比較寬泛的概念。


商業(yè)上的諸多問題拼余,例如:

如何降低用戶流失率污桦?

某個用戶是否會響應(yīng)本次營銷活動?

如何細(xì)分現(xiàn)有目標(biāo)市場匙监?

如何制定交叉銷售策略以提升銷售額凡橱?

如何預(yù)測未來銷量?

從數(shù)據(jù)挖掘的角度看舅柜,都可以轉(zhuǎn)換為四大問題:分類梭纹、聚類躲惰、關(guān)聯(lián)致份、預(yù)測

數(shù)據(jù)挖掘四大基本問題

分類:分類問題帶有預(yù)測性础拨,簡單來說就是判斷一個未知數(shù)據(jù)屬于哪種類別氮块。


▲分類算法示意

聚類:根據(jù)選定的指標(biāo),對數(shù)據(jù)進行劃分诡宗,算法根據(jù)“物以類聚”的原則滔蝉,判斷各條數(shù)據(jù)之間的相似性,相似的就將其歸為一類塔沃。

聚類問題容易與分類問題混淆蝠引,主要是語言表達的原因,但兩者之間有著本質(zhì)的區(qū)別蛀柴。分類問題是預(yù)測一個未知類別的用戶屬于哪個類別(相當(dāng)于做單選題)螃概,而聚類問題是根據(jù)選定的指標(biāo),對一群用戶進行劃分(相當(dāng)于做開放式的論述題)鸽疾,它不屬于預(yù)測問題吊洼。


▲聚類算法示意

關(guān)聯(lián):基于數(shù)據(jù)識別其中潛在的相關(guān)性。

預(yù)測:采用統(tǒng)計學(xué)技術(shù)制肮,例如回歸冒窍、時間序列等研究目標(biāo)變量與影響它的若干相關(guān)變量之間的關(guān)系。

關(guān)聯(lián)中蘊藏價值

關(guān)聯(lián)中蘊藏著巨大的價值豺鼻,最典型的便是“啤酒-尿布”的故事综液,我們姑且不論該故事是否是編造而來,但隱藏在啤酒和尿布之間這種表面上并沒有任何痕跡的關(guān)聯(lián)儒飒,如果不通過數(shù)據(jù)挖掘技術(shù)谬莹,僅僅靠拍腦袋,是難以想出來的。

通過關(guān)聯(lián)規(guī)則的挖掘届良,我們便可以找到數(shù)據(jù)間的相關(guān)性笆凌,從而指導(dǎo)實際工作。同時士葫,通過尋找關(guān)聯(lián)關(guān)系乞而,我們又能發(fā)現(xiàn)其間的因果溯源。


預(yù)測指導(dǎo)決策

預(yù)測慢显,是大數(shù)據(jù)算法應(yīng)用中最核心的問題爪模,絕大部分我們可以想象到的應(yīng)用問題,例如:個性化推薦荚藻、精分營銷屋灌、員工績效管理、銀行信用卡征信应狱、小微企業(yè)貸款共郭、生產(chǎn)線優(yōu)化控制、精準(zhǔn)廣告投放和營業(yè)網(wǎng)點選擇……等等疾呻,其本質(zhì)都是預(yù)測問題除嘹。


生活中,我們比較常見的大數(shù)據(jù)預(yù)測方法有點擊購買類的預(yù)測(預(yù)測一個消費者有多大可能性會點擊某個廣告岸蜗,購買某種商品)尉咕、基于移動軌跡的位置預(yù)測(通過“簽到-分享”類應(yīng)用積累消費者數(shù)據(jù)從而發(fā)現(xiàn)商業(yè)價值)、鏈路預(yù)測(社交網(wǎng)絡(luò)上的朋友推薦)等璃岳。

當(dāng)確定分析問題和指標(biāo)以后年缎,通過對數(shù)據(jù)進行清洗、特征提取铃慷、模型訓(xùn)練单芜、模型融合,就可以利用數(shù)據(jù)挖掘工具對數(shù)據(jù)進行較好的挖掘和分析枚冗。

國內(nèi)外主流數(shù)據(jù)挖掘工具

當(dāng)前缓溅,國內(nèi)外主流的數(shù)據(jù)挖掘工具有RapidMiner、Weka赁温、SAS坛怪、R、IBM SPSS Modeler股囊、iCloudUnion袜匿、Microsoft ML Studio等。


其中稚疹,iCloudUnion作為國內(nèi)率先出現(xiàn)的數(shù)據(jù)挖掘產(chǎn)品居灯,以其輕便的B/S架構(gòu)祭务、特定領(lǐng)域的新算法響應(yīng)、安全的多用戶協(xié)作共享空間等眾多優(yōu)點逐步走進大眾視野怪嫌。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末义锥,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子岩灭,更是在濱河造成了極大的恐慌拌倍,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,816評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件噪径,死亡現(xiàn)場離奇詭異柱恤,居然都是意外死亡,警方通過查閱死者的電腦和手機找爱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評論 3 385
  • 文/潘曉璐 我一進店門梗顺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人车摄,你說我怎么就攤上這事寺谤。” “怎么了练般?”我有些...
    開封第一講書人閱讀 158,300評論 0 348
  • 文/不壞的土叔 我叫張陵矗漾,是天一觀的道長。 經(jīng)常有香客問我薄料,道長,這世上最難降的妖魔是什么泵琳? 我笑而不...
    開封第一講書人閱讀 56,780評論 1 285
  • 正文 為了忘掉前任摄职,我火速辦了婚禮,結(jié)果婚禮上获列,老公的妹妹穿的比我還像新娘谷市。我一直安慰自己,他們只是感情好击孩,可當(dāng)我...
    茶點故事閱讀 65,890評論 6 385
  • 文/花漫 我一把揭開白布迫悠。 她就那樣靜靜地躺著,像睡著了一般巩梢。 火紅的嫁衣襯著肌膚如雪创泄。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,084評論 1 291
  • 那天括蝠,我揣著相機與錄音鞠抑,去河邊找鬼。 笑死忌警,一個胖子當(dāng)著我的面吹牛搁拙,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 39,151評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼箕速,長吁一口氣:“原來是場噩夢啊……” “哼酪碘!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起盐茎,我...
    開封第一講書人閱讀 37,912評論 0 268
  • 序言:老撾萬榮一對情侶失蹤婆跑,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后庭呜,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體滑进,經(jīng)...
    沈念sama閱讀 44,355評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,666評論 2 327
  • 正文 我和宋清朗相戀三年募谎,在試婚紗的時候發(fā)現(xiàn)自己被綠了扶关。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,809評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡数冬,死狀恐怖节槐,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情拐纱,我是刑警寧澤铜异,帶...
    沈念sama閱讀 34,504評論 4 334
  • 正文 年R本政府宣布,位于F島的核電站秸架,受9級特大地震影響揍庄,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜东抹,卻給世界環(huán)境...
    茶點故事閱讀 40,150評論 3 317
  • 文/蒙蒙 一蚂子、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧缭黔,春花似錦食茎、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至惧互,卻和暖如春哎媚,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背壹哺。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評論 1 267
  • 我被黑心中介騙來泰國打工抄伍, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人管宵。 一個月前我還...
    沈念sama閱讀 46,628評論 2 362
  • 正文 我出身青樓截珍,卻偏偏與公主長得像攀甚,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子岗喉,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,724評論 2 351

推薦閱讀更多精彩內(nèi)容