數(shù)據(jù)挖掘是一項(xiàng)非常有挑戰(zhàn)的工作止吁。不同于其它工作,從一開始進(jìn)行數(shù)據(jù)挖掘就沒有明確的需求,用戶也不知道想要什么東西拦赠。直到用戶看到做出的結(jié)果觸發(fā)他們的靈感,才能將他們的業(yè)務(wù)知識(shí)不斷融入其中進(jìn)行深層次的挖掘探索葵姥。
數(shù)據(jù)挖掘是一個(gè)反復(fù)交互的過程荷鼠。數(shù)據(jù)挖掘過程中需要將挖掘的結(jié)果不斷的提交給最終用戶使用,這樣才能不斷獲得用戶的反饋榔幸,讓用戶深層次地參與進(jìn)來允乐。該工作不能閉門造車,如果所有工作做完之后再給用戶使用削咆,那些你認(rèn)為合理的挖掘很有可能用戶會(huì)覺得一文不值牍疏。
首次進(jìn)行數(shù)據(jù)挖掘,有效的挖掘結(jié)果產(chǎn)出率極低拨齐。如果按照二八原則鳞陨,面對(duì)不明確的需求,首次能夠有20%的有效的挖掘成果就是很不錯(cuò)的了瞻惋。面對(duì)這樣的窘境不要灰心厦滤,在前人的探索下已經(jīng)形成了一套有效且通用的挖掘工作標(biāo)準(zhǔn)方法。我們按照給出的流程推進(jìn)挖掘工作歼狼,可盡量避免不必要的資源耗損馁害。該方法嚴(yán)格按照數(shù)據(jù)挖掘建模標(biāo)準(zhǔn)(CRISP-DM)來執(zhí)行,該模型將挖掘建模分為以下六個(gè)遞進(jìn)階段(挖掘工作應(yīng)該按部就班從第一步走到第六步)蹂匹。
第一步碘菜,定義商業(yè)問題。定義商業(yè)問題是明確要達(dá)到的業(yè)務(wù)目標(biāo),并將其轉(zhuǎn)換為數(shù)據(jù)挖掘主題忍啸。要從商業(yè)角度對(duì)業(yè)務(wù)部門的需求進(jìn)行理解仰坦,把業(yè)務(wù)需求的理解轉(zhuǎn)化為數(shù)據(jù)挖掘的定義,擬定達(dá)成業(yè)務(wù)目標(biāo)的初步方案计雌。具體包括商業(yè)背景分析悄晃、商業(yè)成功標(biāo)準(zhǔn)的確定、形勢評(píng)估凿滤、獲得企業(yè)資源清單妈橄、獲得企業(yè)的要求和設(shè)想、評(píng)估成本和收益翁脆、評(píng)估風(fēng)險(xiǎn)和意外眷蚓、初步理解行業(yè)術(shù)語,并確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘計(jì)劃反番。
此處有坑:
業(yè)務(wù)目標(biāo)不清晰沙热。一開始就跳入項(xiàng)目最有趣的部分--分析數(shù)據(jù),但這樣做只產(chǎn)出有趣的模型罢缸,而不能滿足真正的商業(yè)需要篙贸。不能一開始就陷入細(xì)節(jié),應(yīng)該真正去了解業(yè)務(wù)問題以及明確模型可以發(fā)揮什么作用枫疆,確定項(xiàng)目團(tuán)隊(duì)的業(yè)務(wù)目標(biāo)和提出衡量項(xiàng)目成功的指標(biāo)爵川。
第二步,數(shù)據(jù)理解息楔。進(jìn)行數(shù)據(jù)理解要找出可能影響主題的因素寝贡,確定這些影響因素的數(shù)據(jù)載體、數(shù)據(jù)體現(xiàn)形式和數(shù)據(jù)存儲(chǔ)位置钞螟。數(shù)據(jù)理解從數(shù)據(jù)收集開始,然后熟悉數(shù)據(jù)谎碍,具體包括以下工作內(nèi)容:檢測數(shù)據(jù)質(zhì)量鳞滨,對(duì)數(shù)據(jù)進(jìn)行初步理解,簡單描述數(shù)據(jù)蟆淀,探測數(shù)據(jù)意義拯啦,并對(duì)數(shù)據(jù)中潛藏的信息和知識(shí)提出擬用數(shù)據(jù)加以驗(yàn)證的假設(shè)。
此處有坑:
對(duì)數(shù)據(jù)缺乏理解熔任。缺乏對(duì)數(shù)據(jù)的深度理解可能導(dǎo)致選取了不合理的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘褒链。因?yàn)閿?shù)據(jù)混雜,數(shù)據(jù)覆蓋率不全疑苔,數(shù)據(jù)完整性不強(qiáng)和數(shù)據(jù)獨(dú)立都會(huì)影響有效信息的發(fā)掘甫匹。應(yīng)該認(rèn)真選擇合理的對(duì)業(yè)務(wù)目標(biāo)支撐最大的數(shù)據(jù),理解數(shù)據(jù)的意義,弄清不同數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系兵迅。
第三步抢韭,數(shù)據(jù)預(yù)處理。預(yù)處理是將前面找到的數(shù)據(jù)進(jìn)行變換恍箭、組合刻恭,建立數(shù)據(jù)挖掘工具軟件要求的格式和內(nèi)容的寬表。數(shù)據(jù)準(zhǔn)備階段要從原始數(shù)據(jù)中形成作為建模分析對(duì)象的最終數(shù)據(jù)集扯夭。數(shù)據(jù)準(zhǔn)備階段的具體工作主要包括數(shù)據(jù)制表鳍贾、記錄處理、變量選擇交洗、數(shù)據(jù)轉(zhuǎn)換骑科、數(shù)據(jù)格式化和數(shù)據(jù)清理等,各項(xiàng)工作并不需要預(yù)先規(guī)定好執(zhí)行順序藕筋,而且數(shù)據(jù)準(zhǔn)備工作還有可能多次執(zhí)行纵散。
此處有坑:
未做好對(duì)數(shù)據(jù)預(yù)處理工作。直接把數(shù)據(jù)從生產(chǎn)系統(tǒng)中導(dǎo)出使用隐圾,數(shù)據(jù)粒度參差不齊伍掀,導(dǎo)致很多分析無法輕易進(jìn)行。若未對(duì)臟數(shù)據(jù)進(jìn)行清洗暇藏,臟數(shù)據(jù)會(huì)影響分析結(jié)果蜜笤。在理解數(shù)據(jù)之后將數(shù)據(jù)預(yù)處理形成統(tǒng)一格式非常重要,數(shù)據(jù)預(yù)處理的好壞直接影響后面模型建立以及模型的運(yùn)行結(jié)果盐碱。
第四步把兔,建立模型。建立模型是應(yīng)用軟件工具瓮顽,選擇合適的建模方法县好,處理準(zhǔn)備好的數(shù)據(jù)寬表,找出數(shù)據(jù)中隱藏的規(guī)律暖混。在建立模型階段缕贡,將選擇和使用各種建模方法,并將模型參數(shù)進(jìn)行優(yōu)化拣播。對(duì)同樣的業(yè)務(wù)問題和數(shù)據(jù)準(zhǔn)備晾咪,可能有多種數(shù)據(jù)挖掘技術(shù)方法可供選用,此時(shí)可優(yōu)選提升度高贮配、置信度高谍倦、簡單而易于總結(jié)業(yè)務(wù)政策和建議的數(shù)據(jù)挖掘技術(shù)方法。在建模過程中泪勒,還可能會(huì)發(fā)現(xiàn)一些潛在的數(shù)據(jù)問題昼蛀,要求回到數(shù)據(jù)準(zhǔn)備階段宴猾。建立模型階段的具體工作包括:選擇合適的建模技術(shù)、進(jìn)行檢驗(yàn)設(shè)計(jì)曹洽、建造模型鳍置。
此處有坑:
盲目地返工。一些分析團(tuán)隊(duì)只用分析術(shù)語來評(píng)估他們的模型送淆,認(rèn)為如果模型只要做到可預(yù)測税产,那么它就是一個(gè)好的模型。大多數(shù)人通惩当溃可以意識(shí)到模型是有問題的辟拷,就會(huì)嘗試檢查他們的模型是否符合業(yè)務(wù)目標(biāo)。但如果缺乏對(duì)商業(yè)問題的充分認(rèn)識(shí)阐斜,這樣的檢查往往是徒勞的衫冻。如果他們開發(fā)的模型不符合業(yè)務(wù)需求,大多數(shù)人選擇的是去找新數(shù)據(jù)或新的建模技術(shù)谒出,而不是與他們的業(yè)務(wù)合作伙伴一起重新評(píng)估業(yè)務(wù)問題隅俘。
第五步,評(píng)價(jià)和解釋笤喳。模型評(píng)估是從業(yè)務(wù)角度和統(tǒng)計(jì)角度進(jìn)行模型結(jié)論的評(píng)估为居。要求檢查建模的整個(gè)過程,以確保模型沒有重大錯(cuò)誤杀狡,并檢查是否遺漏重要的業(yè)務(wù)問題蒙畴。當(dāng)模型評(píng)估階段結(jié)束時(shí),應(yīng)對(duì)數(shù)據(jù)挖掘結(jié)果的發(fā)布計(jì)劃達(dá)成一致呜象。
此處有坑:
模型評(píng)估機(jī)制未建立膳凝。沒有模型評(píng)估機(jī)制,就無法評(píng)估模型是否有效恭陡,得出的挖掘結(jié)果缺乏理論支撐蹬音。評(píng)估機(jī)制分為兩點(diǎn):第一、對(duì)模型的評(píng)估主要體現(xiàn)在檢查功能的實(shí)現(xiàn)情況休玩,比如檢查所需要的報(bào)表著淆、圖表、數(shù)據(jù)是否按要求建立哥捕。第二牧抽、模型對(duì)商業(yè)問題的支撐力度嘉熊,此評(píng)判建立在對(duì)商業(yè)問題的深入理解之上才能對(duì)結(jié)果進(jìn)行判斷遥赚。
第六步,部署和使用阐肤。建立模型本身并不是數(shù)據(jù)挖掘的目標(biāo)凫佛,雖然模型使數(shù)據(jù)背后隱藏的信息和知識(shí)顯現(xiàn)出來讲坎,但數(shù)據(jù)挖掘的根本目標(biāo)是將信息和知識(shí)以某種方式組織和呈現(xiàn)出來(如:圖形化報(bào)表展示),并用來改善運(yùn)營和提高效率愧薛。當(dāng)然晨炕,在實(shí)際的數(shù)據(jù)挖掘工作中,根據(jù)不同的企業(yè)業(yè)務(wù)需求毫炉,模型發(fā)布的具體工作可能簡單到提交數(shù)據(jù)挖掘報(bào)告瓮栗,也可能復(fù)雜到將模型集成到企業(yè)的核心運(yùn)營系統(tǒng)中。
此處有坑:
盲目地部署瞄勾。一些分析團(tuán)隊(duì)根本不考慮他們模型的部署和操作的易用性费奸。做得好些的團(tuán)隊(duì)可以認(rèn)識(shí)到他們構(gòu)建的模型必將處理實(shí)時(shí)數(shù)據(jù),數(shù)據(jù)通常存儲(chǔ)在數(shù)據(jù)庫中进陡,或嵌入在操作系統(tǒng)中愿阐。即使是這樣的團(tuán)隊(duì)通常也沒有參與到部署工作中,不清楚模型是如何部署的趾疚,并不把部署當(dāng)做分析工作的一部分缨历。結(jié)果就是把模型直接丟給IT團(tuán)隊(duì)去部署,模型是否容易部署以及在生產(chǎn)環(huán)境中是否可用都是別人的問題糙麦。這增加了模型部署的時(shí)間和成本辛孵,并產(chǎn)生了大量從未對(duì)業(yè)務(wù)產(chǎn)生影響的模型。
無法形成迭代喳资。建模專家團(tuán)隊(duì)了解模型的生命周期觉吭,為了保證模型的可用性,需要對(duì)模型保持更新仆邓。他們知道隨著商業(yè)環(huán)境變化鲜滩,模型的價(jià)值會(huì)改變,驅(qū)動(dòng)模型的數(shù)據(jù)模式可能會(huì)改變节值。但他們認(rèn)為這是另一個(gè)時(shí)間點(diǎn)的問題徙硅。由于他們?nèi)鄙賹?duì)業(yè)務(wù)問題的足夠認(rèn)識(shí),往往難以確定如何評(píng)估模型的表現(xiàn)搞疗,相比模型建立階段嗓蘑,他們?cè)谀P偷⑿薷纳系耐度敫倌淠恕.吘菇鉀Q另一個(gè)新問題更有趣桩皿。這使得老的模型不受監(jiān)控和保護(hù),從而破壞了模型的長期價(jià)值幢炸。
小結(jié):
以上章節(jié)介紹了數(shù)據(jù)挖掘建模標(biāo)準(zhǔn)(CRISP-DM)泄隔,對(duì)每一步要做什么工作進(jìn)行了描述。同時(shí)宛徊,也對(duì)沒有做好的情況可能帶來的坑簡要的說明了一下佛嬉。
以上任意一步差錯(cuò)帶來的問題都可能使構(gòu)建出來的模型毫無商業(yè)價(jià)值逻澳,真正需要利用分析的組織,特別是數(shù)據(jù)挖掘暖呕、預(yù)測和機(jī)器學(xué)習(xí)等更高級(jí)的分析斜做,必須避免這些問題。解決這些問題需要明確湾揽、清晰地關(guān)注決策瓤逼,圍繞著決策展開,包括需要改善的決策方法库物,做能實(shí)際改善決策的分析模型抛姑,設(shè)計(jì)可以輔助決策的系統(tǒng),還需要明確在怎樣的外部環(huán)境下需要重新評(píng)估模型艳狐。
期待在數(shù)據(jù)挖掘道路上同前行定硝,共成長。