六步繞開數(shù)據(jù)挖掘路上的坑

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是一項(xiàng)非常有挑戰(zhàn)的工作止吁。不同于其它工作,從一開始進(jìn)行數(shù)據(jù)挖掘就沒有明確的需求,用戶也不知道想要什么東西拦赠。直到用戶看到做出的結(jié)果觸發(fā)他們的靈感,才能將他們的業(yè)務(wù)知識(shí)不斷融入其中進(jìn)行深層次的挖掘探索葵姥。

數(shù)據(jù)挖掘是一個(gè)反復(fù)交互的過程荷鼠。數(shù)據(jù)挖掘過程中需要將挖掘的結(jié)果不斷的提交給最終用戶使用,這樣才能不斷獲得用戶的反饋榔幸,讓用戶深層次地參與進(jìn)來允乐。該工作不能閉門造車,如果所有工作做完之后再給用戶使用削咆,那些你認(rèn)為合理的挖掘很有可能用戶會(huì)覺得一文不值牍疏。

首次進(jìn)行數(shù)據(jù)挖掘,有效的挖掘結(jié)果產(chǎn)出率極低拨齐。如果按照二八原則鳞陨,面對(duì)不明確的需求,首次能夠有20%的有效的挖掘成果就是很不錯(cuò)的了瞻惋。面對(duì)這樣的窘境不要灰心厦滤,在前人的探索下已經(jīng)形成了一套有效且通用的挖掘工作標(biāo)準(zhǔn)方法。我們按照給出的流程推進(jìn)挖掘工作歼狼,可盡量避免不必要的資源耗損馁害。該方法嚴(yán)格按照數(shù)據(jù)挖掘建模標(biāo)準(zhǔn)(CRISP-DM)來執(zhí)行,該模型將挖掘建模分為以下六個(gè)遞進(jìn)階段(挖掘工作應(yīng)該按部就班從第一步走到第六步)蹂匹。


數(shù)據(jù)挖掘建模標(biāo)準(zhǔn)(CRISP-DM)

第一步碘菜,定義商業(yè)問題。定義商業(yè)問題是明確要達(dá)到的業(yè)務(wù)目標(biāo),并將其轉(zhuǎn)換為數(shù)據(jù)挖掘主題忍啸。要從商業(yè)角度對(duì)業(yè)務(wù)部門的需求進(jìn)行理解仰坦,把業(yè)務(wù)需求的理解轉(zhuǎn)化為數(shù)據(jù)挖掘的定義,擬定達(dá)成業(yè)務(wù)目標(biāo)的初步方案计雌。具體包括商業(yè)背景分析悄晃、商業(yè)成功標(biāo)準(zhǔn)的確定、形勢評(píng)估凿滤、獲得企業(yè)資源清單妈橄、獲得企業(yè)的要求和設(shè)想、評(píng)估成本和收益翁脆、評(píng)估風(fēng)險(xiǎn)和意外眷蚓、初步理解行業(yè)術(shù)語,并確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘計(jì)劃反番。

此處有坑:

業(yè)務(wù)目標(biāo)不清晰沙热。一開始就跳入項(xiàng)目最有趣的部分--分析數(shù)據(jù),但這樣做只產(chǎn)出有趣的模型罢缸,而不能滿足真正的商業(yè)需要篙贸。不能一開始就陷入細(xì)節(jié),應(yīng)該真正去了解業(yè)務(wù)問題以及明確模型可以發(fā)揮什么作用枫疆,確定項(xiàng)目團(tuán)隊(duì)的業(yè)務(wù)目標(biāo)和提出衡量項(xiàng)目成功的指標(biāo)爵川。

第二步,數(shù)據(jù)理解息楔。進(jìn)行數(shù)據(jù)理解要找出可能影響主題的因素寝贡,確定這些影響因素的數(shù)據(jù)載體、數(shù)據(jù)體現(xiàn)形式和數(shù)據(jù)存儲(chǔ)位置钞螟。數(shù)據(jù)理解從數(shù)據(jù)收集開始,然后熟悉數(shù)據(jù)谎碍,具體包括以下工作內(nèi)容:檢測數(shù)據(jù)質(zhì)量鳞滨,對(duì)數(shù)據(jù)進(jìn)行初步理解,簡單描述數(shù)據(jù)蟆淀,探測數(shù)據(jù)意義拯啦,并對(duì)數(shù)據(jù)中潛藏的信息和知識(shí)提出擬用數(shù)據(jù)加以驗(yàn)證的假設(shè)

此處有坑:

對(duì)數(shù)據(jù)缺乏理解熔任。缺乏對(duì)數(shù)據(jù)的深度理解可能導(dǎo)致選取了不合理的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘褒链。因?yàn)閿?shù)據(jù)混雜,數(shù)據(jù)覆蓋率不全疑苔,數(shù)據(jù)完整性不強(qiáng)和數(shù)據(jù)獨(dú)立都會(huì)影響有效信息的發(fā)掘甫匹。應(yīng)該認(rèn)真選擇合理的對(duì)業(yè)務(wù)目標(biāo)支撐最大的數(shù)據(jù),理解數(shù)據(jù)的意義,弄清不同數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系兵迅。

第三步抢韭,數(shù)據(jù)預(yù)處理。預(yù)處理是將前面找到的數(shù)據(jù)進(jìn)行變換恍箭、組合刻恭,建立數(shù)據(jù)挖掘工具軟件要求的格式和內(nèi)容的寬表。數(shù)據(jù)準(zhǔn)備階段要從原始數(shù)據(jù)中形成作為建模分析對(duì)象的最終數(shù)據(jù)集扯夭。數(shù)據(jù)準(zhǔn)備階段的具體工作主要包括數(shù)據(jù)制表鳍贾、記錄處理、變量選擇交洗、數(shù)據(jù)轉(zhuǎn)換骑科、數(shù)據(jù)格式化和數(shù)據(jù)清理等,各項(xiàng)工作并不需要預(yù)先規(guī)定好執(zhí)行順序藕筋,而且數(shù)據(jù)準(zhǔn)備工作還有可能多次執(zhí)行纵散。

此處有坑:

未做好對(duì)數(shù)據(jù)預(yù)處理工作。直接把數(shù)據(jù)從生產(chǎn)系統(tǒng)中導(dǎo)出使用隐圾,數(shù)據(jù)粒度參差不齊伍掀,導(dǎo)致很多分析無法輕易進(jìn)行。若未對(duì)臟數(shù)據(jù)進(jìn)行清洗暇藏,臟數(shù)據(jù)會(huì)影響分析結(jié)果蜜笤。在理解數(shù)據(jù)之后將數(shù)據(jù)預(yù)處理形成統(tǒng)一格式非常重要,數(shù)據(jù)預(yù)處理的好壞直接影響后面模型建立以及模型的運(yùn)行結(jié)果盐碱。

第四步把兔,建立模型。建立模型是應(yīng)用軟件工具瓮顽,選擇合適的建模方法县好,處理準(zhǔn)備好的數(shù)據(jù)寬表,找出數(shù)據(jù)中隱藏的規(guī)律暖混。在建立模型階段缕贡,將選擇和使用各種建模方法,并將模型參數(shù)進(jìn)行優(yōu)化拣播。對(duì)同樣的業(yè)務(wù)問題和數(shù)據(jù)準(zhǔn)備晾咪,可能有多種數(shù)據(jù)挖掘技術(shù)方法可供選用,此時(shí)可優(yōu)選提升度高贮配、置信度高谍倦、簡單而易于總結(jié)業(yè)務(wù)政策和建議的數(shù)據(jù)挖掘技術(shù)方法。在建模過程中泪勒,還可能會(huì)發(fā)現(xiàn)一些潛在的數(shù)據(jù)問題昼蛀,要求回到數(shù)據(jù)準(zhǔn)備階段宴猾。建立模型階段的具體工作包括:選擇合適的建模技術(shù)、進(jìn)行檢驗(yàn)設(shè)計(jì)曹洽、建造模型鳍置。

此處有坑:

盲目地返工。一些分析團(tuán)隊(duì)只用分析術(shù)語來評(píng)估他們的模型送淆,認(rèn)為如果模型只要做到可預(yù)測税产,那么它就是一個(gè)好的模型。大多數(shù)人通惩当溃可以意識(shí)到模型是有問題的辟拷,就會(huì)嘗試檢查他們的模型是否符合業(yè)務(wù)目標(biāo)。但如果缺乏對(duì)商業(yè)問題的充分認(rèn)識(shí)阐斜,這樣的檢查往往是徒勞的衫冻。如果他們開發(fā)的模型不符合業(yè)務(wù)需求,大多數(shù)人選擇的是去找新數(shù)據(jù)或新的建模技術(shù)谒出,而不是與他們的業(yè)務(wù)合作伙伴一起重新評(píng)估業(yè)務(wù)問題隅俘。

第五步,評(píng)價(jià)和解釋笤喳。模型評(píng)估是從業(yè)務(wù)角度和統(tǒng)計(jì)角度進(jìn)行模型結(jié)論的評(píng)估为居。要求檢查建模的整個(gè)過程,以確保模型沒有重大錯(cuò)誤杀狡,并檢查是否遺漏重要的業(yè)務(wù)問題蒙畴。當(dāng)模型評(píng)估階段結(jié)束時(shí),應(yīng)對(duì)數(shù)據(jù)挖掘結(jié)果的發(fā)布計(jì)劃達(dá)成一致呜象。

此處有坑:

模型評(píng)估機(jī)制未建立膳凝。沒有模型評(píng)估機(jī)制,就無法評(píng)估模型是否有效恭陡,得出的挖掘結(jié)果缺乏理論支撐蹬音。評(píng)估機(jī)制分為兩點(diǎn):第一、對(duì)模型的評(píng)估主要體現(xiàn)在檢查功能的實(shí)現(xiàn)情況休玩,比如檢查所需要的報(bào)表著淆、圖表、數(shù)據(jù)是否按要求建立哥捕。第二牧抽、模型對(duì)商業(yè)問題的支撐力度嘉熊,此評(píng)判建立在對(duì)商業(yè)問題的深入理解之上才能對(duì)結(jié)果進(jìn)行判斷遥赚。

第六步,部署和使用阐肤。建立模型本身并不是數(shù)據(jù)挖掘的目標(biāo)凫佛,雖然模型使數(shù)據(jù)背后隱藏的信息和知識(shí)顯現(xiàn)出來讲坎,但數(shù)據(jù)挖掘的根本目標(biāo)是將信息和知識(shí)以某種方式組織和呈現(xiàn)出來(如:圖形化報(bào)表展示),并用來改善運(yùn)營和提高效率愧薛。當(dāng)然晨炕,在實(shí)際的數(shù)據(jù)挖掘工作中,根據(jù)不同的企業(yè)業(yè)務(wù)需求毫炉,模型發(fā)布的具體工作可能簡單到提交數(shù)據(jù)挖掘報(bào)告瓮栗,也可能復(fù)雜到將模型集成到企業(yè)的核心運(yùn)營系統(tǒng)中

此處有坑:

盲目地部署瞄勾。一些分析團(tuán)隊(duì)根本不考慮他們模型的部署和操作的易用性费奸。做得好些的團(tuán)隊(duì)可以認(rèn)識(shí)到他們構(gòu)建的模型必將處理實(shí)時(shí)數(shù)據(jù),數(shù)據(jù)通常存儲(chǔ)在數(shù)據(jù)庫中进陡,或嵌入在操作系統(tǒng)中愿阐。即使是這樣的團(tuán)隊(duì)通常也沒有參與到部署工作中,不清楚模型是如何部署的趾疚,并不把部署當(dāng)做分析工作的一部分缨历。結(jié)果就是把模型直接丟給IT團(tuán)隊(duì)去部署,模型是否容易部署以及在生產(chǎn)環(huán)境中是否可用都是別人的問題糙麦。這增加了模型部署的時(shí)間和成本辛孵,并產(chǎn)生了大量從未對(duì)業(yè)務(wù)產(chǎn)生影響的模型。

無法形成迭代喳资。建模專家團(tuán)隊(duì)了解模型的生命周期觉吭,為了保證模型的可用性,需要對(duì)模型保持更新仆邓。他們知道隨著商業(yè)環(huán)境變化鲜滩,模型的價(jià)值會(huì)改變,驅(qū)動(dòng)模型的數(shù)據(jù)模式可能會(huì)改變节值。但他們認(rèn)為這是另一個(gè)時(shí)間點(diǎn)的問題徙硅。由于他們?nèi)鄙賹?duì)業(yè)務(wù)問題的足夠認(rèn)識(shí),往往難以確定如何評(píng)估模型的表現(xiàn)搞疗,相比模型建立階段嗓蘑,他們?cè)谀P偷⑿薷纳系耐度敫倌淠恕.吘菇鉀Q另一個(gè)新問題更有趣桩皿。這使得老的模型不受監(jiān)控和保護(hù),從而破壞了模型的長期價(jià)值幢炸。

小結(jié):

以上章節(jié)介紹了數(shù)據(jù)挖掘建模標(biāo)準(zhǔn)(CRISP-DM)泄隔,對(duì)每一步要做什么工作進(jìn)行了描述。同時(shí)宛徊,也對(duì)沒有做好的情況可能帶來的坑簡要的說明了一下佛嬉。

以上任意一步差錯(cuò)帶來的問題都可能使構(gòu)建出來的模型毫無商業(yè)價(jià)值逻澳,真正需要利用分析的組織,特別是數(shù)據(jù)挖掘暖呕、預(yù)測和機(jī)器學(xué)習(xí)等更高級(jí)的分析斜做,必須避免這些問題。解決這些問題需要明確湾揽、清晰地關(guān)注決策瓤逼,圍繞著決策展開,包括需要改善的決策方法库物,做能實(shí)際改善決策的分析模型抛姑,設(shè)計(jì)可以輔助決策的系統(tǒng),還需要明確在怎樣的外部環(huán)境下需要重新評(píng)估模型艳狐。

期待在數(shù)據(jù)挖掘道路上同前行定硝,共成長。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末毫目,一起剝皮案震驚了整個(gè)濱河市蔬啡,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌镀虐,老刑警劉巖箱蟆,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異刮便,居然都是意外死亡空猜,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門恨旱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來辈毯,“玉大人,你說我怎么就攤上這事搜贤∽晃郑” “怎么了?”我有些...
    開封第一講書人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵仪芒,是天一觀的道長唁影。 經(jīng)常有香客問我,道長掂名,這世上最難降的妖魔是什么据沈? 我笑而不...
    開封第一講書人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮饺蔑,結(jié)果婚禮上锌介,老公的妹妹穿的比我還像新娘。我一直安慰自己膀钠,他們只是感情好掏湾,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著肿嘲,像睡著了一般融击。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上雳窟,一...
    開封第一講書人閱讀 49,144評(píng)論 1 285
  • 那天尊浪,我揣著相機(jī)與錄音,去河邊找鬼封救。 笑死拇涤,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的誉结。 我是一名探鬼主播鹅士,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼惩坑!你這毒婦竟也來了掉盅?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤以舒,失蹤者是張志新(化名)和其女友劉穎趾痘,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蔓钟,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡永票,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了滥沫。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片侣集。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖兰绣,靈堂內(nèi)的尸體忽然破棺而出肚吏,到底是詐尸還是另有隱情,我是刑警寧澤狭魂,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布罚攀,位于F島的核電站,受9級(jí)特大地震影響雌澄,放射性物質(zhì)發(fā)生泄漏斋泄。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一镐牺、第九天 我趴在偏房一處隱蔽的房頂上張望炫掐。 院中可真熱鬧,春花似錦睬涧、人聲如沸募胃。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽痹束。三九已至检疫,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間祷嘶,已是汗流浹背屎媳。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留论巍,地道東北人烛谊。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像嘉汰,于是被迫代替她去往敵國和親丹禀。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容