想轉(zhuǎn)行端姚?工業(yè)大數(shù)據(jù)方法論CRISP-DM晕粪!值得擁有

雖然說方法論在工業(yè)大數(shù)據(jù)的重要性,不及業(yè)務(wù)行業(yè)理解那么重要渐裸,但是對于方法論的理解巫湘,尤其是澄清對于一些細(xì)節(jié)的誤解,對于行業(yè)新人來說昏鹃,也是至關(guān)重要的尚氛。

CRISP-DM,Cross-Industry Standard Process for Data Mining洞渤,是一個SPSS阅嘶,戴姆勒等公司合作制定的一個跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程。

一個在跨行業(yè)(比如制造業(yè))中的數(shù)據(jù)挖掘過程载迄,大概是有六個階段:

業(yè)務(wù)理解

數(shù)據(jù)理解

數(shù)據(jù)準(zhǔn)備

建模

評價

部署

各個階段任務(wù)大概如下:

第一階段業(yè)務(wù)理解:從業(yè)務(wù)的角度理解項(xiàng)目的目標(biāo)和需求讯柔,將業(yè)務(wù)的目的轉(zhuǎn)換為一個數(shù)據(jù)挖掘的問題,制定一個初步的實(shí)現(xiàn)計劃

第二階段數(shù)據(jù)理解:初步收集數(shù)據(jù)护昧,了解魂迄、熟悉數(shù)據(jù)。關(guān)注數(shù)據(jù)質(zhì)量惋耙,進(jìn)行探索性的分析捣炬。

第三階段數(shù)據(jù)準(zhǔn)備:準(zhǔn)備最終輸入到模型中的數(shù)據(jù),數(shù)據(jù)的選擇怠晴,數(shù)據(jù)清晰等

第四階段建模:一般使用多種技術(shù)進(jìn)行建模遥金,將模型調(diào)整到最佳狀態(tài)。

第五階段評估:到這個階段一般已經(jīng)有從數(shù)據(jù)角度來看滿足要求的模型蒜田。重點(diǎn)是評估是否有業(yè)務(wù)問題還沒有考慮到稿械,是否已經(jīng)完全滿足業(yè)務(wù)要求。評估數(shù)據(jù)挖掘結(jié)果的使用可能性冲粤。

第六階段部署:數(shù)據(jù)分析完成了但是還不是最后一步美莫。最后一步的部署可能是生成一個報告,也可能是需要建立一個整個公司層面的新的系統(tǒng)梯捕,這是看業(yè)務(wù)的需求來定厢呵。一般數(shù)據(jù)分析師不會主要來負(fù)責(zé)這一部分工作,但是一定要保證數(shù)據(jù)分析的結(jié)果被正確的使用傀顾。

在一個企業(yè)的數(shù)據(jù)挖掘項(xiàng)目中襟铭,各個階段都有很多需要注意的問題。以下內(nèi)容參考昆侖數(shù)據(jù)。

一寒砖、業(yè)務(wù)理解階段

工業(yè)數(shù)據(jù)分析常常是一個知識嚴(yán)重二分的情形赐劣。數(shù)據(jù)分析師對工業(yè)過程缺乏深入了解,而業(yè)界人員對數(shù)據(jù)分析的了解相對缺乏哩都,溝通成本很高魁兼,造成效率低甚至結(jié)果達(dá)不到預(yù)期。

有幾種方法可以提高這樣的情況下的溝通效率:

系統(tǒng)上下文(System Context)

業(yè)務(wù)方面要給出明確的系統(tǒng)上下文漠嵌,包括業(yè)務(wù)相關(guān)(比如生產(chǎn)制造工程中咐汞,周圍環(huán)境)等的相關(guān)原理、相關(guān)運(yùn)作機(jī)制儒鹿,相關(guān)關(guān)鍵信息化撕,而且在盡量容易理解的同時,保證對于業(yè)務(wù)相關(guān)所有量的一個準(zhǔn)確描述约炎。

系統(tǒng)動力學(xué)模型(System Dynamics)

這個模型的核心侯谁,就是把業(yè)務(wù)相關(guān)的因素的數(shù)據(jù),定義好自變量章钾、因變量以及這些量的狀態(tài),是否可以觀測热芹,是否實(shí)時獲得贱傀,是否可以控制等。

業(yè)務(wù)用例(Use Case)

要把一個工業(yè)大數(shù)據(jù)分析的項(xiàng)目需求描述清楚伊脓,就一定要定義好誰來用府寒,什么時候,在什么情況下报腔,如何使用株搔,期待的結(jié)果是什么。

而且對于業(yè)務(wù)的需求一定要有重點(diǎn)以及突出優(yōu)先級纯蛾,對于期待的結(jié)果一定要有量化的衡量纤房。比如判斷一個機(jī)器狀態(tài)是否正常,想要達(dá)到的程度翻诉,是要壽命預(yù)測炮姨,實(shí)時監(jiān)測、異常通知碰煌,或者需要提前一個時間段預(yù)警舒岸,可能代表的是完全不同的業(yè)務(wù)難度。

比如芦圾,對于風(fēng)機(jī)發(fā)電機(jī)結(jié)冰問題蛾派,結(jié)冰預(yù)測需要小尺度的天氣預(yù)報,若做到風(fēng)機(jī)層面的預(yù)測還需要葉片表面光潔度等信息(否則,解釋不了平原風(fēng)場的3臺相鄰的風(fēng)機(jī)洪乍,只有1臺結(jié)冰眯杏,另外2臺沒有結(jié)冰的現(xiàn)象,這3臺風(fēng)機(jī)同型號同時期建設(shè)典尾,地形和周邊環(huán)境也幾乎一樣)役拴。但做到結(jié)冰檢測基于SCADA風(fēng)機(jī)狀態(tài)數(shù)據(jù)就可以做得比較準(zhǔn)確。從業(yè)務(wù)用例分析來看钾埂,風(fēng)場運(yùn)維需要是:能在風(fēng)機(jī)嚴(yán)重結(jié)冰前采取適當(dāng)措施河闰,避免高載荷下運(yùn)行對風(fēng)機(jī)造成損害。及時的結(jié)冰檢測報警也可以滿足業(yè)務(wù)需求褥紫。(K2Data)

這幾種方式姜性,核心都是減輕知識相互不對等的兩方合作時候,交流的成本髓考。對于一個企業(yè)來說部念,建立一個長期的、漸進(jìn)的培訓(xùn)學(xué)習(xí)機(jī)制氨菇,可以有效的提高這樣的交流效率儡炼。

最后,業(yè)務(wù)方面的需求大概可以分為如下三類:

二查蓉、數(shù)據(jù)理解階段

數(shù)據(jù)理解階段乌询,包括審查現(xiàn)有的數(shù)據(jù),對數(shù)據(jù)進(jìn)行第一階段的初步洞察豌研。最終回答的核心是這樣的一個問題:

數(shù)據(jù)挖掘大概可以看成這樣的一個情況妹田。

我們現(xiàn)在有很多數(shù)據(jù)x,以及因變量Y鹃共,想要找到一個f鬼佣,在可以接受的錯誤e的情況下,滿足這個關(guān)系霜浴。

實(shí)際關(guān)系是有很多的X晶衷,也有很多的Y,關(guān)系復(fù)雜阴孟。但是我們可以考慮到的房铭、測量的、可以收集的總是比實(shí)際少的温眉,大概是這樣的關(guān)系缸匪。

這時候就要看一個問題,經(jīng)常是這樣的:

實(shí)際中會有很多的量类溢,但是我們可以獲取的凌蔬,只有一部分露懒。核心的問題就是:這樣的數(shù)據(jù),有沒有能力可以實(shí)現(xiàn)我們的目標(biāo)砂心。

還有就是數(shù)據(jù)分析的根基:數(shù)據(jù)質(zhì)量

這個數(shù)據(jù)質(zhì)量懈词,在本身的以數(shù)據(jù)的方法判斷之外(比如缺失值,明顯的離群值等等)辩诞,還有一些在工業(yè)領(lǐng)域一定要注意的事情坎弯。

有些工業(yè)領(lǐng)域的數(shù)據(jù),如果不是直接采集译暂,而是人工收集的抠忘,可能需要更多的時間去判斷是否合理,需要結(jié)合情境外永,比如為了滿足KPI而人為修改的效率數(shù)據(jù)崎脉。就算是機(jī)器直接收集的,也要考慮比如在某天產(chǎn)量極低的情況下伯顶,反而故障很高囚灼,是否是工廠在調(diào)試維修狀態(tài)。比如機(jī)器狀態(tài)在正常的情況下祭衩,用電量反而極低灶体,是否是機(jī)器核心功能已經(jīng)停止但是并沒有及時報錯等等。

這個階段掐暮,就像大樓的地基一樣赃春,如果在項(xiàng)目的靠后階段才發(fā)現(xiàn)問題,將會浪費(fèi)大量的時間劫乱。所以對于關(guān)鍵性的數(shù)據(jù),一定要結(jié)合多方面的知識來審核锥涕。

數(shù)據(jù)成本:數(shù)據(jù)分析師的進(jìn)退兩難

在傳統(tǒng)的制造企業(yè)衷戈,數(shù)據(jù)分析師往往是一個比較新的部門或崗位,雖然級別低层坠,但是經(jīng)常要調(diào)動非常多的資源殖妇。這就帶來了一個困境,經(jīng)常會有數(shù)據(jù)較難獲取的情況破花。

而且在很初期的階段谦趣,數(shù)據(jù)分析師也很難在進(jìn)行初步分析之前,就預(yù)測項(xiàng)目的成果座每。對于一些數(shù)據(jù)分析貫徹不夠堅(jiān)決的地方前鹅,數(shù)據(jù)分析師往往是巧婦難為無米之炊。

但是很多時候也會有另外一個極端峭梳,分析師戰(zhàn)略地位足夠高舰绘,業(yè)務(wù)部門足夠配合蹂喻,這時候分析師對于數(shù)據(jù)的需求,直接決定了這個階段的工作量捂寿。如果一味的追求高質(zhì)量口四、大量的數(shù)據(jù),可能對業(yè)務(wù)造成極大的負(fù)擔(dān)秦陋。

三蔓彩、數(shù)據(jù)準(zhǔn)備階段

前邊提到的數(shù)據(jù)獲取等,也可以歸納到這個階段驳概。

個人更偏向于這個階段開始已經(jīng)是分析師的工作量大于業(yè)務(wù)方面赤嚼。

這個階段主要任務(wù):

原始數(shù)據(jù)抽取,轉(zhuǎn)換等純數(shù)據(jù)的加工

結(jié)合前期對數(shù)據(jù)的理解抡句,最終完成數(shù)據(jù)清洗

特征提取

這是這個階段最重要的事情探膊,到了項(xiàng)目的后期也經(jīng)常會再回到這個點(diǎn)進(jìn)行進(jìn)一步的工作。

還是一樣待榔,在工業(yè)領(lǐng)域逞壁,一定要一定要一定要利用現(xiàn)有的知識,首先充分利用現(xiàn)有的知識進(jìn)行特征提取锐锣。在相對成熟的領(lǐng)域一般都已經(jīng)有現(xiàn)成的解決方案腌闯、論文等可以參考。

可以說這個階段雕憔,直接決定了項(xiàng)目是不是可以成功姿骏。

第三階段的工作往往要占到整個工作時間的40%以上。

第四階段斤彼、建模

機(jī)器學(xué)習(xí)建模的過程分瘦。機(jī)器學(xué)習(xí)建模的方法目前已經(jīng)很成熟穩(wěn)定,在工業(yè)界使用的一般也是相對簡單琉苇、穩(wěn)定嘲玫,研究了很多年的模型。這些模型已經(jīng)足夠優(yōu)秀來解決工業(yè)界的問題并扇。

這部分工作對于機(jī)器學(xué)習(xí)研究者去团、互聯(lián)網(wǎng)從業(yè)者來說往往會顯得很低級和無聊,工作占整個項(xiàng)目的工作量穷蛹,在一個普通的項(xiàng)目里大概5%不到土陪。

有足夠質(zhì)量的數(shù)據(jù)、優(yōu)秀的特征以后肴熏,現(xiàn)在的建模也不需要你寫代碼了鬼雀,大量的分析工具都可以很簡單快速的完成常用模型。剩下還有非常大量的時間用來解釋結(jié)果蛙吏、匯報取刃、不熟等等蹋肮。

結(jié)合前邊表格中的工作重點(diǎn),這部分需要注意的問題主要還是兩個:

充分利用現(xiàn)有的知識

模型簡單璧疗、可靠坯辩,可解釋性高

第五階段、評價

在有一個從數(shù)據(jù)角度來說可用的模型以后崩侠,這個階段再回到業(yè)務(wù)的角度來審核模型漆魔。畢竟制造業(yè)還是以人的決策為主。

這個階段尤為重要的是審核模型應(yīng)用的風(fēng)險却音,比如是否有模型不可用的例外情況改抡,模型應(yīng)用的邊界是什么樣的。這個階段的結(jié)果直接決定了數(shù)據(jù)分析是否能落地系瓢,往往很多數(shù)據(jù)分析的項(xiàng)目阿纤,在這一階段不能說服業(yè)務(wù)方和管理者,也就不能實(shí)現(xiàn)價值夷陋。

這個階段還有一個重要的評價是部署的方案欠拾。方案的成本、最終的收益骗绕、可擴(kuò)展性藐窄、帶來的風(fēng)險等等,經(jīng)過這些綜合的考慮如果方案可以帶來的直接酬土、間接的經(jīng)濟(jì)收益大于支出和風(fēng)險荆忍,那么就可以看做項(xiàng)目已經(jīng)成功,就只待最后部署撤缴。

第六階段刹枉、部署

對于上一個階段部的策略進(jìn)行實(shí)施。并不是一定要上一套新的大數(shù)據(jù)平臺才算作是成功的部署屈呕。一個業(yè)務(wù)流程的改進(jìn)微宝,可能是通過人工的數(shù)據(jù)收集、通過相對簡陋的分析系統(tǒng)手動分析凉袱、反饋結(jié)果給業(yè)務(wù)部門使用,這有時候可能也是一個非常好的結(jié)果侦铜。

這個階段要注意的是對于全流程的清晰定義以及維護(hù)专甩,進(jìn)一步積累知識。

結(jié)束

在整個CRISP-DM的過程當(dāng)中钉稍,圍繞數(shù)據(jù)為核心涤躲,項(xiàng)目可能會在各個階段之間跳躍,因?yàn)閿?shù)據(jù)分析一定是一個不斷迭代的過程贡未。

CRISP-DM中定義了各個階段要做的工作以及典型的交付物种樱,非常值得學(xué)習(xí)一下蒙袍。

————————————————

關(guān)注這里,回復(fù)“4” 送你一大波 工業(yè)4.0嫩挤,工業(yè)大數(shù)據(jù)參考資料

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末害幅,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子岂昭,更是在濱河造成了極大的恐慌以现,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件约啊,死亡現(xiàn)場離奇詭異邑遏,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)恰矩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門记盒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人外傅,你說我怎么就攤上這事纪吮。” “怎么了栏豺?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵彬碱,是天一觀的道長。 經(jīng)常有香客問我奥洼,道長巷疼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任灵奖,我火速辦了婚禮嚼沿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘瓷患。我一直安慰自己骡尽,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布擅编。 她就那樣靜靜地躺著攀细,像睡著了一般。 火紅的嫁衣襯著肌膚如雪爱态。 梳的紋絲不亂的頭發(fā)上谭贪,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機(jī)與錄音锦担,去河邊找鬼俭识。 笑死,一個胖子當(dāng)著我的面吹牛洞渔,可吹牛的內(nèi)容都是我干的套媚。 我是一名探鬼主播缚态,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼堤瘤!你這毒婦竟也來了玫芦?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤宙橱,失蹤者是張志新(化名)和其女友劉穎姨俩,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體师郑,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡环葵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了宝冕。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片张遭。...
    茶點(diǎn)故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖地梨,靈堂內(nèi)的尸體忽然破棺而出菊卷,到底是詐尸還是另有隱情,我是刑警寧澤宝剖,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布洁闰,位于F島的核電站,受9級特大地震影響万细,放射性物質(zhì)發(fā)生泄漏扑眉。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一赖钞、第九天 我趴在偏房一處隱蔽的房頂上張望腰素。 院中可真熱鬧,春花似錦雪营、人聲如沸弓千。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽洋访。三九已至,卻和暖如春谴餐,著一層夾襖步出監(jiān)牢的瞬間姻政,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工总寒, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留扶歪,地道東北人理肺。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓摄闸,卻偏偏與公主長得像善镰,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子年枕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容

  • //我所經(jīng)歷的大數(shù)據(jù)平臺發(fā)展史(二):非互//我所經(jīng)歷的大數(shù)據(jù)平臺發(fā)展史(二):非互聯(lián)網(wǎng)時代 ? 下篇http:/...
    葡萄喃喃囈語閱讀 7,739評論 2 36
  • 大數(shù)據(jù)學(xué)習(xí)交流群:808769635 前段時間有報道稱炫欺,有學(xué)者質(zhì)疑“大數(shù)據(jù)”理論,也有硅谷公司負(fù)責(zé)人質(zhì)疑大數(shù)據(jù)應(yīng)用...
    順治帝閱讀 3,222評論 0 5
  • 數(shù)據(jù)倉庫建模 1熏兄、什么是數(shù)據(jù)模型 數(shù)據(jù)模型是抽象描述現(xiàn)實(shí)世界的一種工具和方法品洛,是通過抽象的實(shí)體及實(shí)體之間聯(lián)系的形式...
    nightwish夜愿閱讀 1,526評論 0 21
  • 持續(xù)分享429天,2018年9月15日摩桶,張紅桥状。 我們學(xué)了很多的教育方法,讓孩子在我們的掌控之中硝清,從而“贏了”孩子辅斟,...
    啊呦a7_94閱讀 294評論 0 1
  • 聽武志紅老師的課,嘗試聽自己身體給自己的聲音~坐在公交車上芦拿,簡單的放松自己士飒,感受身體每個部分的存在狀態(tài),然后放空腦...
    長著狐貍尾巴的羊閱讀 212評論 0 0