雖然說方法論在工業(yè)大數(shù)據(jù)的重要性,不及業(yè)務(wù)行業(yè)理解那么重要渐裸,但是對于方法論的理解巫湘,尤其是澄清對于一些細(xì)節(jié)的誤解,對于行業(yè)新人來說昏鹃,也是至關(guān)重要的尚氛。
CRISP-DM,Cross-Industry Standard Process for Data Mining洞渤,是一個SPSS阅嘶,戴姆勒等公司合作制定的一個跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程。
一個在跨行業(yè)(比如制造業(yè))中的數(shù)據(jù)挖掘過程载迄,大概是有六個階段:
業(yè)務(wù)理解
數(shù)據(jù)理解
數(shù)據(jù)準(zhǔn)備
建模
評價
部署
各個階段任務(wù)大概如下:
第一階段業(yè)務(wù)理解:從業(yè)務(wù)的角度理解項(xiàng)目的目標(biāo)和需求讯柔,將業(yè)務(wù)的目的轉(zhuǎn)換為一個數(shù)據(jù)挖掘的問題,制定一個初步的實(shí)現(xiàn)計劃
第二階段數(shù)據(jù)理解:初步收集數(shù)據(jù)护昧,了解魂迄、熟悉數(shù)據(jù)。關(guān)注數(shù)據(jù)質(zhì)量惋耙,進(jìn)行探索性的分析捣炬。
第三階段數(shù)據(jù)準(zhǔn)備:準(zhǔn)備最終輸入到模型中的數(shù)據(jù),數(shù)據(jù)的選擇怠晴,數(shù)據(jù)清晰等
第四階段建模:一般使用多種技術(shù)進(jìn)行建模遥金,將模型調(diào)整到最佳狀態(tài)。
第五階段評估:到這個階段一般已經(jīng)有從數(shù)據(jù)角度來看滿足要求的模型蒜田。重點(diǎn)是評估是否有業(yè)務(wù)問題還沒有考慮到稿械,是否已經(jīng)完全滿足業(yè)務(wù)要求。評估數(shù)據(jù)挖掘結(jié)果的使用可能性冲粤。
第六階段部署:數(shù)據(jù)分析完成了但是還不是最后一步美莫。最后一步的部署可能是生成一個報告,也可能是需要建立一個整個公司層面的新的系統(tǒng)梯捕,這是看業(yè)務(wù)的需求來定厢呵。一般數(shù)據(jù)分析師不會主要來負(fù)責(zé)這一部分工作,但是一定要保證數(shù)據(jù)分析的結(jié)果被正確的使用傀顾。
在一個企業(yè)的數(shù)據(jù)挖掘項(xiàng)目中襟铭,各個階段都有很多需要注意的問題。以下內(nèi)容參考昆侖數(shù)據(jù)。
一寒砖、業(yè)務(wù)理解階段
工業(yè)數(shù)據(jù)分析常常是一個知識嚴(yán)重二分的情形赐劣。數(shù)據(jù)分析師對工業(yè)過程缺乏深入了解,而業(yè)界人員對數(shù)據(jù)分析的了解相對缺乏哩都,溝通成本很高魁兼,造成效率低甚至結(jié)果達(dá)不到預(yù)期。
有幾種方法可以提高這樣的情況下的溝通效率:
系統(tǒng)上下文(System Context)
業(yè)務(wù)方面要給出明確的系統(tǒng)上下文漠嵌,包括業(yè)務(wù)相關(guān)(比如生產(chǎn)制造工程中咐汞,周圍環(huán)境)等的相關(guān)原理、相關(guān)運(yùn)作機(jī)制儒鹿,相關(guān)關(guān)鍵信息化撕,而且在盡量容易理解的同時,保證對于業(yè)務(wù)相關(guān)所有量的一個準(zhǔn)確描述约炎。
系統(tǒng)動力學(xué)模型(System Dynamics)
這個模型的核心侯谁,就是把業(yè)務(wù)相關(guān)的因素的數(shù)據(jù),定義好自變量章钾、因變量以及這些量的狀態(tài),是否可以觀測热芹,是否實(shí)時獲得贱傀,是否可以控制等。
業(yè)務(wù)用例(Use Case)
要把一個工業(yè)大數(shù)據(jù)分析的項(xiàng)目需求描述清楚伊脓,就一定要定義好誰來用府寒,什么時候,在什么情況下报腔,如何使用株搔,期待的結(jié)果是什么。
而且對于業(yè)務(wù)的需求一定要有重點(diǎn)以及突出優(yōu)先級纯蛾,對于期待的結(jié)果一定要有量化的衡量纤房。比如判斷一個機(jī)器狀態(tài)是否正常,想要達(dá)到的程度翻诉,是要壽命預(yù)測炮姨,實(shí)時監(jiān)測、異常通知碰煌,或者需要提前一個時間段預(yù)警舒岸,可能代表的是完全不同的業(yè)務(wù)難度。
比如芦圾,對于風(fēng)機(jī)發(fā)電機(jī)結(jié)冰問題蛾派,結(jié)冰預(yù)測需要小尺度的天氣預(yù)報,若做到風(fēng)機(jī)層面的預(yù)測還需要葉片表面光潔度等信息(否則,解釋不了平原風(fēng)場的3臺相鄰的風(fēng)機(jī)洪乍,只有1臺結(jié)冰眯杏,另外2臺沒有結(jié)冰的現(xiàn)象,這3臺風(fēng)機(jī)同型號同時期建設(shè)典尾,地形和周邊環(huán)境也幾乎一樣)役拴。但做到結(jié)冰檢測基于SCADA風(fēng)機(jī)狀態(tài)數(shù)據(jù)就可以做得比較準(zhǔn)確。從業(yè)務(wù)用例分析來看钾埂,風(fēng)場運(yùn)維需要是:能在風(fēng)機(jī)嚴(yán)重結(jié)冰前采取適當(dāng)措施河闰,避免高載荷下運(yùn)行對風(fēng)機(jī)造成損害。及時的結(jié)冰檢測報警也可以滿足業(yè)務(wù)需求褥紫。(K2Data)
這幾種方式姜性,核心都是減輕知識相互不對等的兩方合作時候,交流的成本髓考。對于一個企業(yè)來說部念,建立一個長期的、漸進(jìn)的培訓(xùn)學(xué)習(xí)機(jī)制氨菇,可以有效的提高這樣的交流效率儡炼。
最后,業(yè)務(wù)方面的需求大概可以分為如下三類:
二查蓉、數(shù)據(jù)理解階段
數(shù)據(jù)理解階段乌询,包括審查現(xiàn)有的數(shù)據(jù),對數(shù)據(jù)進(jìn)行第一階段的初步洞察豌研。最終回答的核心是這樣的一個問題:
數(shù)據(jù)挖掘大概可以看成這樣的一個情況妹田。
我們現(xiàn)在有很多數(shù)據(jù)x,以及因變量Y鹃共,想要找到一個f鬼佣,在可以接受的錯誤e的情況下,滿足這個關(guān)系霜浴。
實(shí)際關(guān)系是有很多的X晶衷,也有很多的Y,關(guān)系復(fù)雜阴孟。但是我們可以考慮到的房铭、測量的、可以收集的總是比實(shí)際少的温眉,大概是這樣的關(guān)系缸匪。
這時候就要看一個問題,經(jīng)常是這樣的:
實(shí)際中會有很多的量类溢,但是我們可以獲取的凌蔬,只有一部分露懒。核心的問題就是:這樣的數(shù)據(jù),有沒有能力可以實(shí)現(xiàn)我們的目標(biāo)砂心。
還有就是數(shù)據(jù)分析的根基:數(shù)據(jù)質(zhì)量
這個數(shù)據(jù)質(zhì)量懈词,在本身的以數(shù)據(jù)的方法判斷之外(比如缺失值,明顯的離群值等等)辩诞,還有一些在工業(yè)領(lǐng)域一定要注意的事情坎弯。
有些工業(yè)領(lǐng)域的數(shù)據(jù),如果不是直接采集译暂,而是人工收集的抠忘,可能需要更多的時間去判斷是否合理,需要結(jié)合情境外永,比如為了滿足KPI而人為修改的效率數(shù)據(jù)崎脉。就算是機(jī)器直接收集的,也要考慮比如在某天產(chǎn)量極低的情況下伯顶,反而故障很高囚灼,是否是工廠在調(diào)試維修狀態(tài)。比如機(jī)器狀態(tài)在正常的情況下祭衩,用電量反而極低灶体,是否是機(jī)器核心功能已經(jīng)停止但是并沒有及時報錯等等。
這個階段掐暮,就像大樓的地基一樣赃春,如果在項(xiàng)目的靠后階段才發(fā)現(xiàn)問題,將會浪費(fèi)大量的時間劫乱。所以對于關(guān)鍵性的數(shù)據(jù),一定要結(jié)合多方面的知識來審核锥涕。
數(shù)據(jù)成本:數(shù)據(jù)分析師的進(jìn)退兩難
在傳統(tǒng)的制造企業(yè)衷戈,數(shù)據(jù)分析師往往是一個比較新的部門或崗位,雖然級別低层坠,但是經(jīng)常要調(diào)動非常多的資源殖妇。這就帶來了一個困境,經(jīng)常會有數(shù)據(jù)較難獲取的情況破花。
而且在很初期的階段谦趣,數(shù)據(jù)分析師也很難在進(jìn)行初步分析之前,就預(yù)測項(xiàng)目的成果座每。對于一些數(shù)據(jù)分析貫徹不夠堅(jiān)決的地方前鹅,數(shù)據(jù)分析師往往是巧婦難為無米之炊。
但是很多時候也會有另外一個極端峭梳,分析師戰(zhàn)略地位足夠高舰绘,業(yè)務(wù)部門足夠配合蹂喻,這時候分析師對于數(shù)據(jù)的需求,直接決定了這個階段的工作量捂寿。如果一味的追求高質(zhì)量口四、大量的數(shù)據(jù),可能對業(yè)務(wù)造成極大的負(fù)擔(dān)秦陋。
三蔓彩、數(shù)據(jù)準(zhǔn)備階段
前邊提到的數(shù)據(jù)獲取等,也可以歸納到這個階段驳概。
個人更偏向于這個階段開始已經(jīng)是分析師的工作量大于業(yè)務(wù)方面赤嚼。
這個階段主要任務(wù):
原始數(shù)據(jù)抽取,轉(zhuǎn)換等純數(shù)據(jù)的加工
結(jié)合前期對數(shù)據(jù)的理解抡句,最終完成數(shù)據(jù)清洗
特征提取
這是這個階段最重要的事情探膊,到了項(xiàng)目的后期也經(jīng)常會再回到這個點(diǎn)進(jìn)行進(jìn)一步的工作。
還是一樣待榔,在工業(yè)領(lǐng)域逞壁,一定要一定要一定要利用現(xiàn)有的知識,首先充分利用現(xiàn)有的知識進(jìn)行特征提取锐锣。在相對成熟的領(lǐng)域一般都已經(jīng)有現(xiàn)成的解決方案腌闯、論文等可以參考。
可以說這個階段雕憔,直接決定了項(xiàng)目是不是可以成功姿骏。
第三階段的工作往往要占到整個工作時間的40%以上。
第四階段斤彼、建模
機(jī)器學(xué)習(xí)建模的過程分瘦。機(jī)器學(xué)習(xí)建模的方法目前已經(jīng)很成熟穩(wěn)定,在工業(yè)界使用的一般也是相對簡單琉苇、穩(wěn)定嘲玫,研究了很多年的模型。這些模型已經(jīng)足夠優(yōu)秀來解決工業(yè)界的問題并扇。
這部分工作對于機(jī)器學(xué)習(xí)研究者去团、互聯(lián)網(wǎng)從業(yè)者來說往往會顯得很低級和無聊,工作占整個項(xiàng)目的工作量穷蛹,在一個普通的項(xiàng)目里大概5%不到土陪。
有足夠質(zhì)量的數(shù)據(jù)、優(yōu)秀的特征以后肴熏,現(xiàn)在的建模也不需要你寫代碼了鬼雀,大量的分析工具都可以很簡單快速的完成常用模型。剩下還有非常大量的時間用來解釋結(jié)果蛙吏、匯報取刃、不熟等等蹋肮。
結(jié)合前邊表格中的工作重點(diǎn),這部分需要注意的問題主要還是兩個:
充分利用現(xiàn)有的知識
模型簡單璧疗、可靠坯辩,可解釋性高
第五階段、評價
在有一個從數(shù)據(jù)角度來說可用的模型以后崩侠,這個階段再回到業(yè)務(wù)的角度來審核模型漆魔。畢竟制造業(yè)還是以人的決策為主。
這個階段尤為重要的是審核模型應(yīng)用的風(fēng)險却音,比如是否有模型不可用的例外情況改抡,模型應(yīng)用的邊界是什么樣的。這個階段的結(jié)果直接決定了數(shù)據(jù)分析是否能落地系瓢,往往很多數(shù)據(jù)分析的項(xiàng)目阿纤,在這一階段不能說服業(yè)務(wù)方和管理者,也就不能實(shí)現(xiàn)價值夷陋。
這個階段還有一個重要的評價是部署的方案欠拾。方案的成本、最終的收益骗绕、可擴(kuò)展性藐窄、帶來的風(fēng)險等等,經(jīng)過這些綜合的考慮如果方案可以帶來的直接酬土、間接的經(jīng)濟(jì)收益大于支出和風(fēng)險荆忍,那么就可以看做項(xiàng)目已經(jīng)成功,就只待最后部署撤缴。
第六階段刹枉、部署
對于上一個階段部的策略進(jìn)行實(shí)施。并不是一定要上一套新的大數(shù)據(jù)平臺才算作是成功的部署屈呕。一個業(yè)務(wù)流程的改進(jìn)微宝,可能是通過人工的數(shù)據(jù)收集、通過相對簡陋的分析系統(tǒng)手動分析凉袱、反饋結(jié)果給業(yè)務(wù)部門使用,這有時候可能也是一個非常好的結(jié)果侦铜。
這個階段要注意的是對于全流程的清晰定義以及維護(hù)专甩,進(jìn)一步積累知識。
結(jié)束
在整個CRISP-DM的過程當(dāng)中钉稍,圍繞數(shù)據(jù)為核心涤躲,項(xiàng)目可能會在各個階段之間跳躍,因?yàn)閿?shù)據(jù)分析一定是一個不斷迭代的過程贡未。
CRISP-DM中定義了各個階段要做的工作以及典型的交付物种樱,非常值得學(xué)習(xí)一下蒙袍。
————————————————
關(guān)注這里,回復(fù)“4” 送你一大波 工業(yè)4.0嫩挤,工業(yè)大數(shù)據(jù)參考資料