數(shù)據(jù)挖掘開發(fā)部署十步法

現(xiàn)階段大數(shù)據(jù)燎悍、人工智能技術(shù)日新月異腰涧,對(duì)于數(shù)據(jù)科學(xué)領(lǐng)域的工作者來說,在學(xué)習(xí)新技術(shù)的同時(shí)更要積極探索適合企業(yè)發(fā)展的應(yīng)用場(chǎng)景葵姥。尤其是在人工智能領(lǐng)域,現(xiàn)階段業(yè)界對(duì)于技術(shù)和數(shù)據(jù)的討論比較多句携,但在傳統(tǒng)行業(yè)中的應(yīng)用場(chǎng)景其實(shí)還差的很多榔幸。

當(dāng)然這不是一蹴而就的,其實(shí)依賴于企業(yè)整體數(shù)據(jù)應(yīng)用水平的提升矮嫉。企業(yè)積極嘗試應(yīng)用新技術(shù)削咆,在大數(shù)據(jù)分析挖掘領(lǐng)域進(jìn)行試點(diǎn),然后伴隨數(shù)據(jù)挖掘從點(diǎn)到面的工程化鋪開蠢笋,人工智能的應(yīng)用場(chǎng)景自然就會(huì)呈現(xiàn)出來拨齐。

圖片發(fā)自簡(jiǎn)書App

通常傳統(tǒng)企業(yè)在大數(shù)據(jù)挖掘領(lǐng)域會(huì)有所嘗試,并在若干點(diǎn)上取得一定的進(jìn)展昨寞,但距離整體鋪開應(yīng)該都還有很大的差距瞻惋。企業(yè)數(shù)字化轉(zhuǎn)型即業(yè)務(wù)從電子化到數(shù)字化的過程,對(duì)應(yīng)著大數(shù)據(jù)應(yīng)用深度和復(fù)雜度的持續(xù)提升援岩,其中數(shù)據(jù)挖掘的工程化水平是一個(gè)重要的衡量標(biāo)準(zhǔn)歼狼。

數(shù)據(jù)挖掘在流程機(jī)制的建立過程中要充分實(shí)現(xiàn)工程化管理,同時(shí)注意加強(qiáng)知識(shí)技能的共享和傳導(dǎo)享怀。模型開發(fā)對(duì)應(yīng)的是實(shí)驗(yàn)室機(jī)制羽峰,數(shù)據(jù)科學(xué)家發(fā)揮應(yīng)有的核心作用。模型部署則是工廠化的概念,需要嚴(yán)格的驗(yàn)證測(cè)試過程梅屉,確保模型在生產(chǎn)環(huán)境穩(wěn)定高效運(yùn)行值纱。模型運(yùn)行結(jié)果在業(yè)務(wù)應(yīng)用中發(fā)揮應(yīng)有的數(shù)據(jù)價(jià)值,同時(shí)業(yè)務(wù)發(fā)展催生新的建模需求坯汤。模型管理在整體上發(fā)揮監(jiān)督指導(dǎo)作用计雌,負(fù)責(zé)數(shù)據(jù)挖掘全生命周期的管理。

數(shù)據(jù)挖掘模型管理包括的內(nèi)容很多玫霎,模型從開發(fā)到部署的過程中需要一套嚴(yán)格的操作辦法凿滤,具體可分為十個(gè)步驟。這些步驟基本覆蓋從模型開發(fā)到模型部署的全過程庶近,同樣適合于數(shù)據(jù)挖掘工作的監(jiān)督管理或第三方評(píng)測(cè)翁脆。

十是一個(gè)有趣且比較完整的數(shù)字,當(dāng)然內(nèi)容可以細(xì)化或合并鼻种,將其增加或減少直至獲得中意的數(shù)字反番。另外,模型都是有生命周期的叉钥,滿足條件之后就要進(jìn)行退役或下線罢缸,這個(gè)過程就不在十個(gè)步驟中體現(xiàn)了。

圖片發(fā)自簡(jiǎn)書App

一投队、原始數(shù)據(jù)采集

檢查原始數(shù)據(jù)提取過程(數(shù)據(jù)倉庫枫疆、數(shù)據(jù)集市、外部數(shù)據(jù)等)敷鸦,注意查看是否按要求進(jìn)行數(shù)據(jù)脫敏息楔,以及是否進(jìn)行數(shù)據(jù)質(zhì)量檢查。

1)? ? 使用提供的數(shù)據(jù)提取方法扒披,重新進(jìn)行數(shù)據(jù)提戎狄馈;

2)? ? 抽樣檢查字段正確性和完整性碟案;

3)? ? 抽樣查看字段中是否有敏感信息愿险;

4)? ? 統(tǒng)計(jì)數(shù)據(jù)總量及缺失量。

二价说、數(shù)據(jù)整合邏輯

檢查數(shù)據(jù)處理及整合的基本思路辆亏,數(shù)據(jù)處理方法和流程(數(shù)據(jù)關(guān)聯(lián)、鏈接)的正確性和完整性及處理結(jié)果的正確性熔任。

1)檢查數(shù)據(jù)預(yù)處理思路和處理方法是否正確;

2)檢查數(shù)據(jù)處理流程(數(shù)據(jù)關(guān)聯(lián)褒链、鏈接)和整合過程是否正確且完整;

3)抽樣檢查數(shù)據(jù)處理結(jié)果疑苔,并與原數(shù)據(jù)進(jìn)行對(duì)比甫匹,或設(shè)置檢查點(diǎn)進(jìn)行中間步驟的檢查;

4)結(jié)合模型訓(xùn)練及預(yù)測(cè)結(jié)果,對(duì)數(shù)據(jù)處理邏輯進(jìn)行完善兵迅。

三抢韭、特征工程處理

檢查數(shù)據(jù)特征加工處理結(jié)果的正確性和穩(wěn)定性。

1)檢查特征提取方法是否正確且可以表達(dá)業(yè)務(wù)含義恍箭;

2)結(jié)合模型訓(xùn)練及測(cè)試結(jié)果刻恭,確認(rèn)特征提取邏輯的完備性和穩(wěn)定性。

四扯夭、算法參數(shù)選擇

根據(jù)業(yè)務(wù)需求分析算法合理性鳍贾,對(duì)比不同參數(shù)下的模型運(yùn)行結(jié)果,確定算法及參數(shù)選擇的合理性交洗。

1)根據(jù)業(yè)務(wù)需求及數(shù)據(jù)特點(diǎn)選擇合適算法骑科,使用多種算法進(jìn)行對(duì)比,得到適合建模場(chǎng)景的算法构拳;

2)參數(shù)選擇同理咆爽,對(duì)比多種參數(shù)選擇結(jié)果,選最佳結(jié)果對(duì)應(yīng)的參數(shù)置森。

五斗埂、數(shù)據(jù)分配策略

檢查采用交叉驗(yàn)證方式建立模型過程中的數(shù)據(jù)集拆分策略及模型結(jié)果,對(duì)比不同分配策略下模型的效果凫海。

1)檢查數(shù)據(jù)集是否滿足生產(chǎn)環(huán)境數(shù)據(jù)應(yīng)用需求(如時(shí)序要求呛凶,數(shù)據(jù)量級(jí)限制等);

2)檢查交叉驗(yàn)證過程中數(shù)據(jù)集訓(xùn)練和測(cè)試分配策略是否合理盐碱,包括拆分比例和方法把兔;

3)對(duì)比多種分配策略,根據(jù)訓(xùn)練和預(yù)測(cè)結(jié)果選擇恰當(dāng)?shù)姆峙浔壤屯纾沟媚P陀辛己玫臏?zhǔn)確性、穩(wěn)定性和泛化性围橡。

六暖混、模型訓(xùn)練效率

檢查模型開發(fā)過程中所使用的工具情況,及模型開發(fā)過程的運(yùn)行耗時(shí)翁授。

1)檢查模型開發(fā)平臺(tái)或工具包在訓(xùn)練過程中的可靠性拣播;

2)檢查模型訓(xùn)練和測(cè)試耗時(shí)是否滿足需求;

3)檢查模型訓(xùn)練和測(cè)試的自動(dòng)化支持能力收擦。

七贮配、模型評(píng)價(jià)方案

檢查模型評(píng)價(jià)方案及評(píng)價(jià)指標(biāo)的合理性。

1)使用多種評(píng)價(jià)指標(biāo)分析模型訓(xùn)練效果塞赂,針對(duì)不同類型模型選擇適當(dāng)評(píng)價(jià)指標(biāo)泪勒;

2)建議分類模型選擇AUC、Precision、Recall和F1-score圆存;回歸模型選擇Rmse叼旋、r2等;聚類模型選擇聚合度等沦辙。

八夫植、模型結(jié)果復(fù)核

檢查模型評(píng)價(jià)結(jié)果的正確性,結(jié)果可再現(xiàn)及穩(wěn)定性油讯;

1)選擇適當(dāng)?shù)脑u(píng)價(jià)指標(biāo)详民,由評(píng)價(jià)指標(biāo)結(jié)果判斷模型結(jié)果優(yōu)劣;

2)多次重復(fù)建模過程陌兑,改變模型開發(fā)輸入數(shù)據(jù)阐斜,檢查結(jié)果可再現(xiàn)性及穩(wěn)定性。

九诀紊、流程化部署

檢查模型部署在生產(chǎn)環(huán)境后模型運(yùn)行過程的流程化能力谒出,以及調(diào)度腳本的正確性和可維護(hù)性。

1)模型部署后邻奠,使用調(diào)度腳本控制數(shù)據(jù)挖掘模型實(shí)現(xiàn)流程化運(yùn)行笤喳;

2)查看調(diào)度腳本的正確性和完整性,以及控制整個(gè)流程調(diào)整變化的能力碌宴。

十杀狡、模型運(yùn)營優(yōu)化

模型在日常運(yùn)行過程中,檢查批處理的輸入數(shù)據(jù)采集贰镣、加工及運(yùn)行過程的處理效率呜象,檢查模型輸出結(jié)果的時(shí)效性和準(zhǔn)確性。

1)確定數(shù)據(jù)處理用到的軟硬件運(yùn)行環(huán)境碑隆,分析其運(yùn)算效率恭陡;

2)進(jìn)行完整的數(shù)據(jù)批處理過程(數(shù)據(jù)采集、加工及預(yù)測(cè))并記錄耗時(shí)上煤,檢查是否有耗時(shí)較長(zhǎng)的步驟休玩,并尋求可改進(jìn)的方法(編碼改進(jìn),軟件選擇劫狠,設(shè)備更改)拴疤;

3)檢查模型運(yùn)行結(jié)果是否滿足前端業(yè)務(wù)應(yīng)用需求,跟蹤模型運(yùn)行情況独泞,定期進(jìn)行模型結(jié)果分析呐矾,并適時(shí)啟動(dòng)模型優(yōu)化更新。


圖片發(fā)自簡(jiǎn)書App
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末懦砂,一起剝皮案震驚了整個(gè)濱河市蜒犯,隨后出現(xiàn)的幾起案子组橄,更是在濱河造成了極大的恐慌,老刑警劉巖愧薛,帶你破解...
    沈念sama閱讀 216,919評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件晨炕,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡毫炉,警方通過查閱死者的電腦和手機(jī)瓮栗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瞄勾,“玉大人费奸,你說我怎么就攤上這事〗福” “怎么了愿阐?”我有些...
    開封第一講書人閱讀 163,316評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)趾疚。 經(jīng)常有香客問我缨历,道長(zhǎng),這世上最難降的妖魔是什么糙麦? 我笑而不...
    開封第一講書人閱讀 58,294評(píng)論 1 292
  • 正文 為了忘掉前任辛孵,我火速辦了婚禮,結(jié)果婚禮上赡磅,老公的妹妹穿的比我還像新娘魄缚。我一直安慰自己,他們只是感情好焚廊,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,318評(píng)論 6 390
  • 文/花漫 我一把揭開白布冶匹。 她就那樣靜靜地躺著,像睡著了一般咆瘟。 火紅的嫁衣襯著肌膚如雪嚼隘。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,245評(píng)論 1 299
  • 那天搞疗,我揣著相機(jī)與錄音嗓蘑,去河邊找鬼。 笑死匿乃,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的豌汇。 我是一名探鬼主播幢炸,決...
    沈念sama閱讀 40,120評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼拒贱!你這毒婦竟也來了宛徊?” 一聲冷哼從身側(cè)響起佛嬉,我...
    開封第一講書人閱讀 38,964評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎闸天,沒想到半個(gè)月后暖呕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,376評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡苞氮,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,592評(píng)論 2 333
  • 正文 我和宋清朗相戀三年湾揽,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片笼吟。...
    茶點(diǎn)故事閱讀 39,764評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡库物,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出贷帮,到底是詐尸還是另有隱情戚揭,我是刑警寧澤,帶...
    沈念sama閱讀 35,460評(píng)論 5 344
  • 正文 年R本政府宣布撵枢,位于F島的核電站民晒,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏锄禽。R本人自食惡果不足惜潜必,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,070評(píng)論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望沟绪。 院中可真熱鬧刮便,春花似錦、人聲如沸绽慈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽坝疼。三九已至搜贤,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間钝凶,已是汗流浹背仪芒。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留耕陷,地道東北人掂名。 一個(gè)月前我還...
    沈念sama閱讀 47,819評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像哟沫,于是被迫代替她去往敵國和親饺蔑。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,665評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容