現(xiàn)階段大數(shù)據(jù)燎悍、人工智能技術(shù)日新月異腰涧,對(duì)于數(shù)據(jù)科學(xué)領(lǐng)域的工作者來說,在學(xué)習(xí)新技術(shù)的同時(shí)更要積極探索適合企業(yè)發(fā)展的應(yīng)用場(chǎng)景葵姥。尤其是在人工智能領(lǐng)域,現(xiàn)階段業(yè)界對(duì)于技術(shù)和數(shù)據(jù)的討論比較多句携,但在傳統(tǒng)行業(yè)中的應(yīng)用場(chǎng)景其實(shí)還差的很多榔幸。
當(dāng)然這不是一蹴而就的,其實(shí)依賴于企業(yè)整體數(shù)據(jù)應(yīng)用水平的提升矮嫉。企業(yè)積極嘗試應(yīng)用新技術(shù)削咆,在大數(shù)據(jù)分析挖掘領(lǐng)域進(jìn)行試點(diǎn),然后伴隨數(shù)據(jù)挖掘從點(diǎn)到面的工程化鋪開蠢笋,人工智能的應(yīng)用場(chǎng)景自然就會(huì)呈現(xiàn)出來拨齐。
通常傳統(tǒng)企業(yè)在大數(shù)據(jù)挖掘領(lǐng)域會(huì)有所嘗試,并在若干點(diǎn)上取得一定的進(jìn)展昨寞,但距離整體鋪開應(yīng)該都還有很大的差距瞻惋。企業(yè)數(shù)字化轉(zhuǎn)型即業(yè)務(wù)從電子化到數(shù)字化的過程,對(duì)應(yīng)著大數(shù)據(jù)應(yīng)用深度和復(fù)雜度的持續(xù)提升援岩,其中數(shù)據(jù)挖掘的工程化水平是一個(gè)重要的衡量標(biāo)準(zhǔn)歼狼。
數(shù)據(jù)挖掘在流程機(jī)制的建立過程中要充分實(shí)現(xiàn)工程化管理,同時(shí)注意加強(qiáng)知識(shí)技能的共享和傳導(dǎo)享怀。模型開發(fā)對(duì)應(yīng)的是實(shí)驗(yàn)室機(jī)制羽峰,數(shù)據(jù)科學(xué)家發(fā)揮應(yīng)有的核心作用。模型部署則是工廠化的概念,需要嚴(yán)格的驗(yàn)證測(cè)試過程梅屉,確保模型在生產(chǎn)環(huán)境穩(wěn)定高效運(yùn)行值纱。模型運(yùn)行結(jié)果在業(yè)務(wù)應(yīng)用中發(fā)揮應(yīng)有的數(shù)據(jù)價(jià)值,同時(shí)業(yè)務(wù)發(fā)展催生新的建模需求坯汤。模型管理在整體上發(fā)揮監(jiān)督指導(dǎo)作用计雌,負(fù)責(zé)數(shù)據(jù)挖掘全生命周期的管理。
數(shù)據(jù)挖掘模型管理包括的內(nèi)容很多玫霎,模型從開發(fā)到部署的過程中需要一套嚴(yán)格的操作辦法凿滤,具體可分為十個(gè)步驟。這些步驟基本覆蓋從模型開發(fā)到模型部署的全過程庶近,同樣適合于數(shù)據(jù)挖掘工作的監(jiān)督管理或第三方評(píng)測(cè)翁脆。
十是一個(gè)有趣且比較完整的數(shù)字,當(dāng)然內(nèi)容可以細(xì)化或合并鼻种,將其增加或減少直至獲得中意的數(shù)字反番。另外,模型都是有生命周期的叉钥,滿足條件之后就要進(jìn)行退役或下線罢缸,這個(gè)過程就不在十個(gè)步驟中體現(xiàn)了。
一投队、原始數(shù)據(jù)采集
檢查原始數(shù)據(jù)提取過程(數(shù)據(jù)倉庫枫疆、數(shù)據(jù)集市、外部數(shù)據(jù)等)敷鸦,注意查看是否按要求進(jìn)行數(shù)據(jù)脫敏息楔,以及是否進(jìn)行數(shù)據(jù)質(zhì)量檢查。
1)? ? 使用提供的數(shù)據(jù)提取方法扒披,重新進(jìn)行數(shù)據(jù)提戎狄馈;
2)? ? 抽樣檢查字段正確性和完整性碟案;
3)? ? 抽樣查看字段中是否有敏感信息愿险;
4)? ? 統(tǒng)計(jì)數(shù)據(jù)總量及缺失量。
二价说、數(shù)據(jù)整合邏輯
檢查數(shù)據(jù)處理及整合的基本思路辆亏,數(shù)據(jù)處理方法和流程(數(shù)據(jù)關(guān)聯(lián)、鏈接)的正確性和完整性及處理結(jié)果的正確性熔任。
1)檢查數(shù)據(jù)預(yù)處理思路和處理方法是否正確;
2)檢查數(shù)據(jù)處理流程(數(shù)據(jù)關(guān)聯(lián)褒链、鏈接)和整合過程是否正確且完整;
3)抽樣檢查數(shù)據(jù)處理結(jié)果疑苔,并與原數(shù)據(jù)進(jìn)行對(duì)比甫匹,或設(shè)置檢查點(diǎn)進(jìn)行中間步驟的檢查;
4)結(jié)合模型訓(xùn)練及預(yù)測(cè)結(jié)果,對(duì)數(shù)據(jù)處理邏輯進(jìn)行完善兵迅。
三抢韭、特征工程處理
檢查數(shù)據(jù)特征加工處理結(jié)果的正確性和穩(wěn)定性。
1)檢查特征提取方法是否正確且可以表達(dá)業(yè)務(wù)含義恍箭;
2)結(jié)合模型訓(xùn)練及測(cè)試結(jié)果刻恭,確認(rèn)特征提取邏輯的完備性和穩(wěn)定性。
四扯夭、算法參數(shù)選擇
根據(jù)業(yè)務(wù)需求分析算法合理性鳍贾,對(duì)比不同參數(shù)下的模型運(yùn)行結(jié)果,確定算法及參數(shù)選擇的合理性交洗。
1)根據(jù)業(yè)務(wù)需求及數(shù)據(jù)特點(diǎn)選擇合適算法骑科,使用多種算法進(jìn)行對(duì)比,得到適合建模場(chǎng)景的算法构拳;
2)參數(shù)選擇同理咆爽,對(duì)比多種參數(shù)選擇結(jié)果,選最佳結(jié)果對(duì)應(yīng)的參數(shù)置森。
五斗埂、數(shù)據(jù)分配策略
檢查采用交叉驗(yàn)證方式建立模型過程中的數(shù)據(jù)集拆分策略及模型結(jié)果,對(duì)比不同分配策略下模型的效果凫海。
1)檢查數(shù)據(jù)集是否滿足生產(chǎn)環(huán)境數(shù)據(jù)應(yīng)用需求(如時(shí)序要求呛凶,數(shù)據(jù)量級(jí)限制等);
2)檢查交叉驗(yàn)證過程中數(shù)據(jù)集訓(xùn)練和測(cè)試分配策略是否合理盐碱,包括拆分比例和方法把兔;
3)對(duì)比多種分配策略,根據(jù)訓(xùn)練和預(yù)測(cè)結(jié)果選擇恰當(dāng)?shù)姆峙浔壤屯纾沟媚P陀辛己玫臏?zhǔn)確性、穩(wěn)定性和泛化性围橡。
六暖混、模型訓(xùn)練效率
檢查模型開發(fā)過程中所使用的工具情況,及模型開發(fā)過程的運(yùn)行耗時(shí)翁授。
1)檢查模型開發(fā)平臺(tái)或工具包在訓(xùn)練過程中的可靠性拣播;
2)檢查模型訓(xùn)練和測(cè)試耗時(shí)是否滿足需求;
3)檢查模型訓(xùn)練和測(cè)試的自動(dòng)化支持能力收擦。
七贮配、模型評(píng)價(jià)方案
檢查模型評(píng)價(jià)方案及評(píng)價(jià)指標(biāo)的合理性。
1)使用多種評(píng)價(jià)指標(biāo)分析模型訓(xùn)練效果塞赂,針對(duì)不同類型模型選擇適當(dāng)評(píng)價(jià)指標(biāo)泪勒;
2)建議分類模型選擇AUC、Precision、Recall和F1-score圆存;回歸模型選擇Rmse叼旋、r2等;聚類模型選擇聚合度等沦辙。
八夫植、模型結(jié)果復(fù)核
檢查模型評(píng)價(jià)結(jié)果的正確性,結(jié)果可再現(xiàn)及穩(wěn)定性油讯;
1)選擇適當(dāng)?shù)脑u(píng)價(jià)指標(biāo)详民,由評(píng)價(jià)指標(biāo)結(jié)果判斷模型結(jié)果優(yōu)劣;
2)多次重復(fù)建模過程陌兑,改變模型開發(fā)輸入數(shù)據(jù)阐斜,檢查結(jié)果可再現(xiàn)性及穩(wěn)定性。
九诀紊、流程化部署
檢查模型部署在生產(chǎn)環(huán)境后模型運(yùn)行過程的流程化能力谒出,以及調(diào)度腳本的正確性和可維護(hù)性。
1)模型部署后邻奠,使用調(diào)度腳本控制數(shù)據(jù)挖掘模型實(shí)現(xiàn)流程化運(yùn)行笤喳;
2)查看調(diào)度腳本的正確性和完整性,以及控制整個(gè)流程調(diào)整變化的能力碌宴。
十杀狡、模型運(yùn)營優(yōu)化
模型在日常運(yùn)行過程中,檢查批處理的輸入數(shù)據(jù)采集贰镣、加工及運(yùn)行過程的處理效率呜象,檢查模型輸出結(jié)果的時(shí)效性和準(zhǔn)確性。
1)確定數(shù)據(jù)處理用到的軟硬件運(yùn)行環(huán)境碑隆,分析其運(yùn)算效率恭陡;
2)進(jìn)行完整的數(shù)據(jù)批處理過程(數(shù)據(jù)采集、加工及預(yù)測(cè))并記錄耗時(shí)上煤,檢查是否有耗時(shí)較長(zhǎng)的步驟休玩,并尋求可改進(jìn)的方法(編碼改進(jìn),軟件選擇劫狠,設(shè)備更改)拴疤;
3)檢查模型運(yùn)行結(jié)果是否滿足前端業(yè)務(wù)應(yīng)用需求,跟蹤模型運(yùn)行情況独泞,定期進(jìn)行模型結(jié)果分析呐矾,并適時(shí)啟動(dòng)模型優(yōu)化更新。