大數(shù)據(jù)潜慎,從小筆記開始
數(shù)據(jù)清理是很有必要的捡多,特別是大數(shù)據(jù)年代。目前我們僅有5%的數(shù)據(jù)經(jīng)過分析铐炫,而且隨著數(shù)據(jù)總量越來(lái)越大垒手,越來(lái)越多的數(shù)據(jù)需要我們?nèi)ズY選、甄別和處理倒信。
數(shù)據(jù)清理有三大點(diǎn)科贬,
第一點(diǎn),就是加強(qiáng)數(shù)據(jù)的可信度鳖悠。
* 數(shù)據(jù)對(duì)我們處理的問題要有較高關(guān)聯(lián)度
* 該數(shù)據(jù)要新鮮榜掌,過期的數(shù)據(jù)使用要慎重
* 要考慮技術(shù)和社會(huì)的改變與發(fā)展
第二點(diǎn),簡(jiǎn)化流程竞穷,提供可處理的數(shù)據(jù)
* 識(shí)別數(shù)據(jù)
* 數(shù)據(jù)結(jié)構(gòu)化
* 清理無(wú)關(guān)數(shù)據(jù)
* 增加需要的變量
* 檢驗(yàn)統(tǒng)一性
* 發(fā)布數(shù)據(jù)
第三點(diǎn)唐责,使之能簡(jiǎn)單地向雇員和利益相關(guān)者展示
* 混合使用數(shù)據(jù)視覺化和機(jī)器學(xué)習(xí)來(lái)簡(jiǎn)化數(shù)據(jù)
* 用你員工熟悉的工具
* 加強(qiáng)新技術(shù)和新工具的培訓(xùn)