Python數(shù)據(jù)預(yù)處理

? ? ? ? 數(shù)據(jù)預(yù)處理是指在對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘之前西篓,先對(duì)原始數(shù)據(jù)進(jìn)行必要的清洗、集成憋活、轉(zhuǎn)換岂津、離散和規(guī)約等一系列的處理工作,已達(dá)到挖掘算法進(jìn)行知識(shí)獲取研究所要求的最低規(guī)范和標(biāo)準(zhǔn)悦即。通常數(shù)據(jù)預(yù)處理包括:數(shù)據(jù)清洗吮成、數(shù)據(jù)集成、數(shù)據(jù)變換辜梳、數(shù)據(jù)規(guī)約粱甫。

一:數(shù)據(jù)清洗

數(shù)據(jù)清洗是填充缺失數(shù)據(jù)、消除噪聲數(shù)據(jù)等操作作瞄,主要通過(guò)分析“臟數(shù)據(jù)”的產(chǎn)生原因和存在形式茶宵,利用現(xiàn)有的數(shù)據(jù)挖掘手段和方法去清洗“臟數(shù)據(jù)”,將“臟數(shù)據(jù)”轉(zhuǎn)化為滿(mǎn)足數(shù)據(jù)質(zhì)量要求和應(yīng)用要求的數(shù)據(jù)宗挥,從而提高數(shù)據(jù)集的質(zhì)量乌庶,滿(mǎn)足現(xiàn)階段數(shù)據(jù)分析的需求。

1.數(shù)據(jù)質(zhì)量

數(shù)據(jù)質(zhì)量主要有10個(gè)維度:

數(shù)據(jù)規(guī)范:對(duì)數(shù)據(jù)標(biāo)準(zhǔn)属韧、數(shù)據(jù)模型安拟、業(yè)務(wù)規(guī)則、元數(shù)據(jù)和參考數(shù)據(jù)進(jìn)行有關(guān)存在性宵喂、完整性糠赦、質(zhì)量和歸檔的測(cè)量標(biāo)準(zhǔn);

數(shù)據(jù)完整性準(zhǔn)則:對(duì)數(shù)據(jù)進(jìn)行有關(guān)存在性、有效性拙泽、結(jié)構(gòu)淌山、內(nèi)容和其他基本數(shù)據(jù)特征的測(cè)量標(biāo)準(zhǔn);

重復(fù):對(duì)存在于系統(tǒng)內(nèi)或系統(tǒng)間的特定字段顾瞻、記錄或數(shù)據(jù)集意外重復(fù)的測(cè)量標(biāo)準(zhǔn)泼疑;

準(zhǔn)確性:對(duì)數(shù)據(jù)內(nèi)容正確性進(jìn)行測(cè)量的標(biāo)準(zhǔn);

一致性和同步:對(duì)各種不同的數(shù)據(jù)倉(cāng)庫(kù)荷荤、應(yīng)用和系統(tǒng)中存儲(chǔ)或使用的信息等價(jià)程度的測(cè)量退渗,以及使數(shù)據(jù)等價(jià)處理流程的測(cè)量標(biāo)準(zhǔn);

及時(shí)性和可用性:在預(yù)期時(shí)段內(nèi)對(duì)特定應(yīng)用的及時(shí)程度和可用程度的測(cè)量標(biāo)準(zhǔn)蕴纳;

易用性和可維護(hù)性:對(duì)數(shù)據(jù)可被訪問(wèn)和使用的程度会油,以及數(shù)據(jù)能被更新、維護(hù)和管理程度的測(cè)量標(biāo)準(zhǔn)古毛;

數(shù)據(jù)覆蓋:相對(duì)于數(shù)據(jù)總體和全體相關(guān)的對(duì)象數(shù)據(jù)的可用性和全面性的測(cè)量標(biāo)準(zhǔn)翻翩;

表達(dá)質(zhì)量:如何進(jìn)行有效信息表達(dá)以及如何從用戶(hù)中收集信息的測(cè)量標(biāo)準(zhǔn);

可理解性稻薇、相關(guān)性和可信度:數(shù)據(jù)質(zhì)量中可理解性和數(shù)據(jù)質(zhì)量中執(zhí)行度的測(cè)量標(biāo)準(zhǔn)嫂冻,以及對(duì)業(yè)務(wù)所需數(shù)據(jù)的重要性、實(shí)用性及相關(guān)性的測(cè)量標(biāo)準(zhǔn)塞椎。

數(shù)據(jù)值質(zhì)量問(wèn)題的分類(lèi):

數(shù)據(jù)錄入/更新

測(cè)量

簡(jiǎn)化

數(shù)據(jù)集成


2.數(shù)據(jù)清洗的定義

數(shù)據(jù)清洗又叫數(shù)據(jù)清理或數(shù)據(jù)凈化桨仿,主要用于數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和全面數(shù)據(jù)質(zhì)量管理三個(gè)方面忱屑。

現(xiàn)今數(shù)據(jù)清晰研究主要涉及以下幾方面:

Web領(lǐng)域的數(shù)據(jù)清洗研究:搜索引擎

特殊領(lǐng)域的數(shù)據(jù)清洗研究:金融蹬敲、保險(xiǎn)中的臟數(shù)據(jù)(錯(cuò)誤數(shù)據(jù)、不一致數(shù)據(jù)莺戒、重復(fù)數(shù)據(jù)以及業(yè)務(wù)邏輯錯(cuò)誤的數(shù)據(jù))

數(shù)字化文獻(xiàn)服務(wù)領(lǐng)域的數(shù)據(jù)清洗研究

射頻識(shí)別領(lǐng)域的數(shù)據(jù)清洗研究

3.數(shù)據(jù)清洗的原理

通過(guò)分析臟數(shù)據(jù)的產(chǎn)生原因及存在形式伴嗡,對(duì)數(shù)據(jù)的過(guò)程進(jìn)行考察、分析从铲,并總結(jié)出一些方法(數(shù)理統(tǒng)計(jì)瘪校、數(shù)據(jù)挖掘或預(yù)定義規(guī)則),將臟數(shù)據(jù)轉(zhuǎn)化為滿(mǎn)足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)名段。

4.數(shù)據(jù)清洗的基本方法

缺失數(shù)據(jù)處理:平均值阱扬、中間值、最大值伸辟、最小值或更為復(fù)雜的概率統(tǒng)計(jì)函數(shù)值填充空缺法麻惶。

相似重復(fù)數(shù)據(jù)檢測(cè):基于字段(編輯距離算法、樹(shù)編輯距離算法信夫、TI Similarity相似匹配算法窃蹋、Cosine相似度函數(shù)算法)與基于記錄(排序鄰居算法卡啰、優(yōu)先隊(duì)列算法、Canopy聚類(lèi)算法)的重復(fù)檢測(cè)警没。

異常數(shù)據(jù)處理:異常數(shù)據(jù)的探測(cè)主要有基于統(tǒng)計(jì)學(xué)匈辱、基于距離和基于偏離3類(lèi)方法。

邏輯錯(cuò)誤檢測(cè):主要有統(tǒng)計(jì)法杀迹、聚類(lèi)方法和關(guān)聯(lián)規(guī)則方法亡脸。

不一致數(shù)據(jù):常用的消除數(shù)據(jù)不一致的方法有排序、融合和基于規(guī)則三種方法树酪。

5.數(shù)據(jù)清洗模型簡(jiǎn)介

Trillium的過(guò)程模型:用于專(zhuān)業(yè)的金融浅碾、保險(xiǎn)等行業(yè)。

AJAX的過(guò)程模型:主要用于數(shù)據(jù)挖掘方面嗅回。

Kimball的過(guò)程模型及穗。

二:數(shù)據(jù)集成

數(shù)據(jù)集成是指將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)合并并存放到一個(gè)一直的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù))中,這些數(shù)據(jù)源可能包括多個(gè)數(shù)據(jù)庫(kù)绵载、數(shù)據(jù)立方體和一般文件。

三:數(shù)據(jù)變換

數(shù)據(jù)變換是指不同來(lái)源所得到的數(shù)據(jù)可能導(dǎo)致不一致苛白,所以需要及你選哪個(gè)數(shù)據(jù)變換娃豹,構(gòu)成一個(gè)適合數(shù)據(jù)挖掘的描述形式。

數(shù)據(jù)轉(zhuǎn)換包含的內(nèi)容:

屬性的數(shù)據(jù)類(lèi)型轉(zhuǎn)化

屬性構(gòu)造

數(shù)據(jù)離散化

數(shù)據(jù)標(biāo)準(zhǔn)化

四:數(shù)據(jù)規(guī)約

對(duì)海量數(shù)據(jù)進(jìn)行復(fù)雜的數(shù)據(jù)分析和挖掘?qū)⑿枰荛L(zhǎng)的時(shí)間购裙,使得這種分析不具有可操作性懂版。海量數(shù)據(jù)規(guī)約技術(shù)可以減少數(shù)據(jù)集容量,但仍接近保持原數(shù)據(jù)的完整性躏率。

數(shù)據(jù)立方體存儲(chǔ)多維聚集信息

屬性子集選擇:逐步向前選擇躯畴、逐步向后刪除、決策樹(shù)歸納

維度規(guī)約:小波變換薇芝、主成分分析

數(shù)值規(guī)約

離散化和概念分層產(chǎn)生:是數(shù)據(jù)挖掘強(qiáng)有力的工具蓬抄,允許挖掘多個(gè)抽象層的數(shù)據(jù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末夯到,一起剝皮案震驚了整個(gè)濱河市嚷缭,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌耍贾,老刑警劉巖阅爽,帶你破解...
    沈念sama閱讀 219,490評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異荐开,居然都是意外死亡付翁,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)晃听,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)百侧,“玉大人着帽,你說(shuō)我怎么就攤上這事∫撇悖” “怎么了仍翰?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,830評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)观话。 經(jīng)常有香客問(wèn)我予借,道長(zhǎng),這世上最難降的妖魔是什么频蛔? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,957評(píng)論 1 295
  • 正文 為了忘掉前任灵迫,我火速辦了婚禮,結(jié)果婚禮上晦溪,老公的妹妹穿的比我還像新娘瀑粥。我一直安慰自己,他們只是感情好三圆,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評(píng)論 6 393
  • 文/花漫 我一把揭開(kāi)白布狞换。 她就那樣靜靜地躺著,像睡著了一般舟肉。 火紅的嫁衣襯著肌膚如雪修噪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,754評(píng)論 1 307
  • 那天路媚,我揣著相機(jī)與錄音黄琼,去河邊找鬼。 笑死整慎,一個(gè)胖子當(dāng)著我的面吹牛脏款,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播裤园,決...
    沈念sama閱讀 40,464評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼撤师,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了比然?” 一聲冷哼從身側(cè)響起丈氓,我...
    開(kāi)封第一講書(shū)人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎强法,沒(méi)想到半個(gè)月后万俗,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,847評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡饮怯,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評(píng)論 3 338
  • 正文 我和宋清朗相戀三年闰歪,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蓖墅。...
    茶點(diǎn)故事閱讀 40,137評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡库倘,死狀恐怖临扮,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情教翩,我是刑警寧澤杆勇,帶...
    沈念sama閱讀 35,819評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站饱亿,受9級(jí)特大地震影響蚜退,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜彪笼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評(píng)論 3 331
  • 文/蒙蒙 一钻注、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧配猫,春花似錦幅恋、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,023評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至凡伊,卻和暖如春零渐,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背系忙。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,149評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留惠豺,地道東北人银还。 一個(gè)月前我還...
    沈念sama閱讀 48,409評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像洁墙,于是被迫代替她去往敵國(guó)和親蛹疯。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容