數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的一般過程

數(shù)據(jù)質(zhì)量

數(shù)據(jù)挖掘所使用的數(shù)據(jù)常常是為其他用途收集的,或者在收集時(shí)未明確其目的。因此,數(shù)據(jù)挖掘常常不能在數(shù)據(jù)源頭控制質(zhì)量约计,一般而言,原始數(shù)據(jù)都會(huì)存在以下幾個(gè)問題:測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤迁筛;噪聲和偽像病蛉;離群點(diǎn);遺漏值瑰煎;不一致的值铺然;重復(fù)的數(shù)據(jù)。

數(shù)據(jù)清洗

原始數(shù)據(jù)中出現(xiàn)的問題會(huì)對(duì)下一階段的分析過程產(chǎn)生重大的影響酒甸,因此魄健,在數(shù)據(jù)清洗階段需要針對(duì)不同的問題,進(jìn)行針對(duì)性的處理插勤。

1. 測(cè)量誤差和數(shù)據(jù)收集誤差

其中沽瘦,測(cè)量誤差是指測(cè)量過程中導(dǎo)致的問題,數(shù)據(jù)收集錯(cuò)誤是指諸如遺漏數(shù)據(jù)對(duì)象或?qū)傩灾蹬┘猓虿划?dāng)?shù)匕似渌麛?shù)據(jù)對(duì)象等錯(cuò)誤析恋。如果我們只考慮一般的錯(cuò)誤類型,例如人工輸入數(shù)據(jù)時(shí)鍵盤錄入錯(cuò)誤十分常見盛卡,因此可以開發(fā)許多數(shù)據(jù)輸入程序進(jìn)行檢測(cè)助隧,并且通過人工干預(yù)糾正這類錯(cuò)誤。

2. 噪聲和偽像

噪聲是測(cè)量誤差的隨機(jī)部分滑沧,這可能使得值被扭曲或加入了謬誤對(duì)象并村。噪聲通常包含時(shí)間或空間分量的數(shù)據(jù)巍实,在這些情況下,常沉梗可以使用信號(hào)或圖像處理技術(shù)降低噪聲棚潦,從而幫助發(fā)現(xiàn)可能“淹沒在噪聲中”的模式或信號(hào)。盡管如此膝昆,完全消除噪聲通常是十分困難的丸边,而許多數(shù)據(jù)挖掘工作都關(guān)注設(shè)計(jì)魯棒性很強(qiáng)的算法,即便在噪聲干擾下也能產(chǎn)生可以接受的結(jié)果荚孵。

3. 離群點(diǎn)

離群點(diǎn)是在某種意義上具有不同于數(shù)據(jù)集中其他大部分?jǐn)?shù)據(jù)對(duì)象的特征的數(shù)據(jù)對(duì)象妹窖,或是相對(duì)于該屬性的典型值來說不尋常的屬性值。對(duì)于離群點(diǎn)处窥,可以使用異常檢測(cè)算法進(jìn)行有效的檢測(cè)嘱吗。

4. 遺漏值

對(duì)象遺漏一個(gè)或多個(gè)屬性值的情況屢見不鮮玄组,例如有的人拒絕透露年齡和體重滔驾,這時(shí)信息收集不全的現(xiàn)象變得十分常見。對(duì)于遺漏值俄讹,有許多應(yīng)對(duì)的策略哆致,包括刪除數(shù)據(jù)對(duì)象或?qū)傩浴⒐烙?jì)遺漏值患膛、在分析時(shí)忽略遺漏值摊阀、使用默認(rèn)值、使用屬性平均值踪蹬、使用同類樣本平均值胞此、預(yù)測(cè)最可能的值等。

5. 不一致的值

數(shù)據(jù)可能包含不一致的值跃捣,比如地址字段列出了郵政編碼和城市名漱牵,但是有的郵政編碼區(qū)域并不包含在對(duì)應(yīng)的城市中,至于不一致的原因無從考究疚漆,重要的是能夠被檢測(cè)出來酣胀。對(duì)于容易檢測(cè)的值,有時(shí)可能需要查閱外部信息源娶聘,這樣在檢測(cè)到不一致后鹅经,即可進(jìn)行更正丙号。

6. 重復(fù)數(shù)據(jù)

數(shù)據(jù)集可能包含重復(fù)的數(shù)據(jù)對(duì)象。許多人都收到過重復(fù)的郵件,因?yàn)樗麄円陨晕⒉幌嗤拿侄啻纬霈F(xiàn)在數(shù)據(jù)庫(kù)中舱沧。為了檢測(cè)并刪除這種重復(fù),必須處理兩個(gè)主要問題。首先,如果兩個(gè)對(duì)象實(shí)際代表同一個(gè)對(duì)象波闹,則對(duì)應(yīng)的屬性值必然不同,必須解決這些不一致的值涛碑;其次精堕,需要避免意外地將兩個(gè)相似但并非重復(fù)的數(shù)據(jù)對(duì)象合并到一起。

數(shù)據(jù)集成

在企業(yè)中蒲障,由于開發(fā)時(shí)間或開發(fā)部門的不同歹篓,往往有多個(gè)異構(gòu)的、運(yùn)行在不同的軟硬件平臺(tái)上的信息系統(tǒng)同時(shí)運(yùn)行揉阎,這些系統(tǒng)的數(shù)據(jù)源彼此獨(dú)立庄撮、相互封閉,使得數(shù)據(jù)難以在系統(tǒng)之間交流毙籽、共享和融合洞斯,從而形成了"信息孤島"。隨著信息化應(yīng)用的不斷深入坑赡,企業(yè)內(nèi)部烙如、企業(yè)與外部信息交互的需求日益強(qiáng)烈,急切需要對(duì)已有的信息進(jìn)行整合毅否,聯(lián)通“信息孤島”亚铁,共享信息。

數(shù)據(jù)集成通過應(yīng)用間的數(shù)據(jù)交換從而達(dá)到集成螟加,主要解決數(shù)據(jù)的分布性和異構(gòu)性的問題徘溢,其前提是被集成應(yīng)用必須公開數(shù)據(jù)結(jié)構(gòu),即必須公開表結(jié)構(gòu)捆探,表間關(guān)系然爆,編碼的含義。

數(shù)據(jù)變換

1.平滑2.聚集3.數(shù)據(jù)概化4.規(guī)范化(1)最小-最大規(guī)范化(2)零-均值規(guī)范化(3)小數(shù)定標(biāo)規(guī)范化5.屬性構(gòu)造

數(shù)據(jù)規(guī)約

目的是為了獲得比原始數(shù)據(jù)小的多的黍图,但不破壞數(shù)據(jù)完整性的挖掘數(shù)據(jù)集曾雕,該數(shù)據(jù)集可以得到與原始數(shù)據(jù)相同的挖掘結(jié)果。

數(shù)據(jù)歸約的方法:?1.數(shù)據(jù)立方體聚集:把聚集的方法用于數(shù)據(jù)立方體雌隅。2.維歸約:檢測(cè)并刪除不相關(guān)翻默、弱相關(guān)或冗余屬性。3.數(shù)據(jù)壓縮:選擇正確的編碼壓縮數(shù)據(jù)集恰起。4.數(shù)值壓縮:用較小的數(shù)據(jù)表示數(shù)據(jù)修械,或采用較短的數(shù)據(jù)單位,或者用數(shù)據(jù)模型代表數(shù)據(jù)检盼。5.離散化和概念分層生成:使連續(xù)的數(shù)據(jù)離散化肯污,用確定的有限個(gè)區(qū)段值代替原始值;概念分層是指用較高層次的概念替換低層次的概念,以此來減少取值個(gè)數(shù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末蹦渣,一起剝皮案震驚了整個(gè)濱河市哄芜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌柬唯,老刑警劉巖认臊,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異锄奢,居然都是意外死亡失晴,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門拘央,熙熙樓的掌柜王于貴愁眉苦臉地迎上來涂屁,“玉大人,你說我怎么就攤上這事灰伟〔鹩郑” “怎么了?”我有些...
    開封第一講書人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵栏账,是天一觀的道長(zhǎng)帖族。 經(jīng)常有香客問我,道長(zhǎng)发笔,這世上最難降的妖魔是什么盟萨? 我笑而不...
    開封第一講書人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任凉翻,我火速辦了婚禮了讨,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘制轰。我一直安慰自己前计,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開白布垃杖。 她就那樣靜靜地躺著男杈,像睡著了一般。 火紅的嫁衣襯著肌膚如雪调俘。 梳的紋絲不亂的頭發(fā)上伶棒,一...
    開封第一講書人閱讀 51,488評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音彩库,去河邊找鬼肤无。 笑死,一個(gè)胖子當(dāng)著我的面吹牛骇钦,可吹牛的內(nèi)容都是我干的宛渐。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼窥翩!你這毒婦竟也來了业岁?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤寇蚊,失蹤者是張志新(化名)和其女友劉穎笔时,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體仗岸,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡糊闽,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了爹梁。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片右犹。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖姚垃,靈堂內(nèi)的尸體忽然破棺而出念链,到底是詐尸還是另有隱情,我是刑警寧澤积糯,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布掂墓,位于F島的核電站,受9級(jí)特大地震影響看成,放射性物質(zhì)發(fā)生泄漏君编。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一川慌、第九天 我趴在偏房一處隱蔽的房頂上張望吃嘿。 院中可真熱鬧,春花似錦梦重、人聲如沸兑燥。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽降瞳。三九已至,卻和暖如春蚓胸,著一層夾襖步出監(jiān)牢的瞬間挣饥,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工沛膳, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留扔枫,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓于置,卻偏偏與公主長(zhǎng)得像茧吊,于是被迫代替她去往敵國(guó)和親贞岭。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容