數(shù)據(jù)預(yù)處理

一唐础、引述

低質(zhì)量的數(shù)據(jù)導(dǎo)致低質(zhì)量的數(shù)據(jù)挖掘結(jié)果萝招,因此需要對數(shù)據(jù)進(jìn)行預(yù)處理岭皂,提高數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)挖掘結(jié)果钉汗。預(yù)處理技術(shù)包含了數(shù)據(jù)清理,數(shù)據(jù)歸約鲤屡,數(shù)據(jù)變換损痰。

數(shù)據(jù)清理:清楚數(shù)據(jù)中的噪聲,糾正不一致酒来。數(shù)據(jù)歸約:通過如聚集卢未、刪除冗余特征或聚類來降低數(shù)據(jù)的規(guī)模。數(shù)據(jù)變化:數(shù)據(jù)歸一化,將數(shù)據(jù)壓縮到較小的區(qū)間辽社,例如0.0-1.0

可以提高涉及距離度量的挖掘算法的準(zhǔn)確率和效率

二伟墙、數(shù)據(jù)清理

數(shù)據(jù)一般是不完整的、有噪聲的和不一致的滴铅,數(shù)據(jù)清理試圖填補缺失的值戳葵,光滑噪聲、識別離群點汉匙,并糾正數(shù)據(jù)的不一致性拱烁。

2.1 填補缺失值方法

(1)忽略元組,(2)使用屬性的中心度量(如均值或中位數(shù))填充缺失值噩翠,(3)使用與給定元組屬于同一類的所有樣本的屬性均值或中位數(shù)戏自,(4)使用全局常量填充缺失值,比如使用Unknown伤锚。

2.2 光滑噪聲數(shù)據(jù)

噪聲是被測量的變量的隨機誤差或方差

(1)分箱技術(shù):分箱方法考慮相鄰的值擅笔,是一種局部平滑方法。分箱的主要目的是去噪见芹,將連續(xù)數(shù)據(jù)離散化剂娄,增加粒度。按照取值的不同可劃分為按箱平均值平滑玄呛、按箱中值平滑以及按箱邊界值平滑阅懦。

假設(shè)有4 8 15 21 21 24 25 28 34等9個數(shù),分為3箱

劃分為等頻的箱:箱1:4 8 15徘铝,箱2:21 21 24耳胎,箱3:25 28 34

箱均值光滑:箱1:9 9 9,箱2:22 22 22惕它,箱3:29 29 29

箱邊界光滑:箱1:4 415怕午,箱2:21 21 24,箱3:25 25 34

(2)回歸:用一個函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)

(3)離群點分析:通過聚類來檢測離群點

(4)冗余和相關(guān)分析:若一個屬性如果能由另一個或另一組屬性“導(dǎo)出”淹魄,則這個屬性就是冗余的郁惜。另外一些冗余則可以被相關(guān)分析檢測到。標(biāo)稱數(shù)據(jù):使用卡方檢驗甲锡;數(shù)值屬性兆蕉,使用相關(guān)系數(shù)。

標(biāo)稱數(shù)據(jù)的卡方檢驗:

對于標(biāo)稱數(shù)據(jù)缤沦,兩個屬性A和B之間的相關(guān)聯(lián)系可以通過卡方檢驗虎韵,卡方統(tǒng)計檢驗假設(shè)A和B獨立,檢驗基于顯著水平缸废,具有自由度(r-1)(c-1)包蓝。

卡方檢驗

自由度:(r-1)*(c-1)驶社;查詢卡方分布表,得到在某置信水平下的拒絕假設(shè)的值测萎。

數(shù)值數(shù)據(jù)的相關(guān)系數(shù)

對于數(shù)值數(shù)據(jù)亡电,我們可以通過計算屬性A和B的相關(guān)系數(shù),也叫Pearson相關(guān)系數(shù)绳泉,估計兩個屬性的相關(guān)度

相關(guān)系數(shù)

若r大于0逊抡,則A和B是正相關(guān),意味著A值隨B值的增加而增加零酪。該值越大冒嫡,相關(guān)性越強,表明A和B四苇,則可以說明A和B這兩屬性冗余孝凌。如果r等于0,說明A和B是獨立的月腋。如果r小于0蟀架,說明A和B是負(fù)相關(guān),一個值隨著另一個減少而增加榆骚,意味這這個屬性是阻止另外一個屬性出現(xiàn)的片拍。

數(shù)值數(shù)據(jù)的協(xié)方差、相關(guān)系數(shù)

協(xié)方差和方差是兩個類似的度量妓肢,評估兩個屬性如何一起變化捌省。A和B的協(xié)方差定義為:

協(xié)方差

若A和B獨立,即不具有相關(guān)性碉钠,則E(AB)=E(A)E(B)纲缓,則cov(A,B)=0。若cov(A,B)=0喊废,則說明A和B不相關(guān)祝高,不能說明獨立

2.3 數(shù)據(jù)規(guī)約

得到數(shù)據(jù)的規(guī)約表示,而使得信息內(nèi)容的損失最小化污筷,數(shù)據(jù)規(guī)約方法包括維規(guī)約工闺、數(shù)量規(guī)約、數(shù)據(jù)壓縮瓣蛀。

1 維規(guī)約:減少所考慮的屬性的個數(shù)陆蟆,方法包括小波變換、主成份分析(PCA)揪惦、屬性子集選擇和特征構(gòu)造。小波變換合適于高維數(shù)據(jù)罗侯,主成份分析適合于稀釋數(shù)據(jù)器腋。屬性子集選擇通常使用決策樹。屬性構(gòu)造可以幫助提高準(zhǔn)確性和對高維數(shù)據(jù)結(jié)構(gòu)的理解。

2 數(shù)量規(guī)約:使用參數(shù)或非參數(shù)模型纫塌,得到原數(shù)據(jù)的較小表示诊县。參數(shù)模型只存放模型參數(shù),而非實際數(shù)據(jù)措左。例如回歸和對數(shù)線性模型依痊,非參數(shù)模型包括直方圖、聚類怎披、抽樣胸嘁。抽樣包括無放回的簡單隨機抽樣,有放回的簡單隨機抽樣凉逛,簇抽樣性宏,分層抽樣

3 數(shù)據(jù)壓縮:使用變換,得到元數(shù)據(jù)的規(guī)約或壓縮表示状飞,如果原數(shù)據(jù)可以有壓縮后的數(shù)據(jù)重構(gòu)毫胜,而不損失任何信息,則數(shù)據(jù)壓縮是無損的诬辈,否則就是有損的酵使。

2.4 數(shù)據(jù)變換

將數(shù)據(jù)變換成統(tǒng)一形式,使得挖掘過程可能更有效焙糟,挖掘的模式更容易理解口渔。

數(shù)據(jù)變換策略:

1 光滑:去掉數(shù)據(jù)中的噪聲,包括分箱酬荞、回歸搓劫、聚類

2 屬性構(gòu)造:由給定的屬性構(gòu)造新的屬性并添加到屬性集中

3 聚集:對數(shù)據(jù)進(jìn)行匯總或聚集

4 規(guī)范化:把屬性數(shù)據(jù)按比例進(jìn)行縮放

5 離散化:數(shù)值屬性的原始值用區(qū)間標(biāo)簽或概念標(biāo)簽替換

6 由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層:屬性如street泛化到較高的概念層如city

2.4.1?最小-最大規(guī)范化

最大最小規(guī)范化

如income的最大最小是【200,50】混巧,映射到區(qū)間【0枪向,1】中,某個income值150:(150-50)/(200-50)(1-0)+0=2/3

2.4.2 z分?jǐn)?shù)規(guī)范化

z-score規(guī)范化

假設(shè)incom的均值和標(biāo)準(zhǔn)差是54和16咧党,那么值73.6的被轉(zhuǎn)換為(73.6-54)/16=1.225

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末秘蛔,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子傍衡,更是在濱河造成了極大的恐慌深员,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蛙埂,死亡現(xiàn)場離奇詭異倦畅,居然都是意外死亡,警方通過查閱死者的電腦和手機绣的,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進(jìn)店門叠赐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來欲账,“玉大人,你說我怎么就攤上這事芭概∪唬” “怎么了?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵罢洲,是天一觀的道長踢故。 經(jīng)常有香客問我,道長惹苗,這世上最難降的妖魔是什么殿较? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮鸽粉,結(jié)果婚禮上斜脂,老公的妹妹穿的比我還像新娘。我一直安慰自己触机,他們只是感情好帚戳,可當(dāng)我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著儡首,像睡著了一般片任。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蔬胯,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天对供,我揣著相機與錄音,去河邊找鬼氛濒。 笑死产场,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的舞竿。 我是一名探鬼主播京景,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼骗奖!你這毒婦竟也來了确徙?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤执桌,失蹤者是張志新(化名)和其女友劉穎鄙皇,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體仰挣,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡伴逸,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了膘壶。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片错蝴。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡博烂,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出漱竖,到底是詐尸還是另有隱情,我是刑警寧澤畜伐,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布馍惹,位于F島的核電站,受9級特大地震影響玛界,放射性物質(zhì)發(fā)生泄漏万矾。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一慎框、第九天 我趴在偏房一處隱蔽的房頂上張望良狈。 院中可真熱鬧,春花似錦笨枯、人聲如沸薪丁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽严嗜。三九已至,卻和暖如春洲敢,著一層夾襖步出監(jiān)牢的瞬間漫玄,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工压彭, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留睦优,地道東北人。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓壮不,卻偏偏與公主長得像汗盘,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子忆畅,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 前提 在數(shù)據(jù)挖掘中衡未,海量的原始數(shù)據(jù)中存在大量不完整(有缺失值)、不一致家凯、有異常的數(shù)據(jù)缓醋,會嚴(yán)重影響到數(shù)據(jù)挖掘建模的執(zhí)...
    神奇的考拉閱讀 1,958評論 0 3
  • 1、引言 數(shù)據(jù)預(yù)處理的主要任務(wù)如下:(1)數(shù)據(jù)清理:填寫空缺值绊诲,平滑噪聲數(shù)據(jù)送粱,識別,刪除孤立點掂之,解決不一致性(2)...
    文哥的學(xué)習(xí)日記閱讀 6,661評論 0 11
  • 數(shù)據(jù)預(yù)處理是指在對數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘之前抗俄,先對原始數(shù)據(jù)進(jìn)行必要的清洗脆丁、集成、轉(zhuǎn)換动雹、離散和規(guī)約等一系列的處理工...
    Always_6778閱讀 2,007評論 0 2
  • 改革開放讓一些原本遙不可及的新東西很快普及槽卫,更新?lián)Q代的速度快得驚人,原來橘黃色的白熾燈就點亮全世界的時代早已過去胰蝠,...
    補拙莫如勤LV閱讀 212評論 0 0
  • “明月幾時有歼培,把酒問青天,不知天上宮闕茸塞,今夕是何年……” 蘇軾的這首千古佳作《水調(diào)歌頭》是1076年在密州...
    魯瑜閱讀 312評論 0 0