數據挖掘之數據預處理學習筆記

數據預處理目的

保證數據的質量笼才,包括確保數據的準確性尾膊、完整性和一致性

主要任務

數據清理

填寫缺失的值媳危、光滑噪聲數據、識別或者刪除離群的點冈敛,先解決這些臟數據待笑,否者會影響挖掘結果的可信度
噪聲數據:所測量數據的隨機誤差或者方差

數據集成

比如,將多個數據源上的數據合并抓谴,同一個概念的數據字段可能名字不同暮蹂,導致不一致和冗余,這里需要處理

數據規(guī)約

將巨大的數據規(guī)模變小癌压,又不損害數據的挖掘結果仰泻,比如在數學建模里通過SPSS來降維,包括維規(guī)約(主成分分析法)和數值規(guī)約(數據聚集或者是回歸)

回歸:用一個函數擬合數據來光滑數據

離群點分析:通過聚類來檢測離群點滩届,聚類將類似的值組織成一個群或者簇我纪,落在群或者簇的值視為離群點


數據清理是一個過程

數據清理第一步就是偏差檢測
元數據:使用任何你可能具有的相關數據性質的知識,這種知識或“關于數據的數據”就是元數據

可以使用數據清洗工具(比如簡單的拼寫錯誤)和數據審計工具(分析數據發(fā)現規(guī)則和聯(lián)系)進行偏差檢測丐吓,使用數據遷移工具進行數據變換

合并來自多個數據存儲的數據

冗余和相關分析
一個屬性(例如,年收入)如果能由另一個或另一組屬性“導出”趟据,則這個屬性可能是冗余的券犁。屬性或維命名的不一致也可能導致結果數據集中的冗余

有些冗余可以被相關分析檢測到。給定兩個屬性汹碱,這種分析可以根據可用的數據粘衬,度量一個屬性能在多大程度上蘊涵另一個。對于標稱數據,我們使用χ2(卡方)檢驗稚新。對于數值屬性勘伺,我們使用相關系數(correlation coefficient)協(xié)方差(covariance),它們都評估一個屬性的值如何隨另一個變化褂删。

1.標稱數據的χ2相關檢驗
概率論數理統(tǒng)計那一塊的知識
舉個例子
(點擊圖片鏈接查看)
![XSS_6_0KNF6ETY92HR5TTG.png

四格表資料的卡方檢驗用于進行兩個率或兩個構成比的比較飞醉。

  1. 專用公式:
    若四格表資料四個格子的頻數分別為a,b屯阀,c缅帘,d,則四格表資料卡方檢驗的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)难衰,(或者使用擬合度公式)
    自由度v=(行數-1)(列數-1)=1
  2. 應用條件:
    要求樣本含量應大于40且每個格子中的理論頻數不應小于5钦无。當樣本含量大于40但有1=<理論頻數<5時,卡方值需要校正盖袭,當樣本含量小于40或理論頻數小于1時只能用確切概率法計算概率失暂。

2.數值數據的相關系數
對于數值數據,我們可以通過計算屬性A和B的相關系數(又稱Pearson積矩系數鳄虱,Pearson’s product moment coefficient)弟塞,用發(fā)明者Karl Pearson的名字命名),估計這兩個屬性的相關度rA,B

20121010023950795.jpg

其中醇蝴,n是元組的個數宣肚,ai和bi分別是元組i在A和B上的值,A和B分別是A和B的均值悠栓,σA和σB分別是A和B的標準差霉涨,而是AB叉積和(即對于每個元組,A的值乘以該元組B的值)惭适。注意笙瑟,-1≤rA,B≤+1。如果rA,B大于0癞志,則A和B是正相關的往枷,這意味著A值隨B值的增加而增加。該值越大凄杯,相關性越強(即每個屬性蘊涵另一個的可能性越大)错洁。因此,一個較高的rA,B值表明A(或B)可以作為冗余而被刪除戒突。

如果該結果值等于0屯碴,則A和B是獨立的,并且它們之間不存在相關性膊存。如果該結果值小于0导而,則A和B是負相關的忱叭,一個值隨另一個減少而增加。這意味著每一個屬性都阻止另一個出現今艺。

3.數值數據的協(xié)方差
協(xié)方差分析是建立在方差分析和回歸分析基礎之上的一種統(tǒng)計分析方法韵丑,它衡量兩個屬性如何一起變化

20121010024132450.jpg

除了檢測屬性間的冗余外,還得檢測元組級的重復
去規(guī)范化表(denormalized table)的使用(這樣做通常是通過避免連接來改善性能)是數據冗余的另一個來源虚缎。不一致通常出現在各種不同的副本之間撵彻,由于不正確的數據輸入,或者由于更新了數據的某些出現遥巴,但未更新所有的出現千康。98例如,如果訂單數據庫包含訂貨人的姓名和地址屬性铲掐,而不是這些信息在訂貨人數據庫中的碼拾弃,則差異就可能出現,如同一訂貨人的名字可能以不同的地址出現在訂單數據庫中摆霉。

維規(guī)約(減少屬性)豪椿、數量規(guī)約(減少數量)和數據壓縮

1、小波變換
離散小波變換(DWT)是一種線性信號處理技術携栋,用于數據向量X時搭盾,將它變換成不同的數值小波系數向量X′。兩個向量具有相同的長度婉支。當這種技術用于數據歸約時鸯隅,每個元組看做一個n維數據向量,即X=(x1向挖,x2蝌以,…,xn)何之,描述n個數據庫屬性在元組上的n個測量值1跟畅。
相關連接:小波變換
2、主成分分析
主成分分析(principal components analysis)或PCA(又稱Karhunen-Loeve或K-L方法)搜索k個最能代表數據的n維正交向量溶推,其中k≤n徊件。這樣,原數據投影到一個小得多的空間上蒜危,導致維歸約虱痕。
相關連接:主成分分析詳解
3、屬性子集選擇
屬性子集選擇1通過刪除不相關或冗余的屬性(或維)減少數據量辐赞。屬性子集選擇的目標是找出最小屬性集皆疹,使得數據類的概率分布盡可能地接近使用所有屬性得到的原分布。

使用決策樹模型是不錯的辦法


20121010030858634.jpg

4占拍、回歸和對數線性模型
使用線性回歸或者多元回歸略就,光滑數據,也可以使用SPSS回歸擬合
5晃酒、直方圖
不解釋
6表牢、聚類
聚類技術把數據元組看做對象。它將對象劃分為群或簇贝次,使得在一個簇中的對象相互“相似”崔兴,而與其他簇中的對象“相異”。
同樣可以使用SPSS聚類進行分析
相關連接:聚類分析解析
相關連接:四種聚類算法
7蛔翅、抽樣
簇抽樣敲茄、分層抽樣不解釋
8、數據立體聚集
數據立方體存儲多維聚集信息山析。例如堰燎,圖顯示了一個數據立方體,用于AllElectronics的所有分店每類商品年銷售的多維數據分析笋轨。每個單元存放一個聚集值秆剪,對應于多維空間的一個數據點。(為清晰起見爵政,只顯示了某些單元的值仅讽。)每個屬性都可能存在概念分層,允許在多個抽象層進行數據分析钾挟。例如洁灵,branch的分層使得分店可以按它們的地址聚集成地區(qū)。數據立方體提供對預計算的匯總數據進行快速訪問掺出,因此適合聯(lián)機數據分析和數據挖掘徽千。
后文詳細介紹...

QG540(M$GRV$QDX~P331E~8.jpg
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蛛砰,隨后出現的幾起案子罐栈,更是在濱河造成了極大的恐慌,老刑警劉巖泥畅,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件荠诬,死亡現場離奇詭異,居然都是意外死亡位仁,警方通過查閱死者的電腦和手機柑贞,發(fā)現死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來聂抢,“玉大人钧嘶,你說我怎么就攤上這事×帐瑁” “怎么了有决?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵闸拿,是天一觀的道長。 經常有香客問我书幕,道長新荤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任台汇,我火速辦了婚禮苛骨,結果婚禮上,老公的妹妹穿的比我還像新娘苟呐。我一直安慰自己痒芝,他們只是感情好,可當我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布牵素。 她就那樣靜靜地躺著严衬,像睡著了一般。 火紅的嫁衣襯著肌膚如雪两波。 梳的紋絲不亂的頭發(fā)上瞳步,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天,我揣著相機與錄音腰奋,去河邊找鬼单起。 笑死,一個胖子當著我的面吹牛劣坊,可吹牛的內容都是我干的嘀倒。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼局冰,長吁一口氣:“原來是場噩夢啊……” “哼测蘑!你這毒婦竟也來了?” 一聲冷哼從身側響起康二,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤碳胳,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后沫勿,有當地人在樹林里發(fā)現了一具尸體挨约,經...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年产雹,在試婚紗的時候發(fā)現自己被綠了诫惭。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡蔓挖,死狀恐怖夕土,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情瘟判,我是刑警寧澤怨绣,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布角溃,位于F島的核電站,受9級特大地震影響篮撑,放射性物質發(fā)生泄漏开镣。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一咽扇、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧陕壹,春花似錦质欲、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至又碌,卻和暖如春九昧,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背毕匀。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工铸鹰, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留郎仆,地道東北人喊括。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓咬腕,卻偏偏與公主長得像舆声,于是被迫代替她去往敵國和親钻趋。 傳聞我的和親對象是個殘疾皇子张惹,可洞房花燭夜當晚...
    茶點故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內容