? ? ? ?為了使數(shù)據(jù)更加適合挖掘,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理操作,其中包含大量復(fù)雜的處理方式:聚集脏里,抽樣壳猜,維歸納,特征子集選擇氓癌,特征創(chuàng)建谓谦,離散化和二元化和變量變換。
一:聚集
? ? ?? 聚集將兩個(gè)或多個(gè)對(duì)象合并成單個(gè)對(duì)象贪婉,如將多張表的數(shù)據(jù)匯集成一張表反粥,同時(shí)起到了范圍或標(biāo)度轉(zhuǎn)換的作用。
? ? ? ?從統(tǒng)計(jì)學(xué)的角度來看:相對(duì)于被聚集的單個(gè)對(duì)象谓松,平均值星压、總數(shù)等聚集量有較小的變異性。對(duì)于總數(shù)鬼譬,實(shí)際變差大于單個(gè)對(duì)象的(平均)變差娜膘,但變差的百分比較小优质;對(duì)于平均值竣贪,實(shí)際變差小于單個(gè)對(duì)象的(平均)變差。
? ? ? ?聚集的優(yōu)勢(shì)是數(shù)據(jù)集變小巩螃,處理時(shí)間變少演怎,使聚集的對(duì)象或者屬性群的行為比未聚集前更加穩(wěn)定。缺點(diǎn)是可能丟失部分細(xì)節(jié)避乏。
二:抽樣
? ? ? ?抽樣是一種選擇數(shù)據(jù)對(duì)象自己進(jìn)行分析的方法爷耀,常用語(yǔ)數(shù)據(jù)的事先調(diào)查和最終的數(shù)據(jù)分析。和統(tǒng)計(jì)學(xué)中使用抽樣是因?yàn)榈玫礁信d趣的數(shù)據(jù)集費(fèi)用太高拍皮、太費(fèi)時(shí)間不同的是歹叮,數(shù)據(jù)挖掘中使用抽樣可以有效的壓縮整體數(shù)據(jù)量。
? ? ? ?有效抽樣的原理是:樣本具有代表性铆帽,有原數(shù)據(jù)集有近似的或相同的性質(zhì)咆耿,這樣使用樣本與整個(gè)數(shù)據(jù)集的效果幾乎一樣。
(一):抽樣方法
1:簡(jiǎn)單隨機(jī)抽樣
無樣放回抽樣--每個(gè)選中項(xiàng)立即從構(gòu)成總體的所有對(duì)象中刪除爹橱。
有放回抽樣--對(duì)象被選中時(shí)不從總體中刪除萨螺。此方法較簡(jiǎn)單,原因是抽樣過程中,每個(gè)對(duì)象被選中的概率是不變的慰技。
在有放回抽樣中椭盏,相同的對(duì)象可能被多次抽出。當(dāng)樣本與數(shù)據(jù)集相差較小時(shí)惹盼,兩種方法結(jié)果差別不太庸汗。
2:分層抽樣
? ? ? ?當(dāng)總體由不同類型的對(duì)象組成,同時(shí)每種類型的對(duì)象差別很大時(shí)手报,簡(jiǎn)單隨機(jī)抽樣不能重返的代表不太頻繁出現(xiàn)的對(duì)象類型蚯舱,尤其是需要分析所有類型的代表時(shí),需要在樣本中適當(dāng)?shù)奶峁┫∮蓄愐源聿煌l率的抽樣掩蛤。
等大小抽樣:每個(gè)組大小不同枉昏,但是每次抽取的對(duì)象個(gè)數(shù)相同。
等比抽樣:每一組抽取的對(duì)象數(shù)量和該組的大小成正比揍鸟。
(二):抽樣與信息損失
? ? ? ?當(dāng)選定完抽樣技術(shù)后兄裂,就需要選擇抽樣容量。較大的樣本容量增大了樣本具有代表性的概率阳藻。相反晰奖,使用較小容量的樣本,可能出現(xiàn)特征丟失腥泥。
(三):漸進(jìn)抽樣
? ? ? ?合適的樣本容量可能很難確定匾南,因此有時(shí)需要使用自適應(yīng)或者漸進(jìn)抽樣的方法。這些方法從一個(gè)小樣本開始蛔外,然后增加樣本容量直至得到足夠容量的樣本蛆楞。該技術(shù)部需要在開始就確定正確的樣本容量,但是需要評(píng)估樣本的方法夹厌,以確定它是否滿足大豹爹。
? ? ? ?例如使用漸進(jìn)抽樣來評(píng)估一個(gè)預(yù)測(cè)模型,模型的準(zhǔn)確率隨樣本容量的增加而增加矛纹,但在某一點(diǎn)的準(zhǔn)確率的增加趨于穩(wěn)定臂聋,如果希望在穩(wěn)定點(diǎn)停止增加樣本容量,就需要掌握模型準(zhǔn)去率隨樣本逐漸增大的變化情況并通過選取接近當(dāng)前容量的其他樣本或南,從而估計(jì)出與穩(wěn)定點(diǎn)的接近程度逻住,從而停止抽樣。
三:維歸約
? ? ? ?通過創(chuàng)建新屬性迎献,將一些舊屬性合并在一起來降低數(shù)據(jù)集的維度。通過選擇舊屬性的子集得到新屬性腻贰,這種維規(guī)約稱為特征子集選擇或特征選擇吁恍。
(一):維歸納的好處
如果維度(數(shù)據(jù)屬性的個(gè)數(shù))較低,許多數(shù)據(jù)挖掘算法的效果就會(huì)更好,一方面因?yàn)榭梢詣h除不相關(guān)的特征并降低噪聲冀瓦,另一方面是因?yàn)榫S災(zāi)難(隨數(shù)據(jù)維度的增加伴奥,數(shù)據(jù)在它所占據(jù)的空間中越來越稀疏,導(dǎo)致分析變得困難翼闽,如分類準(zhǔn)確率降低拾徙,聚類質(zhì)量下降等)。
讓模型更加容易理解感局,因?yàn)槟P涂赡苤簧婕拜^少的屬性尼啡。
可以更容易讓數(shù)據(jù)可視化,即使沒有將數(shù)據(jù)規(guī)約到二維或三維询微,數(shù)據(jù)也可以通過觀察屬性或?qū)θM屬性達(dá)到可視化崖瞭,并且這種組合的數(shù)目也會(huì)大大減少。
違規(guī)約降低了數(shù)據(jù)挖掘算法的時(shí)間和內(nèi)存需求撑毛。
(二):維規(guī)約的線性代數(shù)技術(shù)
? ? ? ?將高維空間投影到低維空間书聚,特別是對(duì)于連續(xù)數(shù)據(jù)。常用的有主成分分析(PCA)藻雌,它找出新的屬性(主成分)雌续,這些屬性是原屬性的線性組合,是相互正交的胯杭,并且捕獲了數(shù)據(jù)的最大變差驯杜。奇異值分解(SVD),也常用于維規(guī)約歉摧,與PCA有關(guān)艇肴。
四:特征子集選擇
? ? ? ?降低維度的另一種方法是僅使用特征的一個(gè)子集,在冗余特征(重復(fù)包含了一個(gè)或多個(gè)其他屬性中的信息)出現(xiàn)時(shí)特別有效叁温。
? ? ? ?理想的方法是將所有可能的特征子集作為感興趣的數(shù)據(jù)挖掘算法輸入再悼,然后選取產(chǎn)生最后結(jié)果的子集。優(yōu)點(diǎn)是反應(yīng)了最終使用的數(shù)據(jù)挖掘算法的目的和偏愛膝但,但當(dāng)涉及N個(gè)屬性的自己多達(dá)時(shí)冲九,這個(gè)方法行不通,需要通過其他三種標(biāo)準(zhǔn)的特征選擇方法:
嵌入:把特征選擇的過程與分類器學(xué)習(xí)的過程融合一起跟束,在學(xué)習(xí)的過程中進(jìn)行特征選擇莺奸。常見的使用L1正則化,決策樹和支持向量機(jī)等冀宴。
過濾:獨(dú)立于學(xué)習(xí)算法灭贷,直接由原始的特征集合求得。先對(duì)數(shù)據(jù)集進(jìn)行特征選擇略贮,排除冗余無關(guān)特征甚疟,得到特征數(shù)據(jù)集仗岖,然后對(duì)其訓(xùn)練學(xué)習(xí)器,這兩個(gè)過程是獨(dú)立的览妖。過濾式特征選擇算法會(huì)通過數(shù)據(jù)的本質(zhì)屬性對(duì)所有特征進(jìn)行相應(yīng)的評(píng)分轧拄,在評(píng)價(jià)過程中無需分類器完成,在對(duì)給出所有特征賦予相應(yīng)的評(píng)分后讽膏,選擇評(píng)分高的特征用于之后的學(xué)習(xí)算法中檩电。
? ? ?單變量過濾式:使用某種評(píng)價(jià)標(biāo)準(zhǔn)作為度量方式來確定數(shù)據(jù)集中特征對(duì)類別的區(qū)分能力。
? ? ?多變量過濾式:通過考慮特征之間的交互作用來確定特征的重要性府树。
包裝:與學(xué)習(xí)算法有關(guān)俐末,利用學(xué)習(xí)算法的性能來評(píng)價(jià)特征子集的優(yōu)劣。在特征選擇的過程中挺尾,需要一個(gè)分類器鹅搪,根據(jù)分類器性能去衡量特征子集,分類器有決策樹遭铺,近鄰分類器丽柿,貝葉斯分類器等。
? ? ? ?過濾式算法簡(jiǎn)單高效魂挂,但是缺失與模型的交互性甫题;封裝式與模型相結(jié)合,結(jié)果精確涂召,但是易過擬合坠非;嵌入式有著兩者的優(yōu)點(diǎn),但是構(gòu)造起來比較麻煩果正。
過濾和包裝組合式:先使用過濾進(jìn)行特征選擇炎码,去掉不相關(guān)的特征,降低特征維度秋泳;然后利用包裝進(jìn)行特征選擇潦闲。
五:特征創(chuàng)建
? ? ? ?可以由原來的屬性創(chuàng)建新的屬性集,新屬性的數(shù)量可能較少迫皱,但能更有效的捕獲數(shù)據(jù)集中的重要信息歉闰。
(一):特征提取
? ? ? ?由原始數(shù)據(jù)集創(chuàng)建新的特征集稱為特征提取,一般特征提取技術(shù)都是高度針對(duì)具體領(lǐng)域的卓起,也就是當(dāng)數(shù)據(jù)挖掘用于一個(gè)較新的領(lǐng)域時(shí)候和敬,開發(fā)新的特征和提取方法是一個(gè)關(guān)鍵的任務(wù)。
(二):映射數(shù)據(jù)到新的空間
? ? ? ?使用一種完全不同的視角挖掘數(shù)據(jù)可能揭示出重要和有趣的特征戏阅。
? ? ? ?如時(shí)間序列數(shù)據(jù)昼弟,常常包含周期模式。當(dāng)只有單個(gè)周期時(shí)奕筐,噪聲不明顯舱痘,則容易檢測(cè)到該模式蚕键;但當(dāng)有大量周期時(shí),并且存在大量噪聲時(shí)衰粹,則很難檢測(cè)這些模式,此時(shí)可以實(shí)施傅里葉變換(識(shí)別時(shí)間序列數(shù)據(jù)中的基本頻率)笆怠,將它轉(zhuǎn)換成頻率信息的表示铝耻,就能檢測(cè)到這些模式。
(三):特征構(gòu)造
? ? ? ?有時(shí)候原始數(shù)據(jù)集的特征具有必要的信息蹬刷,但其形式不適合數(shù)據(jù)挖掘算法瓢捉,這種情況下,一個(gè)或多個(gè)由原始特征構(gòu)造的新特征可能比原特征更有用办成。
六:離散化和二元化
? ? ? ?有些數(shù)據(jù)挖掘算法泡态,特別是某些分類算法,要求數(shù)據(jù)是分類屬性形式迂卢。發(fā)現(xiàn)關(guān)聯(lián)模式的算法要求數(shù)據(jù)是二元屬性形式某弦。常常需要將連續(xù)屬性變換成分類屬性(離散化),并且連續(xù)和離散屬性可能都需要變換成一個(gè)或多個(gè)二元屬性(二元化)而克。
七:變量變換
? ? ? ?變量變換(也稱屬性變換)是指用于變量的所有值變換靶壮。
參考:
1:《數(shù)據(jù)挖掘?qū)д摗?/p>
2: 特征選擇與特征子集 - 思想永不平凡