數(shù)據(jù)預(yù)處理總結(jié)

? ? ? ?為了使數(shù)據(jù)更加適合挖掘,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理操作,其中包含大量復(fù)雜的處理方式:聚集脏里,抽樣壳猜,維歸納特征子集選擇氓癌,特征創(chuàng)建谓谦,離散化和二元化變量變換

一:聚集

? ? ?? 聚集將兩個(gè)或多個(gè)對(duì)象合并成單個(gè)對(duì)象贪婉,如將多張表的數(shù)據(jù)匯集成一張表反粥,同時(shí)起到了范圍或標(biāo)度轉(zhuǎn)換的作用。

? ? ? ?從統(tǒng)計(jì)學(xué)的角度來看:相對(duì)于被聚集的單個(gè)對(duì)象谓松,平均值星压、總數(shù)等聚集量有較小的變異性。對(duì)于總數(shù)鬼譬,實(shí)際變差大于單個(gè)對(duì)象的(平均)變差娜膘,但變差的百分比較小优质;對(duì)于平均值竣贪,實(shí)際變差小于單個(gè)對(duì)象的(平均)變差。

? ? ? ?聚集的優(yōu)勢(shì)是數(shù)據(jù)集變小巩螃,處理時(shí)間變少演怎,使聚集的對(duì)象或者屬性群的行為比未聚集前更加穩(wěn)定。缺點(diǎn)是可能丟失部分細(xì)節(jié)避乏。

二:抽樣

? ? ? ?抽樣是一種選擇數(shù)據(jù)對(duì)象自己進(jìn)行分析的方法爷耀,常用語(yǔ)數(shù)據(jù)的事先調(diào)查和最終的數(shù)據(jù)分析。和統(tǒng)計(jì)學(xué)中使用抽樣是因?yàn)榈玫礁信d趣的數(shù)據(jù)集費(fèi)用太高拍皮、太費(fèi)時(shí)間不同的是歹叮,數(shù)據(jù)挖掘中使用抽樣可以有效的壓縮整體數(shù)據(jù)量。

? ? ? ?有效抽樣的原理是:樣本具有代表性铆帽,有原數(shù)據(jù)集有近似的或相同的性質(zhì)咆耿,這樣使用樣本與整個(gè)數(shù)據(jù)集的效果幾乎一樣。

(一):抽樣方法

1:簡(jiǎn)單隨機(jī)抽樣

\bullet 無樣放回抽樣--每個(gè)選中項(xiàng)立即從構(gòu)成總體的所有對(duì)象中刪除爹橱。

\bullet 有放回抽樣--對(duì)象被選中時(shí)不從總體中刪除萨螺。此方法較簡(jiǎn)單,原因是抽樣過程中,每個(gè)對(duì)象被選中的概率是不變的慰技。

在有放回抽樣中椭盏,相同的對(duì)象可能被多次抽出。當(dāng)樣本與數(shù)據(jù)集相差較小時(shí)惹盼,兩種方法結(jié)果差別不太庸汗。

2:分層抽樣

? ? ? ?當(dāng)總體由不同類型的對(duì)象組成,同時(shí)每種類型的對(duì)象差別很大時(shí)手报,簡(jiǎn)單隨機(jī)抽樣不能重返的代表不太頻繁出現(xiàn)的對(duì)象類型蚯舱,尤其是需要分析所有類型的代表時(shí),需要在樣本中適當(dāng)?shù)奶峁┫∮蓄愐源聿煌l率的抽樣掩蛤。

\bullet 等大小抽樣:每個(gè)組大小不同枉昏,但是每次抽取的對(duì)象個(gè)數(shù)相同。

\bullet 等比抽樣:每一組抽取的對(duì)象數(shù)量和該組的大小成正比揍鸟。

(二):抽樣與信息損失

? ? ? ?當(dāng)選定完抽樣技術(shù)后兄裂,就需要選擇抽樣容量。較大的樣本容量增大了樣本具有代表性的概率阳藻。相反晰奖,使用較小容量的樣本,可能出現(xiàn)特征丟失腥泥。

(三):漸進(jìn)抽樣

? ? ? ?合適的樣本容量可能很難確定匾南,因此有時(shí)需要使用自適應(yīng)或者漸進(jìn)抽樣的方法。這些方法從一個(gè)小樣本開始蛔外,然后增加樣本容量直至得到足夠容量的樣本蛆楞。該技術(shù)部需要在開始就確定正確的樣本容量,但是需要評(píng)估樣本的方法夹厌,以確定它是否滿足大豹爹。

? ? ? ?例如使用漸進(jìn)抽樣來評(píng)估一個(gè)預(yù)測(cè)模型,模型的準(zhǔn)確率隨樣本容量的增加而增加矛纹,但在某一點(diǎn)的準(zhǔn)確率的增加趨于穩(wěn)定臂聋,如果希望在穩(wěn)定點(diǎn)停止增加樣本容量,就需要掌握模型準(zhǔn)去率隨樣本逐漸增大的變化情況并通過選取接近當(dāng)前容量的其他樣本或南,從而估計(jì)出與穩(wěn)定點(diǎn)的接近程度逻住,從而停止抽樣。

三:維歸約

? ? ? ?通過創(chuàng)建新屬性迎献,將一些舊屬性合并在一起來降低數(shù)據(jù)集的維度。通過選擇舊屬性的子集得到新屬性腻贰,這種維規(guī)約稱為特征子集選擇或特征選擇吁恍。

(一):維歸納的好處

\bullet 如果維度(數(shù)據(jù)屬性的個(gè)數(shù))較低,許多數(shù)據(jù)挖掘算法的效果就會(huì)更好,一方面因?yàn)榭梢詣h除不相關(guān)的特征并降低噪聲冀瓦,另一方面是因?yàn)榫S災(zāi)難(隨數(shù)據(jù)維度的增加伴奥,數(shù)據(jù)在它所占據(jù)的空間中越來越稀疏,導(dǎo)致分析變得困難翼闽,如分類準(zhǔn)確率降低拾徙,聚類質(zhì)量下降等)。

\bullet 讓模型更加容易理解感局,因?yàn)槟P涂赡苤簧婕拜^少的屬性尼啡。

\bullet 可以更容易讓數(shù)據(jù)可視化,即使沒有將數(shù)據(jù)規(guī)約到二維或三維询微,數(shù)據(jù)也可以通過觀察屬性或?qū)θM屬性達(dá)到可視化崖瞭,并且這種組合的數(shù)目也會(huì)大大減少。

\bullet 違規(guī)約降低了數(shù)據(jù)挖掘算法的時(shí)間和內(nèi)存需求撑毛。

(二):維規(guī)約的線性代數(shù)技術(shù)

? ? ? ?將高維空間投影到低維空間书聚,特別是對(duì)于連續(xù)數(shù)據(jù)。常用的有主成分分析(PCA)藻雌,它找出新的屬性(主成分)雌续,這些屬性是原屬性的線性組合,是相互正交的胯杭,并且捕獲了數(shù)據(jù)的最大變差驯杜。奇異值分解(SVD),也常用于維規(guī)約歉摧,與PCA有關(guān)艇肴。

四:特征子集選擇

? ? ? ?降低維度的另一種方法是僅使用特征的一個(gè)子集,在冗余特征(重復(fù)包含了一個(gè)或多個(gè)其他屬性中的信息)出現(xiàn)時(shí)特別有效叁温。

? ? ? ?理想的方法是將所有可能的特征子集作為感興趣的數(shù)據(jù)挖掘算法輸入再悼,然后選取產(chǎn)生最后結(jié)果的子集。優(yōu)點(diǎn)是反應(yīng)了最終使用的數(shù)據(jù)挖掘算法的目的和偏愛膝但,但當(dāng)涉及N個(gè)屬性的自己多達(dá)2^N時(shí)冲九,這個(gè)方法行不通,需要通過其他三種標(biāo)準(zhǔn)的特征選擇方法:

\bullet 嵌入:把特征選擇的過程與分類器學(xué)習(xí)的過程融合一起跟束,在學(xué)習(xí)的過程中進(jìn)行特征選擇莺奸。常見的使用L1正則化,決策樹和支持向量機(jī)等冀宴。

\bullet 過濾:獨(dú)立于學(xué)習(xí)算法灭贷,直接由原始的特征集合求得。先對(duì)數(shù)據(jù)集進(jìn)行特征選擇略贮,排除冗余無關(guān)特征甚疟,得到特征數(shù)據(jù)集仗岖,然后對(duì)其訓(xùn)練學(xué)習(xí)器,這兩個(gè)過程是獨(dú)立的览妖。過濾式特征選擇算法會(huì)通過數(shù)據(jù)的本質(zhì)屬性對(duì)所有特征進(jìn)行相應(yīng)的評(píng)分轧拄,在評(píng)價(jià)過程中無需分類器完成,在對(duì)給出所有特征賦予相應(yīng)的評(píng)分后讽膏,選擇評(píng)分高的特征用于之后的學(xué)習(xí)算法中檩电。

? ? ?單變量過濾式:使用某種評(píng)價(jià)標(biāo)準(zhǔn)作為度量方式來確定數(shù)據(jù)集中特征對(duì)類別的區(qū)分能力。

? ? ?多變量過濾式:通過考慮特征之間的交互作用來確定特征的重要性府树。

\bullet 包裝:與學(xué)習(xí)算法有關(guān)俐末,利用學(xué)習(xí)算法的性能來評(píng)價(jià)特征子集的優(yōu)劣。在特征選擇的過程中挺尾,需要一個(gè)分類器鹅搪,根據(jù)分類器性能去衡量特征子集,分類器有決策樹遭铺,近鄰分類器丽柿,貝葉斯分類器等。

? ? ? ?過濾式算法簡(jiǎn)單高效魂挂,但是缺失與模型的交互性甫题;封裝式與模型相結(jié)合,結(jié)果精確涂召,但是易過擬合坠非;嵌入式有著兩者的優(yōu)點(diǎn),但是構(gòu)造起來比較麻煩果正。

\bullet 過濾和包裝組合式:先使用過濾進(jìn)行特征選擇炎码,去掉不相關(guān)的特征,降低特征維度秋泳;然后利用包裝進(jìn)行特征選擇潦闲。

五:特征創(chuàng)建

? ? ? ?可以由原來的屬性創(chuàng)建新的屬性集,新屬性的數(shù)量可能較少迫皱,但能更有效的捕獲數(shù)據(jù)集中的重要信息歉闰。

(一):特征提取

? ? ? ?由原始數(shù)據(jù)集創(chuàng)建新的特征集稱為特征提取,一般特征提取技術(shù)都是高度針對(duì)具體領(lǐng)域的卓起,也就是當(dāng)數(shù)據(jù)挖掘用于一個(gè)較新的領(lǐng)域時(shí)候和敬,開發(fā)新的特征和提取方法是一個(gè)關(guān)鍵的任務(wù)。

(二):映射數(shù)據(jù)到新的空間

? ? ? ?使用一種完全不同的視角挖掘數(shù)據(jù)可能揭示出重要和有趣的特征戏阅。

? ? ? ?如時(shí)間序列數(shù)據(jù)昼弟,常常包含周期模式。當(dāng)只有單個(gè)周期時(shí)奕筐,噪聲不明顯舱痘,則容易檢測(cè)到該模式蚕键;但當(dāng)有大量周期時(shí),并且存在大量噪聲時(shí)衰粹,則很難檢測(cè)這些模式,此時(shí)可以實(shí)施傅里葉變換(識(shí)別時(shí)間序列數(shù)據(jù)中的基本頻率)笆怠,將它轉(zhuǎn)換成頻率信息的表示铝耻,就能檢測(cè)到這些模式。

(三):特征構(gòu)造

? ? ? ?有時(shí)候原始數(shù)據(jù)集的特征具有必要的信息蹬刷,但其形式不適合數(shù)據(jù)挖掘算法瓢捉,這種情況下,一個(gè)或多個(gè)由原始特征構(gòu)造的新特征可能比原特征更有用办成。

六:離散化和二元化

? ? ? ?有些數(shù)據(jù)挖掘算法泡态,特別是某些分類算法,要求數(shù)據(jù)是分類屬性形式迂卢。發(fā)現(xiàn)關(guān)聯(lián)模式的算法要求數(shù)據(jù)是二元屬性形式某弦。常常需要將連續(xù)屬性變換成分類屬性(離散化),并且連續(xù)和離散屬性可能都需要變換成一個(gè)或多個(gè)二元屬性(二元化)而克。

七:變量變換

? ? ? ?變量變換(也稱屬性變換)是指用于變量的所有值變換靶壮。

參考:

1:《數(shù)據(jù)挖掘?qū)д摗?/p>

2: 特征選擇與特征子集 - 思想永不平凡

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市员萍,隨后出現(xiàn)的幾起案子腾降,更是在濱河造成了極大的恐慌,老刑警劉巖碎绎,帶你破解...
    沈念sama閱讀 217,826評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件螃壤,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡筋帖,警方通過查閱死者的電腦和手機(jī)奸晴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來幕随,“玉大人蚁滋,你說我怎么就攤上這事∽富矗” “怎么了辕录?”我有些...
    開封第一講書人閱讀 164,234評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)梢卸。 經(jīng)常有香客問我走诞,道長(zhǎng),這世上最難降的妖魔是什么蛤高? 我笑而不...
    開封第一講書人閱讀 58,562評(píng)論 1 293
  • 正文 為了忘掉前任蚣旱,我火速辦了婚禮碑幅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘塞绿。我一直安慰自己沟涨,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,611評(píng)論 6 392
  • 文/花漫 我一把揭開白布异吻。 她就那樣靜靜地躺著裹赴,像睡著了一般。 火紅的嫁衣襯著肌膚如雪诀浪。 梳的紋絲不亂的頭發(fā)上棋返,一...
    開封第一講書人閱讀 51,482評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音雷猪,去河邊找鬼睛竣。 笑死,一個(gè)胖子當(dāng)著我的面吹牛求摇,可吹牛的內(nèi)容都是我干的射沟。 我是一名探鬼主播,決...
    沈念sama閱讀 40,271評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼月帝,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼躏惋!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起嚷辅,我...
    開封第一講書人閱讀 39,166評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤簿姨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后簸搞,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體扁位,經(jīng)...
    沈念sama閱讀 45,608評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,814評(píng)論 3 336
  • 正文 我和宋清朗相戀三年趁俊,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了域仇。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,926評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡寺擂,死狀恐怖暇务,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情怔软,我是刑警寧澤垦细,帶...
    沈念sama閱讀 35,644評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站挡逼,受9級(jí)特大地震影響括改,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜家坎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,249評(píng)論 3 329
  • 文/蒙蒙 一嘱能、第九天 我趴在偏房一處隱蔽的房頂上張望吝梅。 院中可真熱鬧,春花似錦惹骂、人聲如沸苏携。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)兜叨。三九已至,卻和暖如春衩侥,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背矛物。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工茫死, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人履羞。 一個(gè)月前我還...
    沈念sama閱讀 48,063評(píng)論 3 370
  • 正文 我出身青樓峦萎,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親忆首。 傳聞我的和親對(duì)象是個(gè)殘疾皇子爱榔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,871評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容