第13章 利用PCA來簡化數(shù)據(jù)

降維的目標(biāo)就是對輸入的數(shù)目進(jìn)行削減,由此剔除數(shù)據(jù)中噪聲并提高機(jī)器學(xué)習(xí)方法的性能。本章將介紹按照數(shù)據(jù)方差最大方向調(diào)整數(shù)據(jù)的主成分分析降維方法胸蛛。

之所以要降維习绢,是因?yàn)榻稻S之后渠抹,數(shù)據(jù)更容易進(jìn)行處理,而且其相關(guān)特征可能在數(shù)據(jù)中明確地顯示出來闪萄。

本章一開始對對降維技術(shù)進(jìn)行了綜述梧却,然后集中介紹一種應(yīng)用非常普遍的稱為主成分分析的技術(shù)。最后败去,通過一個(gè)數(shù)據(jù)集的例子來展示PCA的工作過程放航。

13.1? 降維技術(shù)

對數(shù)據(jù)進(jìn)行簡化的原因:(1)使數(shù)據(jù)在大規(guī)模特征下更加容易顯示。(2)使得數(shù)據(jù)更加容易使用圆裕。(3)降低很多算法的開銷广鳍。(4)去除噪聲荆几。(5)使得結(jié)果易懂。

在已標(biāo)注和未標(biāo)注的數(shù)據(jù)上都有降維技術(shù)赊时,這里我們關(guān)注的是在未標(biāo)注數(shù)據(jù)上的降維技術(shù)吨铸,該技術(shù)同時(shí)可以應(yīng)用到已標(biāo)注的數(shù)據(jù)。

第一種降維的方法稱為主成分分析(Principal Component Analysis, PCA)祖秒。在PCA中诞吱,數(shù)據(jù)從原來的坐標(biāo)系轉(zhuǎn)換到新的坐標(biāo)系,新坐標(biāo)系的選擇是由數(shù)據(jù)本身決定的竭缝。第一個(gè)新坐標(biāo)軸選擇的是原始數(shù)據(jù)中方差最大的方向房维,第二個(gè)新坐標(biāo)軸的選擇和第一個(gè)坐標(biāo)軸正交且具有最大方差的方向。該過程一直重復(fù)歌馍,重復(fù)次數(shù)為原始數(shù)據(jù)中特征的數(shù)目握巢。此時(shí)我們會(huì)發(fā)現(xiàn),大部分方差都包含在最前面的幾個(gè)新坐標(biāo)軸中松却。因此暴浦,我們可以忽略余下的坐標(biāo)軸,即對數(shù)據(jù)進(jìn)行降維處理晓锻。

另外一種降維技術(shù)是因子分析(Factor Analysis)歌焦。在因子分析中,我們假設(shè)在觀察數(shù)據(jù)的生成中有一些觀察不到的隱變量砚哆。假設(shè)觀察數(shù)據(jù)是這些隱變量和某些噪聲的線性組合独撇。那么隱變量的數(shù)據(jù)可能比觀察數(shù)據(jù)的數(shù)目少,也就是說通過找到隱變量就可以實(shí)現(xiàn)數(shù)據(jù)的降維躁锁。

還有一種降維技術(shù)技術(shù)獨(dú)立成分分析(Independent Component Analysis, ICA)纷铣。ICA假設(shè)數(shù)據(jù)是從N個(gè)數(shù)據(jù)源生成的,這一點(diǎn)和因子分析有點(diǎn)類似战转。假設(shè)數(shù)據(jù)是多個(gè)數(shù)據(jù)源的混合觀察結(jié)果搜立,這些數(shù)據(jù)源在統(tǒng)計(jì)上是相互獨(dú)立的,而在PCA中只假設(shè)數(shù)據(jù)是不相關(guān)的槐秧。同因子分析一樣啄踊,如果數(shù)據(jù)源的數(shù)目少于觀察數(shù)據(jù)的數(shù)目,則可以實(shí)現(xiàn)降維刁标。

13.2? PCA

13.2.1? 移動(dòng)坐標(biāo)軸

通過PCA降維可以同時(shí)獲得SVM和決策樹的優(yōu)點(diǎn):(1)得到了和決策樹一樣簡單的分類器颠通,同時(shí)分類間隔和SVM一樣好。(2)只需要考慮一維信息膀懈,數(shù)據(jù)可通過比SVM簡單得多的很容易采用的規(guī)則進(jìn)行區(qū)分顿锰。

接下來,我們就可以通過代碼來實(shí)現(xiàn)PCA過程。我們曾經(jīng)提到撵儿,第一個(gè)主成分就是數(shù)據(jù)差異性最大(即方差最大)的方向提取出來的乘客,第二個(gè)主成分則來自于數(shù)據(jù)差異性次大的方向,并且該方向與第一個(gè)主成分方向正交淀歇。通過對數(shù)據(jù)集的協(xié)方差矩陣及其特征值分析易核,我們就可以求得這些主成分的值。

一旦得到協(xié)方差矩陣的特征向量浪默,我們就可以保留最大的N個(gè)值牡直。這些特征向量也給出了N個(gè)最重要特征的真實(shí)結(jié)構(gòu)。我們可以通過將數(shù)據(jù)乘上這N個(gè)特征向量而將它們轉(zhuǎn)換到新的空間纳决。

13.2.2? 在NumPython中實(shí)現(xiàn)PCA

將數(shù)據(jù)轉(zhuǎn)換成前N個(gè)主成分的偽碼大致如下:

???? 去除平均值

???? 計(jì)算協(xié)方差矩陣

???? 計(jì)算協(xié)方差矩陣的特征值和特征向量

???? 將特征值從大到小排序

???? 保留最上面的N個(gè)特征向量

???? 將數(shù)據(jù)轉(zhuǎn)換到上述N個(gè)特征向量構(gòu)建的新空間


原始數(shù)據(jù)集(三角點(diǎn))和第一主成分(圓點(diǎn))

13.3? 本章小結(jié)

降維技術(shù)使得數(shù)據(jù)變得更加容易使用碰逸,并且它們往往能夠去除數(shù)據(jù)中的噪聲,使得其他機(jī)器學(xué)習(xí)任務(wù)更加精確阔加。降維往往作為預(yù)處理步驟饵史,在數(shù)據(jù)應(yīng)用到其他算法之前清洗數(shù)據(jù)。有很多技術(shù)可以用于數(shù)據(jù)降維胜榔,在這些技術(shù)中胳喷,獨(dú)立成分分析、因子分析和主成分分析比較流行夭织,其中又以主成分分析應(yīng)用廣泛吭露。

PCA可以從數(shù)據(jù)中識(shí)別其主要特征,它是通過沿著數(shù)據(jù)最大方差方向旋轉(zhuǎn)坐標(biāo)軸來實(shí)現(xiàn)的尊惰。選擇方差最大的方向作為第一條坐標(biāo)軸讲竿,后續(xù)坐標(biāo)軸則與前面的坐標(biāo)軸正交。協(xié)方差矩陣上的特征值分析可以用一系列的正交坐標(biāo)軸來獲取弄屡。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末题禀,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子膀捷,更是在濱河造成了極大的恐慌迈嘹,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,561評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件担孔,死亡現(xiàn)場離奇詭異江锨,居然都是意外死亡吃警,警方通過查閱死者的電腦和手機(jī)糕篇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,218評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來酌心,“玉大人拌消,你說我怎么就攤上這事。” “怎么了墩崩?”我有些...
    開封第一講書人閱讀 157,162評論 0 348
  • 文/不壞的土叔 我叫張陵氓英,是天一觀的道長。 經(jīng)常有香客問我鹦筹,道長铝阐,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,470評論 1 283
  • 正文 為了忘掉前任铐拐,我火速辦了婚禮徘键,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘遍蟋。我一直安慰自己吹害,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,550評論 6 385
  • 文/花漫 我一把揭開白布虚青。 她就那樣靜靜地躺著它呀,像睡著了一般。 火紅的嫁衣襯著肌膚如雪棒厘。 梳的紋絲不亂的頭發(fā)上纵穿,一...
    開封第一講書人閱讀 49,806評論 1 290
  • 那天,我揣著相機(jī)與錄音绊谭,去河邊找鬼政恍。 笑死,一個(gè)胖子當(dāng)著我的面吹牛达传,可吹牛的內(nèi)容都是我干的篙耗。 我是一名探鬼主播,決...
    沈念sama閱讀 38,951評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼宪赶,長吁一口氣:“原來是場噩夢啊……” “哼宗弯!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起搂妻,我...
    開封第一講書人閱讀 37,712評論 0 266
  • 序言:老撾萬榮一對情侶失蹤蒙保,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后欲主,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體邓厕,經(jīng)...
    沈念sama閱讀 44,166評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,510評論 2 327
  • 正文 我和宋清朗相戀三年扁瓢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了详恼。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,643評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡引几,死狀恐怖昧互,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤敞掘,帶...
    沈念sama閱讀 34,306評論 4 330
  • 正文 年R本政府宣布叽掘,位于F島的核電站,受9級(jí)特大地震影響玖雁,放射性物質(zhì)發(fā)生泄漏更扁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,930評論 3 313
  • 文/蒙蒙 一赫冬、第九天 我趴在偏房一處隱蔽的房頂上張望疯潭。 院中可真熱鬧,春花似錦面殖、人聲如沸竖哩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,745評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽相叁。三九已至,卻和暖如春辽幌,著一層夾襖步出監(jiān)牢的瞬間增淹,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,983評論 1 266
  • 我被黑心中介騙來泰國打工乌企, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留虑润,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,351評論 2 360
  • 正文 我出身青樓加酵,卻偏偏與公主長得像拳喻,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子猪腕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,509評論 2 348

推薦閱讀更多精彩內(nèi)容