吳恩達(dá)機(jī)器學(xué)習(xí)—降維

目標(biāo):數(shù)據(jù)壓縮

如果數(shù)據(jù)特征過多,可能會(huì)產(chǎn)生冗余,你也會(huì)不太清楚自己到底有哪些特征嫂冻,需要哪些特征。

數(shù)據(jù)壓縮2D-1D

建立一條線塞椎,使每個(gè)點(diǎn)都投射到這條線上桨仿,然后建立新的特征z_{1} .

數(shù)據(jù)壓縮3D-2D

將3維數(shù)據(jù)投影到一個(gè)平面上,就得到了二維數(shù)據(jù)點(diǎn)案狠。然后用一個(gè)二維數(shù)據(jù)z_{i} \in R^2來(lái)表示服傍。

目標(biāo)二:數(shù)據(jù)可視化

多維數(shù)據(jù)
將多維數(shù)據(jù)轉(zhuǎn)化為2維數(shù)據(jù)

多維數(shù)據(jù)可視化困難钱雷,轉(zhuǎn)化成二維數(shù)據(jù)便于可視化,二維數(shù)據(jù)的坐標(biāo)可能沒有準(zhǔn)確的物理意義

二維數(shù)據(jù)可視化

主成分分析—PCA

數(shù)據(jù)降維最常用的方法就是PCA算法:PCA算法建立一個(gè)低維平面吹零,如下圖紅色線罩抗,然后將數(shù)據(jù)點(diǎn)投影在這個(gè)平面上,使投影誤差最小灿椅。在進(jìn)行PCA算法之前,首先要進(jìn)行均值歸一化和特征規(guī)范化茫蛹,使特征均值為0,且在可比較的范圍內(nèi)婴洼。

投影平面的選擇

由上圖可以看出,紅色的線比紫色的線投影誤差較小柬采,更適合作為投影平面。

PCA的正規(guī)表示

對(duì)于2D-1D礁遣,相當(dāng)于找到一個(gè)向量,將點(diǎn)投影到該向量上亡脸,使得投影誤差最小浅碾;對(duì)于高維數(shù)據(jù),相當(dāng)于找到多個(gè)向量垂谢。

PCA與線性回歸

上面左圖是線性回歸疮茄,右圖是PCA滥朱,兩圖計(jì)算距離的方式不同:線性回歸是計(jì)算每個(gè)x對(duì)應(yīng)的實(shí)際y值與擬合線的距離,因此力试,在計(jì)算距離的時(shí)候徙邻,距離線的方向是垂直于x軸的,表示同一個(gè)x對(duì)應(yīng)的距離差畸裳。而PCA計(jì)算的是點(diǎn)到線的投影距離缰犁,是點(diǎn)到線的最短距離,即正交距離。另一方面帅容,線性回歸中是給定x的值預(yù)測(cè)y,而在PCA中颇象,每一個(gè)x值擁有相同的權(quán)重。

均值歸一化

在數(shù)據(jù)處理時(shí)并徘,首先進(jìn)行均值歸一化:求出所有數(shù)據(jù)點(diǎn)的均值遣钳,再用每一個(gè)數(shù)據(jù)減去均值,得到歸一化的樣本點(diǎn)麦乞,使數(shù)據(jù)都處于可比較的范圍內(nèi)蕴茴。

數(shù)據(jù)投影

在進(jìn)行降維的時(shí)候,要找到合適的一個(gè)或多個(gè)向量進(jìn)行投影姐直,那么這些向量是如何得到的呢荐开?

將N-維數(shù)據(jù)降維k維數(shù)據(jù)

首先建立一個(gè)相關(guān)系數(shù)矩陣,這里的\Sigma 表示的是相關(guān)系數(shù)矩陣简肴,他是一個(gè)n*n的矩陣,對(duì)矩陣進(jìn)行SVD計(jì)算百侧,即奇異值分解砰识,求得一個(gè)N*N的矩陣U,則根據(jù)需要佣渴,取U的前k列向量作為我們的投影向量辫狼。

降維計(jì)算

得到k個(gè)向量以后,轉(zhuǎn)置得到k*n的矩陣辛润,與樣本X的N*N的矩陣相乘膨处,得到k*1新的矩陣,則投影完畢真椿。

PCA算法總流程

總的來(lái)說(shuō)突硝,PCA算法如下:先進(jìn)行特征縮放解恰,然后計(jì)算sigma函數(shù)求得一個(gè)n*n的矩陣浙于;對(duì)求出的矩陣進(jìn)行SVD分解羞酗,取前k個(gè)向量作為投影向量Ureduce;轉(zhuǎn)置的投影矩陣右乘樣本x完成降維围苫。

主成分?jǐn)?shù)量的選擇

主成分?jǐn)?shù)量的選擇

計(jì)算兩個(gè)指標(biāo)剂府,Average squared projection error和Total variation in the data腺占,然后根據(jù)上述公式計(jì)算指標(biāo)痒谴,選擇對(duì)應(yīng)最小指標(biāo)的向量個(gè)數(shù)k.99%通常表示新形成的特征保留了原有數(shù)據(jù)99%的信息积蔚。x_{approx} 指將映射后的數(shù)據(jù)壓縮重現(xiàn)后得到的近似值意鲸,壓縮重現(xiàn)方法見后文怎顾。

K的選擇

進(jìn)行向量數(shù)目選擇的時(shí)候槐雾,首先設(shè)定一個(gè)k值募强,然后計(jì)算指標(biāo)擎值,然后改變k值在計(jì)算一次幅恋,選擇指標(biāo)最小的k的數(shù)目泵肄。在實(shí)際計(jì)算中有較為簡(jiǎn)便的方法:SVD分解的時(shí)候求得的S是一個(gè)對(duì)角陣腐巢,通過對(duì)角陣上的數(shù)據(jù)計(jì)算指標(biāo),這樣就不用重復(fù)設(shè)置k值進(jìn)行計(jì)算和比較肉瓦,只用根據(jù)s矩陣進(jìn)行計(jì)算即可。

k選擇的流程

先進(jìn)行SVD分解哪雕,然后根據(jù)S矩陣計(jì)算指標(biāo)斯嚎,然后進(jìn)行選擇挨厚。

壓縮重現(xiàn)

在之前的計(jì)算中都是對(duì)數(shù)據(jù)進(jìn)行壓縮降維疫剃,那么壓縮的數(shù)據(jù)怎么還原成原來(lái)的高維數(shù)據(jù)呢?

數(shù)據(jù)壓縮重現(xiàn)

PCA的使用建議

監(jiān)督學(xué)習(xí)的降維

在有標(biāo)簽的數(shù)據(jù)中,可以先忽略標(biāo)簽壤躲,對(duì)樣本進(jìn)行PCA計(jì)算,先對(duì)樣本進(jìn)行特征縮放和均值歸一化處理,然后求sigma函數(shù)和SVD分解棉胀,找到投影向量冀膝,根據(jù)投影向量求得新的特征向量窝剖。但是PCA這一過程即特征選擇必須在訓(xùn)練集上進(jìn)行,求得的投影向量可以用于驗(yàn)證集和測(cè)試集脊奋。上例中诚隙,我們假設(shè)將10000維的數(shù)據(jù)降到了1000維久又,這其實(shí)是不切實(shí)際的,通常降維處理只能將數(shù)據(jù)維度降維1/5或1/10炉峰,保留大部分的方差從而幾乎不影響性能疼阔,如分類精度和準(zhǔn)確度适瓦。

PCA的應(yīng)用

PCA可以壓縮數(shù)據(jù)玻熙,從而可以降低數(shù)據(jù)占據(jù)的存儲(chǔ)空間嗦随,提高學(xué)習(xí)算法的效率,這一過程通過根據(jù)信息保留指標(biāo)的大小來(lái)選擇合適的k值來(lái)實(shí)現(xiàn)贴浙,通常指標(biāo)大小為99%崎溃。另一方面盯质,PCA可以幫助實(shí)現(xiàn)可視化呼巷,將數(shù)據(jù)講到2維或3維王悍。

不能用PCA來(lái)防止過擬合

PCA算法不能用來(lái)防止過擬合压储!因?yàn)镻CA在進(jìn)行降維的時(shí)候只考慮到了輸入x的信息,而不管對(duì)應(yīng)的標(biāo)簽y,在進(jìn)行降維時(shí)會(huì)丟失很多信息宇整。即使其信息保留程度達(dá)到了99%鳞青,其效果也不會(huì)比正則化防止過擬合更好。

PCA的使用誤區(qū)

PCA在適當(dāng)?shù)臅r(shí)候使用是很有效的厚脉,但是胶惰,在建立學(xué)習(xí)系統(tǒng)之前,不要急著使用PCA中捆,現(xiàn)在原始數(shù)據(jù)上進(jìn)行試驗(yàn)泄伪,除非你真的確定進(jìn)行不下去或者計(jì)算太復(fù)雜蟋滴,存儲(chǔ)空間不夠的情況下津函,在使用PCA孤页,很多情況下直接使用原始數(shù)據(jù)效果可能更好行施。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末悲龟,一起剝皮案震驚了整個(gè)濱河市须教,隨后出現(xiàn)的幾起案子轻腺,更是在濱河造成了極大的恐慌贬养,老刑警劉巖琴庵,帶你破解...
    沈念sama閱讀 216,591評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異咖杂,居然都是意外死亡诉字,警方通過查閱死者的電腦和手機(jī)壤圃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門伍绳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)墨叛,“玉大人模蜡,你說(shuō)我怎么就攤上這事〈炒” “怎么了甥绿?”我有些...
    開封第一講書人閱讀 162,823評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵共缕,是天一觀的道長(zhǎng)图谷。 經(jīng)常有香客問我阱洪,道長(zhǎng)冗荸,這世上最難降的妖魔是什么蚌本? 我笑而不...
    開封第一講書人閱讀 58,204評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮出嘹,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘咬崔。我一直安慰自己税稼,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,228評(píng)論 6 388
  • 文/花漫 我一把揭開白布垮斯。 她就那樣靜靜地躺著郎仆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪兜蠕。 梳的紋絲不亂的頭發(fā)上扰肌,一...
    開封第一講書人閱讀 51,190評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音熊杨,去河邊找鬼曙旭。 笑死,一個(gè)胖子當(dāng)著我的面吹牛剂习,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,078評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼烘苹!你這毒婦竟也來(lái)了霜定?” 一聲冷哼從身側(cè)響起辖所,我...
    開封第一講書人閱讀 38,923評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤酥宴,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體诚啃,經(jīng)...
    沈念sama閱讀 45,334評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡极阅,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,550評(píng)論 2 333
  • 正文 我和宋清朗相戀三年奔脐,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,727評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡尺铣,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出店溢,到底是詐尸還是另有隱情福澡,我是刑警寧澤,帶...
    沈念sama閱讀 35,428評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏肮街。R本人自食惡果不足惜眼刃,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,022評(píng)論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望赴恨。 院中可真熱鬧,春花似錦惑淳、人聲如沸肚医。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)涯肩。三九已至硫朦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間瀑梗,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工谤职, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人仔引。 一個(gè)月前我還...
    沈念sama閱讀 47,734評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像呜笑,于是被迫代替她去往敵國(guó)和親微谓。 傳聞我的和親對(duì)象是個(gè)殘疾皇子仲智,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,619評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容