機器學習算法學習-PCA主成分分析

1.算法

前面講了復雜冗長的SVM慷丽、Logistics、BP纪吮,現(xiàn)在我們講一個簡單易懂的降維算法PCA俩檬,也是最廣為人知的算法,需要一點簡單的線性代數(shù)基礎(chǔ)碾盟,具體看文末鏈接棚辽,已經(jīng)講得非常詳細了。

其實用一張圖就能很好的理解該算法冰肴。下圖中屈藐,紅色的樣本特征點分布在原本 (x1,x2) 構(gòu)成的特征空間中,我們的目的就是將這些特征點變換到 (y1,y2) 構(gòu)成的特征空間嚼沿,使得估盘,特征點在y1方向上的協(xié)方差最小,也就是“分布最分散”骡尽,在y1方向上的信息最豐富遣妥,最能夠區(qū)分不同特征點,這樣我們可以舍棄y2方向上的信息攀细,就達到了降維的目的箫踩。

將一組 N 維向量降為 K 維爱态,其目標是選擇 K 個單位正交基,使得原始數(shù)據(jù)變換到這組基上后境钟,各變量兩兩間協(xié)方差為 0(線性不相關(guān))锦担,而變量方差則盡可能大(在正交的約束下,取最大的 K 個方差)慨削。


事實上這個算法計算過程是非常清晰的洞渔,如果你使用python的numpy科學包,或者使用matlab缚态,以上算法步驟大概幾行就可以完成磁椒。

2.性質(zhì)

緩解維度災難:PCA 算法通過舍去一部分信息之后能使得樣本的采樣密度增大(因為維數(shù)降低了),這是緩解維度災難的重要手段玫芦;

降噪:當數(shù)據(jù)受到噪聲影響時浆熔,最小特征值對應的特征向量往往與噪聲有關(guān),將它們舍棄能在一定程度上起到降噪的效果桥帆;

過擬合:PCA 保留了主要信息医增,但這個主要信息只是針對訓練集的,而且這個主要信息未必是重要信息老虫。有可能舍棄了一些看似無用的信息叶骨,但是這些看似無用的信息恰好是重要信息,只是在訓練集上沒有很大的表現(xiàn)祈匙,所以 PCA 也可能加劇了過擬合邓萨;

特征獨立:PCA 不僅將數(shù)據(jù)壓縮到低維,它也使得降維之后的數(shù)據(jù)各特征相互獨立菊卷;

3.細節(jié)

3.1零均值化

當對訓練集進行 PCA 降維時,也需要對驗證集宝剖、測試集執(zhí)行同樣的降維洁闰。而對驗證集、測試集執(zhí)行零均值化操作時万细,均值必須從訓練集計算而來扑眉,不能使用驗證集或者測試集的中心向量。

其原因也很簡單赖钞,因為我們的訓練集時可觀測到的數(shù)據(jù)腰素,測試集不可觀測所以不會知道其均值,而驗證集再大部分情況下是在處理完數(shù)據(jù)后再從訓練集中分離出來雪营,一般不會單獨處理弓千。如果真的是單獨處理了,不能獨自求均值的原因是和測試集一樣献起。

另外我們也需要保證一致性洋访,我們拿訓練集訓練出來的模型用來預測測試集的前提假設(shè)就是兩者是獨立同分布的镣陕,如果不能保證一致性的話,會出現(xiàn) Variance Shift 的問題姻政。

3.2 與 SVD 的對比

這是兩個不同的數(shù)學定義呆抑。我們先給結(jié)論:特征值和特征向量是針對方陣才有的,而對任意形狀的矩陣都可以做奇異值分解汁展。


鏈接

【機器學習】降維——PCA(非常詳細) - 知乎

https://zhuanlan.zhihu.com/p/77151308

如何理解協(xié)方差協(xié)方差

https://blog.csdn.net/Du_Shuang/article/details/82083270

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鹊碍,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子食绿,更是在濱河造成了極大的恐慌侈咕,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,252評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件炫欺,死亡現(xiàn)場離奇詭異乎完,居然都是意外死亡,警方通過查閱死者的電腦和手機品洛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評論 3 399
  • 文/潘曉璐 我一進店門树姨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人桥状,你說我怎么就攤上這事帽揪。” “怎么了辅斟?”我有些...
    開封第一講書人閱讀 168,814評論 0 361
  • 文/不壞的土叔 我叫張陵转晰,是天一觀的道長。 經(jīng)常有香客問我士飒,道長查邢,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,869評論 1 299
  • 正文 為了忘掉前任酵幕,我火速辦了婚禮扰藕,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘芳撒。我一直安慰自己邓深,他們只是感情好,可當我...
    茶點故事閱讀 68,888評論 6 398
  • 文/花漫 我一把揭開白布笔刹。 她就那樣靜靜地躺著芥备,像睡著了一般。 火紅的嫁衣襯著肌膚如雪舌菜。 梳的紋絲不亂的頭發(fā)上萌壳,一...
    開封第一講書人閱讀 52,475評論 1 312
  • 那天,我揣著相機與錄音,去河邊找鬼讶凉。 笑死染乌,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的懂讯。 我是一名探鬼主播荷憋,決...
    沈念sama閱讀 41,010評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼褐望!你這毒婦竟也來了勒庄?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,924評論 0 277
  • 序言:老撾萬榮一對情侶失蹤瘫里,失蹤者是張志新(化名)和其女友劉穎实蔽,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體谨读,經(jīng)...
    沈念sama閱讀 46,469評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡局装,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,552評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了劳殖。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片铐尚。...
    茶點故事閱讀 40,680評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖哆姻,靈堂內(nèi)的尸體忽然破棺而出宣增,到底是詐尸還是另有隱情,我是刑警寧澤矛缨,帶...
    沈念sama閱讀 36,362評論 5 351
  • 正文 年R本政府宣布爹脾,位于F島的核電站,受9級特大地震影響箕昭,放射性物質(zhì)發(fā)生泄漏灵妨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,037評論 3 335
  • 文/蒙蒙 一落竹、第九天 我趴在偏房一處隱蔽的房頂上張望闷串。 院中可真熱鬧,春花似錦筋量、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至锈津,卻和暖如春呀酸,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背琼梆。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評論 1 274
  • 我被黑心中介騙來泰國打工性誉, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留窿吩,地道東北人。 一個月前我還...
    沈念sama閱讀 49,099評論 3 378
  • 正文 我出身青樓错览,卻偏偏與公主長得像纫雁,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子倾哺,可洞房花燭夜當晚...
    茶點故事閱讀 45,691評論 2 361

推薦閱讀更多精彩內(nèi)容