主成分分析(PCA)

1. PCA:principal Component Analysis

  • 用途:降維中最常用的一種手段
  • 目標(biāo):提取最有價(jià)值的信息(基于方差)
    • 方差最大化,使得所有的樣本點(diǎn)盡可能的分開儡毕。
  • 問題:降維后的數(shù)據(jù)的意義缘挑?
    • 原來的數(shù)據(jù)都是有實(shí)際意義的螟左,降維之后表達(dá)的什么意思就不知道了潮饱。但是我們最終是要拿一個(gè)結(jié)果,所以中間的過程也不是很重要太示。

  • 向量的表示及基的變換

    • 內(nèi)積:用坐標(biāo)表示向量
      內(nèi)積公式
      • 解釋:設(shè)B向量的模長為1攒钳,則A與B的內(nèi)積值等于A像B所在直線投影的矢量長度帮孔。
        image.png
    • 向量可以表示為(3,2)實(shí)際上表示線性組合:x(1,0)'+y(0,1)'。(.)'表示轉(zhuǎn)置不撑。
    • 基:(1,0)和(0,1)叫做二維空間的一組基文兢。
      • 基是正交的(內(nèi)積為0,互相垂直)焕檬,最好是單位向量
      • 要求:線性無關(guān)禽作。
    • 基變換:
      • 數(shù)據(jù)與一個(gè)基做內(nèi)積運(yùn)算,結(jié)果作為第一個(gè)新的坐標(biāo)分量揩页,然后與第二個(gè)基做內(nèi)積運(yùn)算旷偿,結(jié)果作為第二個(gè)新坐標(biāo)的分量烹俗。
        image.png
      • 兩個(gè)矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去。
        image.png
    • 如何找到最合適的基呢萍程?
    • 協(xié)方差矩陣
      • 方向:如何選擇這個(gè)方向(基)才能盡量保留最多的原始信息呢幢妄?一種直觀的看法是:希望投影后的投影值盡可能分散
      • 方差:公式
        方差
      • 尋找一個(gè)一維基,使得所有數(shù)據(jù)變換為這個(gè)基上的坐標(biāo)表示后茫负,方差值最大蕉鸳。
      • 協(xié)方差:表示兩個(gè)向量之間的關(guān)系
        • 公式為:
          image.png
        • 數(shù)據(jù)已經(jīng)做了均值為0的中心化,因此忍法,協(xié)方差的公式可以寫成:
          image.png
        • 如果單純只選擇方差最大的方向潮尝,后續(xù)的方向應(yīng)該會和方差最大的方向接近重合(線性相關(guān))。線性相關(guān)不利于我們的建模饿序。
        • 解決方案:為了讓兩個(gè)字段盡可能表示更多的原始信息勉失,我們是不希望它們之間存在(線性)相關(guān)性的。
        • 協(xié)方差:可以用兩個(gè)字段的協(xié)方差表示其相關(guān)性
        • 當(dāng)協(xié)方差為0時(shí)原探,表示兩個(gè)字段完全獨(dú)立乱凿。為了讓協(xié)方差為0.選擇第二個(gè)基時(shí)能與第一個(gè)基正交的方向上選擇。因此最終選擇的兩個(gè)方向一定是正交的咽弦。
    • 優(yōu)化目標(biāo):
      • 將一組N維向量降為K維徒蟆,(0<K<N),目標(biāo)是選擇K個(gè)單位正交基型型,使得原始數(shù)據(jù)變換到這組基上后段审,各字段兩兩間的協(xié)方差為0,字段的方差都盡可能大闹蒜。
      • 協(xié)方差矩陣:矩陣對角線上的兩個(gè)元素分別是兩個(gè)字段的方差戚哎,而其他元素是a和b的協(xié)方差。
        image.png
      • 協(xié)方差矩陣對角化:除對角線外的其他元素化為0嫂用,并且在對角線上將元素按大小從上到下排列。
      • 實(shí)對稱矩陣:一個(gè)n行n列的實(shí)對稱矩陣一定可以找到n個(gè)單位正交特征向量丈冬。
        實(shí)對稱矩陣一定可進(jìn)行對角化
      • 根據(jù)特征值的從大到小嘱函,將特征向量從上到下排列,再用前K行組成的矩陣乘以原始數(shù)據(jù)矩陣X埂蕊,就得到我們需要的降維后的數(shù)據(jù)矩陣Y往弓。
  • PCA實(shí)例

    • 數(shù)據(jù):
      數(shù)據(jù)
    • 協(xié)方差矩陣:
      協(xié)方差矩陣
    • 特征值:\lambda1=2,\lambda2=2/5
    • 特征向量:
      特征向量
      特征向量
    • 對角化:
      對角化
    • 降維:
      降維

2. 線性代數(shù)知識:

  • 特征值與特征向量:
    1. 定義
      設(shè)A為n階矩陣,如果存在一個(gè)數(shù) \lambda 及非零的n維列向量\alpha使得A\alpha=\lambda\alpha成立蓄氧,則稱\lambda是矩陣A的一個(gè)特征值函似,稱非零向量\alpha是矩陣A屬于\lambda的一個(gè)特征向量。
    2. 求特征值和特征向量


      IMG_20181201_200730.jpg
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末喉童,一起剝皮案震驚了整個(gè)濱河市撇寞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖蔑担,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件牌废,死亡現(xiàn)場離奇詭異,居然都是意外死亡啤握,警方通過查閱死者的電腦和手機(jī)鸟缕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來排抬,“玉大人懂从,你說我怎么就攤上這事《灼眩” “怎么了番甩?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長悠鞍。 經(jīng)常有香客問我对室,道長,這世上最難降的妖魔是什么咖祭? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任掩宜,我火速辦了婚禮,結(jié)果婚禮上么翰,老公的妹妹穿的比我還像新娘牺汤。我一直安慰自己,他們只是感情好浩嫌,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布檐迟。 她就那樣靜靜地躺著,像睡著了一般码耐。 火紅的嫁衣襯著肌膚如雪追迟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天骚腥,我揣著相機(jī)與錄音敦间,去河邊找鬼。 笑死束铭,一個(gè)胖子當(dāng)著我的面吹牛廓块,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播契沫,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼带猴,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了懈万?” 一聲冷哼從身側(cè)響起拴清,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤靶病,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后贷掖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嫡秕,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年苹威,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了昆咽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,650評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡牙甫,死狀恐怖掷酗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情窟哺,我是刑警寧澤泻轰,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站且轨,受9級特大地震影響浮声,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜旋奢,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一泳挥、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧至朗,春花似錦屉符、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至嫌变,卻和暖如春吨艇,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背腾啥。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工东涡, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人碑宴。 一個(gè)月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像桑谍,于是被迫代替她去往敵國和親延柠。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容

  • 前言 PCA是一種無參數(shù)的數(shù)據(jù)降維方法锣披,在機(jī)器學(xué)習(xí)中很常用贞间,這篇文章主要從三個(gè)角度來說明PCA是怎么降維的分別是方...
    WZFish0408閱讀 51,447評論 6 36
  • 主成分分析(PCA)是現(xiàn)代數(shù)據(jù)分析的主要方法之一贿条,它被廣泛使用但其內(nèi)在機(jī)制仍不為太多人理解。這篇文章的主旨就是厘清...
    uglybachelor閱讀 3,022評論 0 11
  • 一增热、前言 在許多領(lǐng)域的研究與應(yīng)用中整以,往往需要對反映事物的多個(gè)變量進(jìn)行大量的觀測,收集大量數(shù)據(jù)以便進(jìn)行分析尋找規(guī)律峻仇。...
    owolf閱讀 2,688評論 0 3
  • 一公黑、理論篇: 為書寫方便,加粗的字母表示向量摄咆。 如果想像力夠好凡蚜,完全可以想象出兩個(gè)矩陣相乘的幾何意義:將右邊矩陣中...
    付劍飛閱讀 1,523評論 0 2
  • 經(jīng)過兩天的掙扎,在淺薄的線性代數(shù)知識基礎(chǔ)上吭从,嘗試著理解了一下主成分分析法朝蜘。 一 算法流程 求樣本x(i)的n'的主...
    A黃橙橙閱讀 23,739評論 1 4