在本文中蔬螟,我們通過探索線性變換與結(jié)果數(shù)據(jù)協(xié)方差之間的關(guān)系,提供協(xié)方差直觀铁孵、幾何解釋锭硼。絕大部分教科書是基于協(xié)方差的矩陣概念來解釋數(shù)據(jù)的形狀。相反蜕劝,我們采用向后的方法檀头,用數(shù)據(jù)的形狀來解釋協(xié)方差矩陣的概念。
在之前的文章中岖沛,我們討論了方差的概念暑始,同時(shí)證明了樣本方差。圖一為標(biāo)準(zhǔn)差婴削,標(biāo)準(zhǔn)差提供了一種衡量數(shù)據(jù)在特征空間的分布程度廊镜。
圖一.高斯密度函數(shù)。對(duì)于正態(tài)分布的數(shù)據(jù)唉俗,68%的向本都分布在平均值正負(fù)標(biāo)準(zhǔn)差的區(qū)間內(nèi)嗤朴。
我們知道無偏估計(jì)的樣本方差公式可以通過如下方式獲得:但是配椭,方差只能用于解釋數(shù)據(jù)在平行于特征空間軸上的擴(kuò)展。參考圖二中的二維特征空間:
圖二.對(duì)角線式的數(shù)據(jù)能通過協(xié)方差根號(hào)解釋雹姊。
對(duì)于這個(gè)數(shù)據(jù)股缸,我們可以用x軸方向計(jì)算出方差σ(x,x),用y軸方向計(jì)算出方差σ(y,y)吱雏。然而敦姻,數(shù)據(jù)的水平擴(kuò)展和垂直擴(kuò)展不能清晰解釋對(duì)角線上的相關(guān)性。圖二清晰表明坎背,整體而言替劈,如果數(shù)據(jù)點(diǎn)x值增加,那么y值也增加得滤,他們之間是正相關(guān)的陨献。我們將方差的概念擴(kuò)展為協(xié)方差時(shí),就能更好地解釋這種相關(guān)性懂更。
對(duì)于二維的數(shù)據(jù)眨业,我們可以得到σ(x,x),σ(y,y)沮协,σ(x,y)龄捡,σ(y,x)。這四個(gè)值可以匯總成一個(gè)矩陣慷暂,稱為協(xié)方差矩陣:如果x正相關(guān)與y聘殖,那么y也同樣正相關(guān)與x;換句話說行瑞,σ(x,y)=σ(y,x)奸腺。因此,協(xié)方差矩陣通常都是一個(gè)對(duì)稱矩陣血久,其對(duì)角線上為方差突照,非對(duì)角線上為協(xié)方差。二維正態(tài)分布的數(shù)據(jù)完全由其均值和2x2的協(xié)方差矩陣解釋氧吐。同樣讹蘑,3x3的協(xié)方差矩陣用來解釋三維空間上的數(shù)據(jù),NxN的協(xié)方差矩陣用來解釋N維的空間數(shù)據(jù)筑舅。
圖三說明了數(shù)據(jù)的整體形狀和協(xié)方差矩陣之間的關(guān)系
圖三.協(xié)方差矩陣與數(shù)據(jù)形狀之間的關(guān)系座慰。對(duì)角線用協(xié)方差解釋,坐標(biāo)軸方向用方差解釋豁翎。
協(xié)方差矩陣的特征值特點(diǎn)
在下一節(jié)中角骤,我們將討論如何將協(xié)方差矩陣解釋為將白數(shù)據(jù)轉(zhuǎn)換為我們能夠觀察數(shù)據(jù)的線性算子。在深入研究技術(shù)細(xì)節(jié)之前心剥,重要的是要去直觀地了解特征向量和特征值如何去唯一地定義協(xié)方差矩陣邦尊,從而確定數(shù)據(jù)的形狀。
正如圖三所示优烧,協(xié)方差矩陣同時(shí)定義了我們數(shù)據(jù)的大胁踝帷(方差量)和方向(協(xié)方差量)。所以畦娄,如果我們想用一個(gè)向量及其大小來表示協(xié)方差矩陣又沾,我們應(yīng)該簡(jiǎn)單嘗試找到數(shù)據(jù)最大的擴(kuò)展方向,其大小等于在此方向上的(方差)熙卡。
【注:翻譯得不怎么好杖刷。我傾向于采用PCA的理解:找到最大的投影方差以表示整個(gè)投影矩陣】
換句話說,協(xié)方差最大的特征向量永遠(yuǎn)指向能夠使得投影方差最大的方向驳癌,其方向向量大小剛好等于對(duì)應(yīng)的特征值滑燃。第二大的特征向量總是與第一大特征向量正交,并指向數(shù)據(jù)第二大擴(kuò)展方向颓鲜。
【注:事實(shí)上表窘,我對(duì)這個(gè)方差表示不熟悉,只能推出其值與特征值相同甜滨,但是其是否是最大存疑乐严。】
下面我們將舉例說明:
如果協(xié)方差矩陣是對(duì)角矩陣衣摩,即協(xié)方差全為0昂验,這就意味著常查等于特征值λ。如圖四 艾扮,其中特征向量用綠色和品紅區(qū)分既琴,可以明顯看出特征值等于協(xié)方差矩陣的方差分量。然而栏渺,如果協(xié)方差矩陣不是對(duì)角矩陣呛梆,情況就會(huì)變得復(fù)雜一些。特征值依然表示在最大擴(kuò)展方向上的方差幅度磕诊,同時(shí)填物,協(xié)方差的方差分量依然表示數(shù)據(jù)關(guān)于x軸和y軸的方差幅度大小。因?yàn)檫@些數(shù)據(jù)不再是軸對(duì)稱的霎终,所以這些值不再相同滞磺。通過比較圖四和圖五,特征值表示數(shù)據(jù)隨特征向量方向的方差莱褒,同時(shí)击困,協(xié)方差的方差分量表示沿著坐標(biāo)軸的擴(kuò)散。如果不存在相關(guān)性,那么兩個(gè)值都應(yīng)該相等阅茶。
原文:A geometric interpretation of the covariance matrix