給定隨機變量x_i(i=1,...,N)構成的矢量X贺嫂,它的均值是\bar X=E(X),而\Delta X=X-\bar X,其協(xié)方差矩陣\Sigma=E(\Delta X \Delta X^T)
可知,矩陣\Sigma的對角元是單個變量x_i的方差遗嗽,而非對角元是交叉協(xié)方差。如果X的概率密度分布形如P(\bar X+\Delta X)=(2\pi)^{-N/2}det(\Sigma ^{-1})^{1/2}exp(-\Delta X^T \Sigma ^{-1}\Delta X/2)
其中\Sigma ^{-1}是半正定矩陣鼓蜒,那么痹换,變量x_i遵循一個聯(lián)合高斯分布
。均值和協(xié)方差是\bar X和 \Sigma友酱。特殊情況:\Sigma=\sigma^2I晴音,為
各向同性高斯分布
P(X)=(\sqrt {2 \pi}\sigma)^{-N}exp(-\sum(x_i-\bar x_i)^2/2\sigma^2)馬氏距離
||X-Y||=((X-Y)^T\Sigma^{-1}(X-Y))^{1/2}
可以看出,高斯概率密度函數是變量馬氏距離的函數
缔杉。理解馬氏距離
一個地區(qū)的人用兩個數據表示(身高/cm锤躁,體重/g)。了解到這個地區(qū)的數據均值是(170或详,60000)系羞。越接近這個體型的人數越多
一個人a數據是(180郭计,600100),另一個人b的數據是(175椒振,63000)昭伸。如果采用歐式距離的話,a更接近澎迎。因此推出有a身材的人更多庐杨。
但實際上,我們看來應該是b更接近平均身材夹供。所以灵份,歐式距離有問題。
解決方法引入數據方差哮洽,計算(x-\bar x)/\sigma的歐式距離
到目前填渠,大家可以理解協(xié)協(xié)方差矩陣是對角陣的馬氏距離
:距離均值越近,概率越大鸟辅。而距離與方差有關氛什。那么馬氏距離中的協(xié)方差怎么回事?
協(xié)方差矩陣\Sigma一般是對稱正定矩陣匪凉,可以寫成\Sigma=U^TDU枪眉,D=(\sigma_1^2,...,\sigma_N^2)是對角矩陣,U是正交矩陣洒缀。記X'=UX和\bar {X'}=U\bar X瑰谜,則
exp(-(X-\bar X)^T \Sigma^{-1}(X-\bar X)/2)=exp(-(X'-\bar X')^TU \Sigma^{-1}U^T(X'-\bar X')/2)=exp(-(X'-\bar X')^T D^{-1}(X'-\bar X')/2)
這樣就可以理解了:馬氏距離在另一個坐標系下是獨立變量的距離
。距離越遠树绩,概率越小。距離是\sum (\Delta x_i/\sigma_i)^2隐轩。
記住饺饭,左乘正交矩陣相當于坐標軸進行了剛體歐式運動
。歐式運動后职车,如下圖瘫俊,
上面操作的效果如下:
這樣,不同變量獨立了悴灵。協(xié)方差矩陣是對角矩陣扛芽。也可以進一步縮放,變?yōu)楦飨蛲缘母咚狗植肌?br>
總結一下:馬氏距離在另一個坐標系下協(xié)方差矩陣是對角陣的馬氏距離
积瞒。
為什么非要協(xié)方差川尖?我就要方差不行嗎?
考慮
x_1=x_2茫孔,數據冗余的情況叮喳。如果只要方差那么
x_1投了2次票被芳。通過馬氏距離,D有一個元素是0馍悟。相當于少了一票畔濒。臥槽,起到了PCA的作用
锣咒。卡方分布:\chi_n^2分布是n個獨立高斯隨機變量的平方和的分布侵状。當應用于有非奇異協(xié)方差矩陣\Sigma的高斯隨機變量v時,(v-\bar v)^T\Sigma^{-1}(v-\bar v)的值滿足\chi_n^2分布毅整。
如果協(xié)方差矩陣是\Sigma的高斯隨機變量v趣兄,那么,(v-\bar v)^T\Sigma^{+}(v-\bar v)的值滿足\chi_r^2分布毛嫉,其中r=rank(\Sigma)诽俯。