統(tǒng)計(jì)學(xué)中均值已日、標(biāo)準(zhǔn)差砚偶、方差這些概念和例子都很常見躺酒。這些數(shù)字特征不是本文要重點(diǎn)探討的可以看看這篇對于概率論數(shù)字特征的理解
- 均值描述的是樣本集合中平衡點(diǎn),因?yàn)樾畔⑹怯邢薜摹?/li>
- 標(biāo)準(zhǔn)差描述的是樣本集合中各個(gè)樣本點(diǎn)到均值之間距離的平均值
eg:[0, 8, 12, 20]和[8, 9, 11, 12]冀惭,兩個(gè)集合的均值都是10震叙,但顯然兩個(gè)集合的差別是很大的,計(jì)算兩者的標(biāo)準(zhǔn)差云头,前者是8.3后者是1.8捐友,顯然后者較為集中,故其標(biāo)準(zhǔn)差小一些溃槐,標(biāo)準(zhǔn)差描述的就是這種“散布度”匣砖。之所以除以n-1而不是n,是因?yàn)檫@樣能使我們以較小的樣本集更好地逼近總體的標(biāo)準(zhǔn)差昏滴,即統(tǒng)計(jì)上所謂的“無偏估計(jì)”猴鲫。(這個(gè)例子來源于網(wǎng)絡(luò)看到的,挺好的就引用過來谣殊,湊出均值相同)
而方差則僅僅是標(biāo)準(zhǔn)差的平方拂共。方差是協(xié)方差的一種特殊情況,即當(dāng)兩個(gè)變量是相同的情況 姻几。
引出協(xié)方差
前面的標(biāo)準(zhǔn)差宜狐,方差一般用來描述一維的,現(xiàn)實(shí)中我們遇到的大多是多維的蛇捌,這時(shí)候雖然可以每一維獨(dú)立計(jì)算出方差啥的抚恒,但信息單一,這就引出協(xié)方差络拌。
簡單地說:協(xié)方差就是這樣一種用來度量兩個(gè)隨機(jī)變量關(guān)系的統(tǒng)計(jì)量
通俗的說:兩個(gè)變量之間是否同時(shí)偏離均值俭驮。
也可以寫成和期望有關(guān):
有了上面的定義我們就看看怎么來理解
p(x,y)是x,y的二維概率分布函數(shù),顏色深淺應(yīng)該表示進(jìn)概率密度的大小春贸,p(x,y)整個(gè)區(qū)域二重積分得到1混萝,這個(gè)就是下面圓的背景知識了。下面是協(xié)方差的三種不同意義情況
當(dāng)X, Y 的聯(lián)合分布像上圖那樣時(shí)萍恕,我們可以看出:既不是X 越大Y 也越大逸嘀,也不是 X 越大 Y 反而越小,這種情況我們稱為“不相關(guān)”允粤。
怎樣將這3種相關(guān)情況厘熟,用一個(gè)簡單的數(shù)字表達(dá)出來呢屯蹦?
- 在圖中的區(qū)域(1)中,有 X>EX 绳姨,Y-EY>0 ,所以(X-EX)(Y-EY)>0阔挠;
- 在圖中的區(qū)域(2)中飘庄,有 X<EX ,Y-EY>0 购撼,所以(X-EX)(Y-EY)<0跪削;
- 在圖中的區(qū)域(3)中,有 X<EX 迂求,Y-EY<0 碾盐,所以(X-EX)(Y-EY)>0;
- 在圖中的區(qū)域(4)中揩局,有 X>EX 毫玖,Y-EY<0 ,所以(X-EX)(Y-EY)<0凌盯。
當(dāng)X 與Y ****正相關(guān)****時(shí)付枫,它們的分布大部分在區(qū)域(****1****)和(****3****)中,小部分在區(qū)域(****2****)和(****4****)中驰怎,所以平均來說阐滩,有E(X-EX)(Y-EY)>0 。
當(dāng) X與 Y負(fù)相關(guān)時(shí)县忌,它們的分布大部分在區(qū)域(2)和(4)中掂榔,小部分在區(qū)域(1)和(3)中,所以平均來說症杏,有(X-EX)(Y-EY)<0 装获。
當(dāng) X與 Y不相關(guān)時(shí),它們在區(qū)域(1)和(3)中的分布鸳慈,與在區(qū)域(2)和(4)中的分布幾乎一樣多饱溢,所以平均來說,有(X-EX)(Y-EY)=0** 走芋。
所以绩郎,我們可以定義一個(gè)表示X, Y 相互關(guān)系的數(shù)字特征,也就是協(xié)方差
cov(X, Y) = E(X-EX)(Y-EY)翁逞。
- 當(dāng) cov(X, Y)>0時(shí)肋杖,表明** X與Y **正相關(guān);
- **當(dāng) cov(X, Y)<0時(shí)挖函,表明X與Y負(fù)相關(guān)状植;
- **當(dāng) ****cov(X, Y)=0****時(shí),表明X與Y不相關(guān)。
相關(guān)系數(shù)
如果X 與Y 是統(tǒng)計(jì)獨(dú)立的津畸,那么二者之間的協(xié)方差就是0振定,這是因?yàn)?/p>
但是反過來并不成立,即如果X 與Y 的協(xié)方差為0肉拓,二者并不一定是統(tǒng)計(jì)獨(dú)立的后频。
取決于協(xié)方差的相關(guān)性η
相關(guān)系數(shù)也可以看成協(xié)方差:一種剔除了兩個(gè)變量量綱影響、標(biāo)準(zhǔn)化后的特殊協(xié)方差暖途,它消除了兩個(gè)變量變化幅度的影響卑惜,而只是單純反應(yīng)兩個(gè)變量每單位變化時(shí)的相似程度。
協(xié)方差表示線性相關(guān)的方向驻售,相關(guān)系數(shù)不僅表示線性相關(guān)的方向露久,還表示線性相關(guān)的程度,取值[-1,1]欺栗。
協(xié)方差矩陣
協(xié)方差解決的也只是二維的問題毫痕,那么繼續(xù)維數(shù)上升呢,就要計(jì)算多個(gè)協(xié)方差纸巷,這個(gè)道理很好懂镇草。
協(xié)方差矩陣是一個(gè)對稱的矩陣,而且對角線是各個(gè)維度上的方瘤旨,對于機(jī)器學(xué)習(xí)領(lǐng)域的PCA來說梯啤,如果遇到的矩陣不是方陣,需要計(jì)算他的協(xié)方差矩陣來進(jìn)行下一步計(jì)算存哲,因?yàn)閰f(xié)方差矩陣一定是方陣因宇,而特征值分解針對的必須是方陣,SVD針對的可以是非方陣情況祟偷。
協(xié)方差矩陣在主成分分析中主成分分析有關(guān)鍵作用察滑。主成分分析就是把協(xié)方差矩陣做一個(gè)奇異值分解,求出最大的奇異值的特征方向修肠。
協(xié)方差矩陣計(jì)算的是不同維度之間的協(xié)方差贺辰,而不是不同樣本之間的,這點(diǎn)要記牢了嵌施。
剩下可以參考下:
[轉(zhuǎn)]淺談協(xié)方差矩陣
[線性代數(shù)] 如何求協(xié)方差矩陣
詳解協(xié)方差與協(xié)方差矩陣
另外饲化,我不是數(shù)學(xué)專業(yè)對這方面沒有過多研究,現(xiàn)階段只是簡單明白吗伤,在學(xué)習(xí)過程中會把好的精彩干練的整合起來吃靠,方便復(fù)習(xí),就醬紫了足淆,咱們可以發(fā)郵件討論巢块,博客下面就是地址了礁阁。