0.目錄
在統(tǒng)計學(xué)中吸耿,方差是用來度量單個隨機變量的離散程度祠锣,而協(xié)方差則一般用來刻畫兩個隨機變量的相似程度。
1.方差(Variance)
用來度量隨機變量X 與其均值E(X) 的偏離程度咽安,方差是各個樣本與樣本均值的差的平方和的均值:
其中表示樣本量伴网,符號
表示觀測樣本的均值
2.協(xié)方差(Covariance)
隨機變量的協(xié)方差
跟數(shù)學(xué)期望、方差一樣妆棒,是分布的一個總體參數(shù)澡腾。在概率論和統(tǒng)計中沸伏,協(xié)方差是對兩個隨機變量聯(lián)合分布線性相關(guān)程度的一種度量。兩個隨機變量越線性相關(guān)动分,協(xié)方差越大毅糟,完全線性無關(guān),協(xié)方差為零澜公。正相關(guān)姆另,負(fù)相關(guān)。
當(dāng)X坟乾,Y是同一個隨機變量時迹辐,X與其自身的協(xié)方差就是X的方差,可以說方差是協(xié)方差的一個特例甚侣。
由于隨機變量的取值范圍不同明吩,兩個協(xié)方差不具備可比性。如X殷费,Y印荔,Z分別是三個隨機變量,想要比較X與Y的線性相關(guān)程度強详羡,還是X與Z的線性相關(guān)程度強仍律,通過與
無法直接比較。定義相關(guān)系數(shù)
為:
通過X的方差與Y的方差var(Y)對協(xié)方差
歸一化殷绍,得到相關(guān)系數(shù)
染苛,
的取值范圍是[?1,1]。1表示完全線性相關(guān)主到,?1表示完全線性負(fù)相關(guān)茶行,0表示線性無關(guān)。線性無關(guān)并不代表完全無關(guān)登钥,更不代表相互獨立畔师。
樣本的協(xié)方差
在實際中,通常我們手頭會有一些樣本牧牢,樣本有多個屬性看锉,每個樣本可以看成一個多維隨機變量的樣本點,我們需要分析兩個維度之間的線性關(guān)系塔鳍。協(xié)方差及相關(guān)系數(shù)是度量隨機變量間線性關(guān)系的參數(shù)伯铣,由于不知道具體的分布,只能通過樣本來進行估計轮纫。設(shè)樣本對應(yīng)的多維隨機變量為腔寡,樣本集合為
掌唾。與樣本方差的計算相似放前,a和b兩個維度樣本的協(xié)方差公式為忿磅,其中
葱她。
這里分母為m?1是因為隨機變量的數(shù)學(xué)期望未知似扔,以樣本均值代替吨些,自由度減一。
3.協(xié)方差矩陣(Covariance matrix)
對多維隨機變量
虫几,我們往往需要計算各維度兩兩之間的協(xié)方差锤灿,這樣各協(xié)方差組成了一個
的矩陣挽拔,稱為協(xié)方差矩陣辆脸。協(xié)方差矩陣是個對稱矩陣,對角線上的元素是各維度上隨機變量的方差螃诅。我們定義協(xié)方差矩陣為
啡氢,這個符號與求和
相同,需要根據(jù)上下文區(qū)分术裸。矩陣內(nèi)的元素
為:
這樣這個矩陣為:
-
樣本的協(xié)方差矩陣
與上面的協(xié)方差矩陣相同倘是,只是矩陣內(nèi)各元素以樣本的協(xié)方差替換。樣本集合為袭艺。所有樣本可以表示成一個n×m的矩陣搀崭。我們
表示樣本的協(xié)方差矩陣,與
區(qū)分猾编。
公式中m 為樣本數(shù)量瘤睹,xˉ為樣本的均值,是一個列向量答倡,x?j 為第 j 個樣本轰传,也是一個列向量。
在寫程序計算樣本的協(xié)方差矩陣時瘪撇,我們通常用后一種向量形式計算获茬。一個原因是代碼更緊湊清晰,另一個原因是計算機對矩陣及向量運算有大量的優(yōu)化倔既,效率高于在代碼中計算每個元素恕曲。
需要注意的是,協(xié)方差矩陣是計算樣本不同維度之間的協(xié)方差渤涌,而不是對不同樣本計算佩谣,所以協(xié)方差矩陣的大小與維度相同。
很多時候我們只關(guān)注不同維度間的線性關(guān)系歼捏,且要求這種線性關(guān)系可以互相比較稿存。所以笨篷,在計算協(xié)方差矩陣之前,通常會對樣本進行歸一化瓣履,包括兩部分:-
率翅。即對樣本進行平移,使其重心在原點
-
袖迎,其中
是維度
的標(biāo)準(zhǔn)差冕臭。這樣消除了數(shù)值大小的影響
這樣,協(xié)方差矩陣
可以寫成:
該矩陣內(nèi)的元素具有可比性燕锥。
-