M-方差塞颁、協(xié)方差、協(xié)方差矩陣

0.目錄


在統(tǒng)計學(xué)中吸耿,方差是用來度量單個隨機變量的離散程度祠锣,而協(xié)方差則一般用來刻畫兩個隨機變量的相似程度。

1.方差(Variance)

用來度量隨機變量X 與其均值E(X) 的偏離程度咽安,方差是各個樣本與樣本均值的差的平方和的均值:

\sigma_x^2 = var(X) = cov(X, X) = E[(X - E[X])^2] = \frac{\sum_{i=1}^{n}(X_i - \overline{X})^2}{n-1}
其中n表示樣本量伴网,符號\overline{X}表示觀測樣本的均值

2.協(xié)方差(Covariance)

  1. 隨機變量的協(xié)方差
    跟數(shù)學(xué)期望、方差一樣妆棒,是分布的一個總體參數(shù)澡腾。在概率論和統(tǒng)計中沸伏,協(xié)方差是對兩個隨機變量聯(lián)合分布線性相關(guān)程度的一種度量。兩個隨機變量越線性相關(guān)动分,協(xié)方差越大毅糟,完全線性無關(guān),協(xié)方差為零澜公。正相關(guān)姆另,負(fù)相關(guān)。
    cov(X,Y) = E[(X - E[X])(Y - E[Y])]
    當(dāng)X坟乾,Y是同一個隨機變量時迹辐,X與其自身的協(xié)方差就是X的方差,可以說方差是協(xié)方差的一個特例甚侣。
    cov(X,X) = E[(X - E[X])(X - E[X])] = E[(X - E[X])^2] = var(X)
    由于隨機變量的取值范圍不同明吩,兩個協(xié)方差不具備可比性。如X殷费,Y印荔,Z分別是三個隨機變量,想要比較X與Y的線性相關(guān)程度強详羡,還是X與Z的線性相關(guān)程度強仍律,通過cov(X,Y)cov(X,Z)無法直接比較。定義相關(guān)系數(shù)\eta為:
    η = \frac{cov(X,Y)}{\sqrt{var(X)?var(Y)}}
    通過X的方差var(X)與Y的方差var(Y)對協(xié)方差cov(X,Y)歸一化殷绍,得到相關(guān)系數(shù)\eta染苛,\eta的取值范圍是[?1,1]。1表示完全線性相關(guān)主到,?1表示完全線性負(fù)相關(guān)茶行,0表示線性無關(guān)。線性無關(guān)并不代表完全無關(guān)登钥,更不代表相互獨立畔师。

  2. 樣本的協(xié)方差
    在實際中,通常我們手頭會有一些樣本牧牢,樣本有多個屬性看锉,每個樣本可以看成一個多維隨機變量的樣本點,我們需要分析兩個維度之間的線性關(guān)系塔鳍。協(xié)方差及相關(guān)系數(shù)是度量隨機變量間線性關(guān)系的參數(shù)伯铣,由于不知道具體的分布,只能通過樣本來進行估計轮纫。設(shè)樣本對應(yīng)的多維隨機變量為X=[X1,X2,X3,...,Xn]T腔寡,樣本集合為{x?j=[x1j,x2j,...,xnj]T|1?j?m},m\text{為樣本數(shù)量}掌唾。與樣本方差的計算相似放前,a和b兩個維度樣本的協(xié)方差公式為忿磅,其中1?a?n,1?b?n凭语,n\text{為樣本維度}葱她。
    q_{ab} = \frac{\sum_{j=1}^{m}(x_{aj} - \overline{x}_a)(x_{bj} - \overline{x}_)}{m?1}
    這里分母為m?1是因為隨機變量的數(shù)學(xué)期望未知似扔,以樣本均值代替吨些,自由度減一。

3.協(xié)方差矩陣(Covariance matrix)

  1. 對多維隨機變量X = [X_1,X_2,X_3...X_n]^T虫几,我們往往需要計算各維度兩兩之間的協(xié)方差锤灿,這樣各協(xié)方差組成了一個n×n的矩陣挽拔,稱為協(xié)方差矩陣辆脸。協(xié)方差矩陣是個對稱矩陣,對角線上的元素是各維度上隨機變量的方差螃诅。我們定義協(xié)方差矩陣為\Sigma啡氢,這個符號與求和\Sigma相同,需要根據(jù)上下文區(qū)分术裸。矩陣內(nèi)的元素\Sigma_{ij}為:
    \Sigma_{ij} = cov(X_i,X_j) = E[(X_i - E[X_i])(X_j - E[X_j])]
    這樣這個矩陣為:
    \Sigma = E[(X - E[X])(X - E[X])^T]
    = \left[ \begin{matrix} cov(X_1,X_1) & \cdots & cov(X_1,X_n) \\ \vdots & \ddots & \vdots \\ cov(X_n,X_1) & \cdots & cov(X_n,X_n) \\ \end{matrix} \right] = \mathbb{R}^{n \times n}
    = \left[ \begin{matrix} E[(X_1 - E[X_1])(X_1 - E[X_1])] & \cdots & E[(X_1 - E[X_1])(X_n - E[X_n])] \\ \vdots & \ddots & \vdots \\ E[(X_n - E[X_n])(X_1 - E[X_1])] & \cdots & E[(X_n - E[X_n])(X_n - E[X_n])] \\ \end{matrix} \right]

  2. 樣本的協(xié)方差矩陣
    與上面的協(xié)方差矩陣相同倘是,只是矩陣內(nèi)各元素以樣本的協(xié)方差替換。樣本集合為{x_{.j} = [x_{ij},x_{2j}...x_{nj}]^T|1 \le j \le m}, \text{m為樣本數(shù)量}袭艺。所有樣本可以表示成一個n×m的矩陣搀崭。我們\hat{\Sigma}表示樣本的協(xié)方差矩陣,與\Sigma區(qū)分猾编。
    \hat{\Sigma} = \left[ \begin{matrix} {} q_{11} & \cdots & q_{1n} \\ \vdots & \ddots & \vdots \\ q_{n1} & \cdots & q_{nn} \end{matrix} \right] = \mathbb{R}^{n \times n}
    =\frac{1}{m-1} \left[ \begin{matrix} {} \sum_{j=1}^{m}(x_{1j} - \overline{x}_1)(x_{1j} - \overline{x}_{1}) & \cdots & \sum_{j=1}^{m}(x_{1j} - \overline{x}_1)(x_{nj} - \overline{x}_{n}) \\ \vdots & \ddots & \vdots \\ \sum_{j=1}^{m}(x_{nj} - \overline{x}_n)(x_{1j} - \overline{x}_{1}) & \cdots & \sum_{j=1}^{m}(x_{nj} - \overline{x}_n)(x_{nj} - \overline{x}_n) \end{matrix} \right]
    = \frac{1}{m-1}\sum_{j=1}^{m}(x_{.j} - \overline{x})(x_{.j} - \overline{x})^T
    公式中m 為樣本數(shù)量瘤睹,xˉ為樣本的均值,是一個列向量答倡,x?j 為第 j 個樣本轰传,也是一個列向量。

    在寫程序計算樣本的協(xié)方差矩陣時瘪撇,我們通常用后一種向量形式計算获茬。一個原因是代碼更緊湊清晰,另一個原因是計算機對矩陣及向量運算有大量的優(yōu)化倔既,效率高于在代碼中計算每個元素恕曲。

    需要注意的是,協(xié)方差矩陣是計算樣本不同維度之間的協(xié)方差渤涌,而不是對不同樣本計算佩谣,所以協(xié)方差矩陣的大小與維度相同。

    很多時候我們只關(guān)注不同維度間的線性關(guān)系歼捏,且要求這種線性關(guān)系可以互相比較稿存。所以笨篷,在計算協(xié)方差矩陣之前,通常會對樣本進行歸一化瓣履,包括兩部分:

    1. y_{.j} = x_{.j} - \hat{x}率翅。即對樣本進行平移,使其重心在原點
    2. z_{j.} = \frac{y_{j.}}{\sigma_i}袖迎,其中\sigma_i是維度i的標(biāo)準(zhǔn)差冕臭。這樣消除了數(shù)值大小的影響

    這樣,協(xié)方差矩陣\hat{\Sigma}可以寫成:
    \hat{\Sigma} = \frac{1}{m-1}\sum_{j=1}^{m}z_{.j}z_{.j}^T
    該矩陣內(nèi)的元素具有可比性燕锥。

3. 多元正態(tài)分布與線性變換

引用

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市归形,隨后出現(xiàn)的幾起案子托慨,更是在濱河造成了極大的恐慌,老刑警劉巖暇榴,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件厚棵,死亡現(xiàn)場離奇詭異,居然都是意外死亡蔼紧,警方通過查閱死者的電腦和手機婆硬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來奸例,“玉大人彬犯,你說我怎么就攤上這事〔榈酰” “怎么了谐区?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長菩貌。 經(jīng)常有香客問我卢佣,道長,這世上最難降的妖魔是什么箭阶? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任虚茶,我火速辦了婚禮,結(jié)果婚禮上仇参,老公的妹妹穿的比我還像新娘嘹叫。我一直安慰自己,他們只是感情好诈乒,可當(dāng)我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布罩扇。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪喂饥。 梳的紋絲不亂的頭發(fā)上消约,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天,我揣著相機與錄音员帮,去河邊找鬼或粮。 笑死,一個胖子當(dāng)著我的面吹牛捞高,可吹牛的內(nèi)容都是我干的氯材。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼硝岗,長吁一口氣:“原來是場噩夢啊……” “哼氢哮!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起型檀,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤冗尤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后贱除,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體生闲,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡媳溺,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年月幌,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片悬蔽。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡扯躺,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蝎困,到底是詐尸還是另有隱情录语,我是刑警寧澤,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布禾乘,位于F島的核電站澎埠,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏始藕。R本人自食惡果不足惜蒲稳,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望伍派。 院中可真熱鬧江耀,春花似錦、人聲如沸诉植。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽晾腔。三九已至舌稀,卻和暖如春啊犬,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背壁查。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工椒惨, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人潮罪。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓康谆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親嫉到。 傳聞我的和親對象是個殘疾皇子沃暗,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內(nèi)容