1 期望、方差棒呛、標(biāo)準(zhǔn)差
概率論與數(shù)理統(tǒng)計(jì)中聂示,最基本概念就是均值、方差簇秒、標(biāo)準(zhǔn)差,n個(gè)樣本xi的集合X。
具體公式描述為:
均值
??????? 樣本集合X的中間點(diǎn)
標(biāo)準(zhǔn)差
??????? 樣本集合的各個(gè)樣本點(diǎn)到均值的距離平方之和努潘,描述了集合的離散程度懂牧,也即樣本整體的離散幅度。
方差
??????? 標(biāo)準(zhǔn)差的平方
2 協(xié)方差
??????? 兩個(gè)特征之間的相關(guān)關(guān)系皱坛。
??????? 均值编曼、方差、標(biāo)準(zhǔn)差幾個(gè)統(tǒng)計(jì)量只描述了一維數(shù)據(jù)剩辟,現(xiàn)實(shí)中數(shù)據(jù)通常都不是簡(jiǎn)單的一個(gè)特征能夠描述灵巧,都是多個(gè)特征描述,而且不同特征之間會(huì)具有相關(guān)關(guān)系抹沪。例如一個(gè)理科學(xué)生的成績(jī)?cè)跀?shù)學(xué)物理兩方面上刻肄,就是兩個(gè)特征,而且這兩個(gè)特征是有相關(guān)關(guān)系的融欧。
??????? 取很多學(xué)生構(gòu)建成一個(gè)集合敏弃,統(tǒng)計(jì)發(fā)現(xiàn)如果數(shù)學(xué)越好,一般來說物理也就越好噪馏。從統(tǒng)計(jì)數(shù)據(jù)上看到, 數(shù)學(xué) 物理成績(jī)之間具有相關(guān)關(guān)系
怎么描述麦到?---用協(xié)方差描述
??????? 兩個(gè)特征X Y,均值為X’ Y’欠肾。 如果樣本的X高于均值, 一般Y也高于均值瓶颠。相反如果X低于均值Y也低于均值,則用如下公式描述兩個(gè)特征之間的相關(guān)關(guān)系:
1??? 在xi > x’,? yi > y’時(shí)刺桃,結(jié)果 > 0
2??? 在xi > x’,? yi < y’時(shí)粹淋,結(jié)果 < 0
3??? 在xi < x’, yi > y’時(shí),結(jié)果 < 0
4??? 在xi < x’, yi < y’時(shí),結(jié)果 > 0
??????? 如果統(tǒng)計(jì)集合所有樣本的特征 xi yi 都是同時(shí)增減的話桃移,那么1 4情況就多屋匕,cov(x, y)就會(huì)是> 0且相關(guān)性越大cov(x, y)越大。
??????? 相反如果xi yi 相反增減借杰,那么2 3情況就多, cov(x, y)就會(huì) < 0且逆相關(guān)性越大cov(x, y)越小过吻。
??????? 而如果xi yi沒有關(guān)系,那么隨意發(fā)生1 2 3 4情況蔗衡,那么cov的分子因?yàn)榍蠛途蜁?huì)逐漸趨近0那么cov絕對(duì)值就越小
這樣這個(gè)公式就描述了一個(gè)樣本的特征之間的相關(guān)關(guān)系.
3 協(xié)方差矩陣
??????? 如果理科成績(jī)還要看化學(xué)特征的關(guān)系那么就會(huì)有一個(gè)樣本是x y z纤虽。而協(xié)方差能夠描述的是兩個(gè)特征之間的關(guān)系。想要描述兩兩之間關(guān)系绞惦,
Cov(i, j) = Cov(dimi, dimj)
形成一個(gè)矩陣廓推。
??????? 描述n個(gè)特征兩兩之間的相關(guān)關(guān)系。 x-x?? x-y?? x-z?? y-z翩隧。
??????? 直接觀察就發(fā)現(xiàn)樊展,Cov 協(xié)方差矩陣一定是個(gè)對(duì)角矩陣。 cov(x, y) == cov(y, x)堆生。
??????? 今天突然發(fā)現(xiàn)专缠,原來協(xié)方差矩陣還可以這樣計(jì)算,先讓樣本矩陣中心化淑仆,即每一維度減去該維度的均值涝婉,使每一維度上的均值為0,然后直接用新的到的樣本矩陣乘上它的轉(zhuǎn)置蔗怠,然后除以(N-1)即可墩弯。其實(shí)這種方法也是由前面的公式推導(dǎo)而來,只不過理解起來不是很直觀寞射。
??????? 理解協(xié)方差矩陣的關(guān)鍵就在于牢記它計(jì)算的是一個(gè)樣本的不同特征之間的協(xié)方差渔工,而不是不同樣本之間。
4? 相關(guān)系數(shù)
??????? 相關(guān)系數(shù)= X Y的協(xié)方差/ (X標(biāo)準(zhǔn)差*Y標(biāo)準(zhǔn)差) 理解為歸一化標(biāo)準(zhǔn)化后的特殊的協(xié)方差桥温。
特點(diǎn)
? ? 1 反應(yīng)兩個(gè)特征的相關(guān)關(guān)系(同向逆向無關(guān)(貌似是線性關(guān)系))
? ? 2 由于是標(biāo)準(zhǔn)化的協(xié)方差引矩,消除了兩個(gè)變量變化幅度的影響,純凈的反應(yīng)了兩個(gè)變量的相關(guān)關(guān)系侵浸。
思考
如果數(shù)據(jù)集兩個(gè)特征x y.
??????? X是100sin(0 – 180)取其中五個(gè)點(diǎn)
??????? Y是100sin(0 – 180)取其中五個(gè)點(diǎn)
??????? (x1,y1) (x2,y2)(x3,y3) (x4,y4) (x5,y5)
??????? 這時(shí)兩者的協(xié)方差為10000(未計(jì)算).相關(guān)性很大
而如果數(shù)據(jù)集兩個(gè)特征x y.
??????? X是100sin(0 – 180)取其中五個(gè)點(diǎn)
??????? Y是1sin(0 – 180)取其中五個(gè)點(diǎn)
???????? (x1,y1) (x2,y2)(x3,y3) (x4,y4) (x5,y5)
???????? 這時(shí)兩者的協(xié)方差為1(未計(jì)算) .相關(guān)性很小
? ? ? ?? 雖然協(xié)方差相差巨大旺韭,但是實(shí)際上兩者單純相關(guān)性來說是完全一樣的,這時(shí)候如果除以自身幅值標(biāo)準(zhǔn)化一下掏觉,兩者的值就是相等的区端。
這時(shí)相關(guān)系就登場(chǎng)了, COV(X,Y) / (X標(biāo)準(zhǔn)差*Y標(biāo)準(zhǔn)差)? --- 純凈的相關(guān)性澳腹。
比較協(xié)方差與相關(guān)系數(shù)
? ? 協(xié)方差變化在正無窮到負(fù)無窮
? ? 相關(guān)系數(shù)變化在+1 -1.
? ? ? ? 如果相關(guān)系數(shù)= 1,表示完全正相關(guān)织盼,X增大一倍Y也增大一倍杨何。這就是線性相關(guān)。
參考
如何通俗易懂理解協(xié)方差與相關(guān)系數(shù)
https://www.zhihu.com/question/20852004
協(xié)方差的意義和計(jì)算公式
http://blog.csdn.net/beechina/article/details/51074750
?