摘要:記錄了用皮爾遜積描述變量的相關(guān)關(guān)系的理論依據(jù)、計(jì)算方式以及在Java環(huán)境的代碼示例驮樊,同時(shí)也說明了約束條件好啰、缺點(diǎn)涡驮。
相關(guān)系數(shù)(Correlation coefficient)
相關(guān)表和相關(guān)圖可反映兩個(gè)變量之間的相互關(guān)系及其相關(guān)方向,但無法確切地表明兩個(gè)變量之間相關(guān)的程度宝与。
著名統(tǒng)計(jì)學(xué)家卡爾·皮爾遜設(shè)計(jì)了統(tǒng)計(jì)指標(biāo)——相關(guān)系數(shù)焚廊。相關(guān)系數(shù)是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。相關(guān)系數(shù)是按積差方法計(jì)算习劫,同樣以兩變量與各自平均值的離差為基礎(chǔ)咆瘟,通過兩個(gè)離差相乘來反映兩變量之間相關(guān)程度;著重研究線性的單相關(guān)系數(shù)诽里。
依據(jù)相關(guān)現(xiàn)象之間的不同特征袒餐,其統(tǒng)計(jì)指標(biāo)的名稱有所不同。如將反映兩變量間線性相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱為相關(guān)系數(shù)(相關(guān)系數(shù)的平方稱為判定系數(shù))谤狡;將反映兩變量間曲線相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱為非線性相關(guān)系數(shù)灸眼、非線性判定系數(shù);將反映多元線性相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱為復(fù)相關(guān)系數(shù)墓懂、復(fù)判定系數(shù)等焰宣。
相關(guān)系數(shù)的計(jì)算方法
- 相關(guān)系數(shù)的值介于–1與+1之間,即–1≤r≤+1捕仔。其性質(zhì)如下:
- 當(dāng)r>0時(shí)匕积,表示兩變量正相關(guān)盈罐,r<0時(shí),兩變量為負(fù)相關(guān)闪唆。
- 當(dāng)|r|=1時(shí)盅粪,表示兩變量為完全線性相關(guān),即為函數(shù)關(guān)系苞氮。
- 當(dāng)r=0時(shí)湾揽,表示兩變量間無線性相關(guān)關(guān)系。
- 當(dāng)0<|r|<1時(shí)笼吟,表示兩變量存在一定程度的線性相關(guān)库物。且|r|越接近1,兩變量間線性關(guān)系越密切贷帮;|r|越接近于0戚揭,表示兩變量的線性相關(guān)越弱。
- 相關(guān)系數(shù)一般可按三級(jí)劃分:|r|<0.4為低度線性相關(guān)撵枢;0.4≤|r|<0.7為顯著性相關(guān)民晒;0.7≤|r|<1為高度線性相關(guān)。
使用案例
廣告費(fèi)與月平均銷售額相關(guān)表锄禽,單位:萬元
年廣告費(fèi)投入 | 月均銷售額 |
---|---|
12.5 | 21.2 |
15.3 | 23.9 |
23.2 | 32.9 |
26.4 | 34.1 |
33.5 | 42.5 |
34.4 | 43.2 |
39.4 | 49.0 |
45.2 | 52.8 |
55.4 | 59.4 |
60.9 | 63.5 |
相關(guān)系數(shù)為0.9942潜必,說明廣告投入費(fèi)與月平均銷售額之間有高度的線性正相關(guān)關(guān)系。
代碼示例
public class Pearson {
/**
* 計(jì)算兩組數(shù)據(jù)的皮爾遜積相關(guān)性
* @param firstRow 第一組數(shù)據(jù)
* @param secondRow 第二組數(shù)據(jù)
* @return
*/
public static double GetPearson(List<String> firstRow, List<String> secondRow) {
// 兩組數(shù)據(jù)平均值
double averageFirst = 0.0;
double averageSecond = 0.0;
// 分子
double sumNumerator = 0.0;
// 分母
double sumDenominator = 0.0;
// 若兩列數(shù)據(jù)長(zhǎng)度不同沃但,僅取較短長(zhǎng)度進(jìn)行計(jì)算
int compareLenth = firstRow.size() > secondRow.size() ? secondRow.size() : firstRow.size();
for (int tempValue = 0; tempValue < compareLenth; tempValue++) {
averageFirst += Double.valueOf(firstRow.get(tempValue));
averageSecond += Double.valueOf(secondRow.get(tempValue));
}
//計(jì)算平均值
averageFirst = averageFirst / compareLenth;
averageSecond = averageSecond / compareLenth;
// 分子
for (int tempValue = 0; tempValue < compareLenth; tempValue++) {
sumNumerator += (Double.valueOf(firstRow.get(tempValue)) - averageFirst) * (Double.valueOf(secondRow.get(tempValue)) - averageSecond);
}
// 分母
double tempA = 0;
double tempB = 0;
for (int tempValue = 0; tempValue < compareLenth; tempValue++) {
tempA += Math.pow((Double.valueOf(firstRow.get(tempValue)) - averageFirst), 2);
tempB += Math.pow((Double.valueOf(secondRow.get(tempValue)) - averageSecond), 2);
}
sumDenominator = Math.sqrt(tempA) * Math.sqrt(tempB);
return sumNumerator / sumDenominator;
}
}
皮爾遜相關(guān)系數(shù)的約束條件
- 兩個(gè)變量間有線性關(guān)系
- 變量是連續(xù)變量
- 變量均符合正態(tài)分布,且二元分布也符合正態(tài)分布
- 兩變量獨(dú)立磁滚。在實(shí)踐統(tǒng)計(jì)中一般只輸出兩個(gè)系數(shù),一個(gè)是相關(guān)系數(shù)也就是計(jì)算出來的相關(guān)系數(shù)大小(在-1到1之間),另一個(gè)是獨(dú)立樣本檢驗(yàn)系數(shù)宵晚,用來檢驗(yàn)樣本一致性垂攘。
相關(guān)系數(shù)的缺點(diǎn)
需要指出的是,相關(guān)系數(shù)有一個(gè)明顯的缺點(diǎn)淤刃,即它接近于1的程度與數(shù)據(jù)組數(shù)n相關(guān)晒他,這容易給人一種假象。因?yàn)橐菁郑?dāng)n較小時(shí)陨仅,相關(guān)系數(shù)的波動(dòng)較大,對(duì)有些樣本相關(guān)系數(shù)的絕對(duì)值易接近于1铝侵;當(dāng)n較大時(shí)掂名,相關(guān)系數(shù)的絕對(duì)值容易偏小。特別是當(dāng)n=2時(shí)哟沫,相關(guān)系數(shù)的絕對(duì)值總為1饺蔑。因此在樣本容量n較小時(shí),我們僅憑相關(guān)系數(shù)較大就判定變量x與y之間有密切的線性關(guān)系是不妥當(dāng)?shù)摹?/p>
例如嗜诀,就我國(guó)深滬兩股市資產(chǎn)負(fù)債率與每股收益之間的相關(guān)關(guān)系做研究猾警。發(fā)現(xiàn)1999年資產(chǎn)負(fù)債率前40名的上市公司孔祸,二者的相關(guān)系數(shù)為r=–0.6139;資產(chǎn)負(fù)債率后20名的上市公司发皿,二者的相關(guān)系數(shù)r=0.1072崔慧;而對(duì)于滬、深全部上市公司(基金除外)結(jié)果卻是穴墅,r滬=–0.5509惶室,r深=–0.4361,根據(jù)三級(jí)劃分方法玄货,兩變量為顯著性相關(guān)皇钞。這也說明僅憑r的計(jì)算值大小判斷相關(guān)程度有一定的缺陷。
參考文獻(xiàn)
- 郭紅霞.相關(guān)系數(shù)及其應(yīng)用.武警工程學(xué)院學(xué)報(bào).2010年3月,第26卷第2期
- 王愛蓮.統(tǒng)計(jì)學(xué).第七章 相關(guān)與回歸分析.第一節(jié) 相關(guān)分析.西安石油大學(xué).經(jīng)濟(jì)管理學(xué)院
- 使用案例參考了MBA智庫網(wǎng)