在實(shí)際工作中揭璃,我遇到的很多情況是:雖然通過(guò)數(shù)據(jù)分析細(xì)致入微地了解了現(xiàn)狀集灌,但到鎖定原因的階段悔雹,卻又用突兀的主觀見(jiàn)解來(lái)代替客觀事實(shí)。
“表示二者關(guān)系的“相關(guān)系數(shù)”
相關(guān)系數(shù)”可以表示相關(guān)程度欣喧,計(jì)算相關(guān)系數(shù)的方法叫作“相關(guān)分析”腌零。相關(guān)系數(shù)的值介于-1 和+1 之間。
相關(guān)系數(shù)越接近 1续誉,正相關(guān)的程度越高莱没。也就是說(shuō),一方數(shù)據(jù)增加酷鸦,另一方數(shù)據(jù)也會(huì)隨之增加饰躲。二者完全成比例(如果一方增至 2 倍,另一方也隨之變?yōu)?2 倍)時(shí)的相關(guān)系數(shù)最大臼隔,是 1嘹裂。相關(guān)系數(shù)為 0,表示兩個(gè)數(shù)據(jù)沒(méi)有任何關(guān)聯(lián)摔握,互相獨(dú)立寄狼。實(shí)際業(yè)務(wù)中使用的第一手?jǐn)?shù)據(jù),一般都不是 0 或者 1 所表示的完全不相關(guān)或者完全成比例相關(guān),而是介于二者之間泊愧。
使用 CORREL 函數(shù)可以計(jì)算相關(guān)系數(shù)伊磺。在“=CORREL”后面的括號(hào)中指定兩種數(shù)據(jù)的范圍,并用逗號(hào)隔開(kāi)删咱,即可立即得出相關(guān)系數(shù)屑埋。在圖 3-2 的例子中,相關(guān)系數(shù)為 0.84痰滋,可知二者高度相關(guān)摘能。
如果兩個(gè)數(shù)據(jù)不相關(guān),散點(diǎn)圖就會(huì)呈現(xiàn)出不規(guī)則分布敲街。因此除了相關(guān)系數(shù)之外团搞,用散點(diǎn)圖從直觀上展現(xiàn)兩種數(shù)據(jù)之間的關(guān)系,有時(shí)也可以發(fā)揮重要的作用多艇。尤其對(duì)下面 3 種情形來(lái)說(shuō)逻恐,散點(diǎn)圖會(huì)很有用。
①能夠發(fā)現(xiàn)明顯的離群值(出于某種原因峻黍,明顯偏離其他數(shù)據(jù)的數(shù)據(jù))梢莽。離群值可能會(huì)產(chǎn)生影響,導(dǎo)致整體的相關(guān)系數(shù)變低奸披。如果能夠合理去除離群值昏名,那么其他數(shù)據(jù)的相關(guān)系數(shù)可能會(huì)有不同。
②相關(guān)系數(shù)能夠體現(xiàn)兩種數(shù)據(jù)之間的比例關(guān)系(線性關(guān)系)阵面,但并非所有數(shù)據(jù)之間都是比例關(guān)系轻局,也可能是其他類型(曲線等)關(guān)系。這些其他類型的關(guān)系可以不依賴相關(guān)系數(shù)样刷,從散點(diǎn)圖中看到仑扑。
③借助散點(diǎn)圖,對(duì)相關(guān)分析置鼻、相關(guān)系數(shù)一無(wú)所知的人也可以理解分析的結(jié)果镇饮。
鎖定原因也需要“假設(shè)”
著手處理數(shù)據(jù)之前,應(yīng)該首先確認(rèn)目的或問(wèn)題箕母,在此基礎(chǔ)上提出假設(shè)储藐,這一點(diǎn)非常重要。在分析問(wèn)題原因時(shí)嘶是,假設(shè)也同樣有效钙勃。與原因有關(guān)的假設(shè)叫作 WHY 型假設(shè)。
但需要提防一些陷阱聂喇,防止受前例束縛的主觀臆斷辖源,或者將視野限定在平時(shí)常見(jiàn)的數(shù)據(jù)范圍之內(nèi)。
(1)尋找接近結(jié)果的原因
(2)選擇能夠采取對(duì)策的原因
相關(guān)系數(shù)的四大優(yōu)勢(shì)
(1)能夠立即得出答案
(2)簡(jiǎn)單易懂,更容易得到對(duì)方理解
(3)能夠分析單位不同的數(shù)據(jù)
(4)為回歸分析等進(jìn)一步分析做鋪墊
找到相關(guān)分析的著眼點(diǎn)
不要隨便編故事
陷井 1 因果關(guān)系
相關(guān)關(guān)系并不一定就是因果關(guān)系克饶,這一點(diǎn)非常重要酝蜒。
陷井 2 疑似相關(guān)
任何情形都可以通過(guò)計(jì)算得出相關(guān)分析的結(jié)果(相關(guān)系數(shù)),但這個(gè)結(jié)果未必都是由“直接”相關(guān)關(guān)系導(dǎo)致的矾湃。
陷井 3 數(shù)據(jù)的范圍
所有的數(shù)據(jù)分析都有一個(gè)共同點(diǎn)秕硝,就是分析所用的數(shù)據(jù)范圍不同,會(huì)對(duì)結(jié)果帶來(lái)很大差異洲尊。
一般情況下,可以用散點(diǎn)圖將數(shù)據(jù)的相關(guān)關(guān)系直觀地展現(xiàn)出來(lái)奈偏,然后再逐一探索應(yīng)該從何處著眼坞嘀,這也是一個(gè)關(guān)鍵。
陷井 4 離群值
離群值指由于某種原因惊来,與其他數(shù)據(jù)差距比較大的數(shù)據(jù)丽涩。分析對(duì)象中是否包含離群值,會(huì)使相關(guān)系數(shù)產(chǎn)生很大差異裁蚁。
如果可以隨意刪除數(shù)據(jù)矢渊,就有可能出現(xiàn)分析者操縱分析結(jié)果,導(dǎo)致分析喪失客觀性和可信度的情況枉证。所以矮男,發(fā)現(xiàn)離群值時(shí),首先要調(diào)查這個(gè)數(shù)據(jù)為什么會(huì)出現(xiàn)偏離室谚。在此基礎(chǔ)上毡鉴,如果能找到合適的理由,則可以將其從對(duì)象中剔除秒赤,再進(jìn)行分析猪瞬。