隔壁老王為何頻頻出入我家目胡?天天加班卻為何從未加薪锯七?孩子天天要交補(bǔ)習(xí)費(fèi)成績(jī)卻從未提高?這一切的背后誉己,是現(xiàn)實(shí)的無奈還是有著不可告人的秘密眉尸?看似不相關(guān)的兩件事情背后到底有著怎樣的黑幕?
歡迎觀看《從零開始的AI學(xué)習(xí)》系列文章之皮爾遜相關(guān)值巨双!
大家好噪猾,我是黃瀚星,今天挖一個(gè)新的坑筑累,給大家分享人工智能的相關(guān)知識(shí)袱蜡。
今天的主題是,皮爾遜相關(guān)系數(shù)疼阔,也叫簡(jiǎn)單相關(guān)系數(shù)戒劫,在統(tǒng)計(jì)分析上具有舉足輕重的地位。
如果你是一個(gè)互聯(lián)網(wǎng)產(chǎn)品經(jīng)理婆廊,想知道什么樣的內(nèi)容用戶會(huì)喜歡迅细。
如果你是一個(gè)金融分析師,想知道國(guó)家政策與金融衍生品之間價(jià)格漲跌的關(guān)系淘邻。
如果你是一個(gè)創(chuàng)業(yè)者茵典,想知道產(chǎn)品的銷售量與廣告投放效果之間的關(guān)系。
……
這些都可以用簡(jiǎn)單相關(guān)系數(shù)來進(jìn)行分析宾舅,應(yīng)用場(chǎng)景非常廣泛统阿。
別看它叫“簡(jiǎn)單”相關(guān)系數(shù),但來頭可一點(diǎn)也不小筹我,發(fā)明者是英國(guó)數(shù)學(xué)家扶平,數(shù)理統(tǒng)計(jì)學(xué)的創(chuàng)立者卡爾·皮爾遜(Karl Pearson。1857~1936)蔬蕊,
他被譽(yù)為現(xiàn)代統(tǒng)計(jì)科學(xué)的創(chuàng)立者结澄,代表作品是《科學(xué)入門》,而且這位大神不光有著牛逼的頭腦岸夯,還有著英俊的外表麻献,趕緊膜拜一下~
什么是皮爾遜相關(guān)值
那么什么是皮爾遜相關(guān)值呢?
皮爾遜相關(guān)值是相關(guān)分析的一種猜扮,簡(jiǎn)單來說勉吻,就是比較兩組數(shù)據(jù)之間的是否具有強(qiáng)烈的關(guān)聯(lián)性,如果數(shù)據(jù)A在增大的同時(shí)旅赢,數(shù)據(jù)B也在增大齿桃,那么數(shù)據(jù)A和數(shù)據(jù)B增大的比例關(guān)系惑惶,就可以用皮爾遜相關(guān)值來表示,他的公式為:
如果你看不懂這個(gè)復(fù)雜的公式也不要緊短纵,只需要知道集惋,皮爾遜相關(guān)系數(shù)的結(jié)果總是落在-1和1之間就可以了。
結(jié)果為正數(shù)時(shí)表示兩個(gè)變量成正相關(guān)踩娘,即一個(gè)變量增大時(shí)另一個(gè)變量也增大刮刑,比如氣溫越高,冷飲的銷量就越多养渴,這是正相關(guān)關(guān)系雷绢;
結(jié)果為負(fù)數(shù)時(shí)兩個(gè)變量呈負(fù)相關(guān),即一個(gè)變量增大時(shí)另一個(gè)變量減小理卑,例如海拔越高時(shí)翘紊,空氣中的氧氣含量就越少。
如果為0藐唠,則表示兩個(gè)變量不為線性關(guān)系帆疟,有可能兩者不相關(guān),但也有可能兩者有更加復(fù)雜的關(guān)系宇立。
相關(guān)性的強(qiáng)弱大致可以按照如下分布來進(jìn)行判定:
0.8-1.0 極強(qiáng)相關(guān)
0.6-0.8 強(qiáng)相關(guān)
0.4-0.6 中等程度相關(guān)
0.2-0.4 弱相關(guān)
0.0-0.2 極弱相關(guān)或無相關(guān)
那么踪宠,我們要如何計(jì)算皮爾遜相關(guān)值呢?如果你的數(shù)據(jù)只有很少的一部分妈嘹,或者身為學(xué)霸的你想深刻的了解公式的原理柳琢,可以用手工套用公式進(jìn)行計(jì)算。
但如果數(shù)據(jù)量很大润脸,或者剛剛開始接觸數(shù)據(jù)挖掘的初學(xué)者柬脸,你可以選擇更加簡(jiǎn)便的方式,一分鐘快速算結(jié)果毙驯。
如何用SPSS計(jì)算皮爾遜相關(guān)值
我們可以使用IBM公司的專業(yè)數(shù)據(jù)分析工具SPSS來快速進(jìn)行相關(guān)值計(jì)算倒堕,這里我用的是MAC版本的SPSS V23。
接下來我們舉一個(gè)簡(jiǎn)單的例子爆价,以某班級(jí)學(xué)生的考試成績(jī)與平時(shí)做題量來分析垦巴,講解一下SPSS計(jì)算皮爾遜相關(guān)值的操作,看看這兩者之間的相關(guān)系數(shù)有多少允坚。
1魂那、首先蛾号,打開SPSS稠项,在列表中的豎排輸入需要計(jì)算相關(guān)性的變量。
2鲜结、在功能菜單中選擇“分析”-“相關(guān)”-“雙變量”
3展运、把變量從左邊勾選到右邊的窗口中活逆,相關(guān)系數(shù)選擇“皮爾遜”
4、點(diǎn)擊確定就可以看到結(jié)果了拗胜,這里我們可以看到相關(guān)性為0.93蔗候,屬于極強(qiáng)相關(guān),看來題海戰(zhàn)術(shù)還是有一定作用的埂软。
5锈遥、如果要繪制圖表的話,可以直接點(diǎn)擊“圖形”-“舊對(duì)話框”-“散點(diǎn)圖”勘畔,再在彈出的對(duì)話框中選擇“簡(jiǎn)單散點(diǎn)圖”即可所灸,因?yàn)槲覀兊臄?shù)據(jù)只有兩個(gè),所以二維的簡(jiǎn)單散點(diǎn)圖非常適合炫七。
6爬立、點(diǎn)擊“定義”之后,會(huì)彈出設(shè)置X和Y坐標(biāo)的頁面万哪,我們把考試成績(jī)作為Y軸侠驯,做題量作為X軸來進(jìn)行顯示,點(diǎn)擊確定奕巍。
7吟策、然后,SPSS就會(huì)自動(dòng)生成散點(diǎn)圖的止,你可以在這個(gè)窗口點(diǎn)擊導(dǎo)出踊挠,把分析結(jié)果作為你的PPT內(nèi)容的一部分。
使用皮爾遜相關(guān)值需要注意的點(diǎn)
任何工具都不是萬能鑰匙冲杀,無法解決所有的情況效床,皮爾遜相關(guān)值也是如此,在使用過程中权谁,需要注意以下幾點(diǎn):
1剩檀、皮爾遜的結(jié)果只能說兩者有相關(guān)關(guān)系,但不一定是因果關(guān)系
舉例來說旺芽,哥哥和弟弟的身高有著近似的關(guān)系沪猴,哥哥的身高很高,那么弟弟的身高很高的可能性也很大采章,這兩者用皮爾遜來計(jì)算會(huì)產(chǎn)生很高的相關(guān)性运嗜。
但并不意味著弟弟身材高大是因?yàn)楦绺纾嵌哂兄餐母改该踔郏歉改傅幕驔Q定了哥哥和弟弟的身高担租。
2、皮爾遜相關(guān)值不適合數(shù)據(jù)量非常小的計(jì)算
假設(shè)我們想要計(jì)算的樣本數(shù)據(jù)只有一例抵怎,那么很有可能得到不準(zhǔn)確的結(jié)論奋救,也就是說公式的分子和分母必須不為零岭参,相關(guān)系數(shù)才有意義。
3尝艘、皮爾遜相關(guān)值不能計(jì)算所有的變量都一致的數(shù)據(jù)
道理和上面的一樣演侯,因?yàn)闃?biāo)準(zhǔn)差需要大量不同的數(shù)據(jù)取取值,算出相關(guān)性背亥,如果數(shù)據(jù)值一樣就無法進(jìn)行計(jì)算了秒际。
皮爾遜相關(guān)值的應(yīng)用場(chǎng)景舉例
1、互聯(lián)網(wǎng)領(lǐng)域應(yīng)用——產(chǎn)品推薦算法
假設(shè)現(xiàn)在有3個(gè)用戶對(duì)123三種產(chǎn)品的喜好程度狡汉,分別用-5~5來表示程癌,最低為-5,最高為5轴猎,我們用皮爾遜計(jì)算三個(gè)用戶之間的相似性嵌莉。
計(jì)算之后得到如下結(jié)果
可以看出,用戶1與用戶2之間存在著顯著相關(guān)的特點(diǎn)捻脖,即用戶1喜歡的東西锐峭,用戶2喜歡的可能性也很大,而用戶1與用戶3則完全是截然相反的類型可婶,對(duì)產(chǎn)品的喜好完全不同沿癞。
那么,當(dāng)你上架了一個(gè)新的商品時(shí)矛渴,用戶1很快就購(gòu)買并給出了4分的評(píng)價(jià)椎扬,而用戶2和用戶3都還沒看到新上架的商品,這時(shí)候你知道應(yīng)該把這個(gè)產(chǎn)品推薦給誰更有可能促成銷售了吧具温。
2蚕涤、金融領(lǐng)域應(yīng)用——外匯貨幣對(duì)相關(guān)性分析
假設(shè)我們需要查看美元指數(shù)與歐元、英鎊铣猩、日元之間在過去三個(gè)星期時(shí)間內(nèi)的走勢(shì)關(guān)聯(lián)性揖铜,以此來作出買賣外匯的交易決策,就可以使用皮爾遜相關(guān)值進(jìn)行分析达皿。
輸入過去15天內(nèi)的價(jià)格漲跌幅
通過SPSS進(jìn)行分析之后得到如下結(jié)論:
歐元與美元指數(shù)呈強(qiáng)烈的負(fù)相關(guān)關(guān)系天吓,當(dāng)美元指數(shù)漲時(shí),歐元兌美元會(huì)下跌峦椰,反之亦然龄寞,而且可以看出漲的幅度與跌的幅度相近。也就是說汤功,當(dāng)美元指數(shù)下跌時(shí)物邑,就可以買入歐元獲利。
英鎊與美元指數(shù)的關(guān)系為強(qiáng)負(fù)相關(guān),英鎊的走勢(shì)與美元指數(shù)的漲跌也有一定的關(guān)聯(lián)拂封,但并不如歐元那么強(qiáng)烈。
日元與美元指數(shù)為中等程度的正相關(guān)鹦蠕,而與英鎊的價(jià)格走勢(shì)關(guān)系為0.99冒签,幾乎沒有關(guān)聯(lián)性。
最后說幾句
皮爾遜相關(guān)值的應(yīng)用場(chǎng)景遠(yuǎn)遠(yuǎn)不止這些钟病,大家盡可以腦洞大開萧恕,把看似不想關(guān)的數(shù)據(jù)關(guān)聯(lián)起來,查看關(guān)聯(lián)性是否足夠強(qiáng)肠阱。
比如票唆,是時(shí)候搞清楚這個(gè)問題了,吃木瓜與豐胸之間到底有沒有關(guān)聯(lián)性屹徘,我們分析統(tǒng)計(jì)妹紙吃木瓜的數(shù)量與cup大小之間的關(guān)聯(lián)性走趋,如果真的是強(qiáng)關(guān)聯(lián)的話,就可以嘿嘿嘿?(? ? ?)~
好了噪伊,今天的分享就到這里簿煌,想知道具體的數(shù)據(jù)結(jié)果嗎?
趕緊點(diǎn)擊關(guān)注凹怠姨伟!