【從零開始的AI學(xué)習(xí)】如何判斷兩個(gè)數(shù)據(jù)之間的相關(guān)性?

演示文稿1.jpg

隔壁老王為何頻頻出入我家目胡?天天加班卻為何從未加薪锯七?孩子天天要交補(bǔ)習(xí)費(fèi)成績(jī)卻從未提高?這一切的背后誉己,是現(xiàn)實(shí)的無奈還是有著不可告人的秘密眉尸?看似不相關(guān)的兩件事情背后到底有著怎樣的黑幕?

歡迎觀看《從零開始的AI學(xué)習(xí)》系列文章之皮爾遜相關(guān)值巨双!

大家好噪猾,我是黃瀚星,今天挖一個(gè)新的坑筑累,給大家分享人工智能的相關(guān)知識(shí)袱蜡。

今天的主題是,皮爾遜相關(guān)系數(shù)疼阔,也叫簡(jiǎn)單相關(guān)系數(shù)戒劫,在統(tǒng)計(jì)分析上具有舉足輕重的地位。

如果你是一個(gè)互聯(lián)網(wǎng)產(chǎn)品經(jīng)理婆廊,想知道什么樣的內(nèi)容用戶會(huì)喜歡迅细。
如果你是一個(gè)金融分析師,想知道國(guó)家政策與金融衍生品之間價(jià)格漲跌的關(guān)系淘邻。
如果你是一個(gè)創(chuàng)業(yè)者茵典,想知道產(chǎn)品的銷售量與廣告投放效果之間的關(guān)系。
……

這些都可以用簡(jiǎn)單相關(guān)系數(shù)來進(jìn)行分析宾舅,應(yīng)用場(chǎng)景非常廣泛统阿。

別看它叫“簡(jiǎn)單”相關(guān)系數(shù),但來頭可一點(diǎn)也不小筹我,發(fā)明者是英國(guó)數(shù)學(xué)家扶平,數(shù)理統(tǒng)計(jì)學(xué)的創(chuàng)立者卡爾·皮爾遜(Karl Pearson。1857~1936)蔬蕊,

他被譽(yù)為現(xiàn)代統(tǒng)計(jì)科學(xué)的創(chuàng)立者结澄,代表作品是《科學(xué)入門》,而且這位大神不光有著牛逼的頭腦岸夯,還有著英俊的外表麻献,趕緊膜拜一下~


什么是皮爾遜相關(guān)值

那么什么是皮爾遜相關(guān)值呢?

皮爾遜相關(guān)值是相關(guān)分析的一種猜扮,簡(jiǎn)單來說勉吻,就是比較兩組數(shù)據(jù)之間的是否具有強(qiáng)烈的關(guān)聯(lián)性,如果數(shù)據(jù)A在增大的同時(shí)旅赢,數(shù)據(jù)B也在增大齿桃,那么數(shù)據(jù)A和數(shù)據(jù)B增大的比例關(guān)系惑惶,就可以用皮爾遜相關(guān)值來表示,他的公式為:


如果你看不懂這個(gè)復(fù)雜的公式也不要緊短纵,只需要知道集惋,皮爾遜相關(guān)系數(shù)的結(jié)果總是落在-1和1之間就可以了。
結(jié)果為正數(shù)時(shí)表示兩個(gè)變量成正相關(guān)踩娘,即一個(gè)變量增大時(shí)另一個(gè)變量也增大刮刑,比如氣溫越高,冷飲的銷量就越多养渴,這是正相關(guān)關(guān)系雷绢;
結(jié)果為負(fù)數(shù)時(shí)兩個(gè)變量呈負(fù)相關(guān),即一個(gè)變量增大時(shí)另一個(gè)變量減小理卑,例如海拔越高時(shí)翘紊,空氣中的氧氣含量就越少。
如果為0藐唠,則表示兩個(gè)變量不為線性關(guān)系帆疟,有可能兩者不相關(guān),但也有可能兩者有更加復(fù)雜的關(guān)系宇立。

相關(guān)性的強(qiáng)弱大致可以按照如下分布來進(jìn)行判定:
0.8-1.0 極強(qiáng)相關(guān)
0.6-0.8 強(qiáng)相關(guān)
0.4-0.6 中等程度相關(guān)
0.2-0.4 弱相關(guān)
0.0-0.2 極弱相關(guān)或無相關(guān)

那么踪宠,我們要如何計(jì)算皮爾遜相關(guān)值呢?如果你的數(shù)據(jù)只有很少的一部分妈嘹,或者身為學(xué)霸的你想深刻的了解公式的原理柳琢,可以用手工套用公式進(jìn)行計(jì)算。
但如果數(shù)據(jù)量很大润脸,或者剛剛開始接觸數(shù)據(jù)挖掘的初學(xué)者柬脸,你可以選擇更加簡(jiǎn)便的方式,一分鐘快速算結(jié)果毙驯。

如何用SPSS計(jì)算皮爾遜相關(guān)值

我們可以使用IBM公司的專業(yè)數(shù)據(jù)分析工具SPSS來快速進(jìn)行相關(guān)值計(jì)算倒堕,這里我用的是MAC版本的SPSS V23。

接下來我們舉一個(gè)簡(jiǎn)單的例子爆价,以某班級(jí)學(xué)生的考試成績(jī)與平時(shí)做題量來分析垦巴,講解一下SPSS計(jì)算皮爾遜相關(guān)值的操作,看看這兩者之間的相關(guān)系數(shù)有多少允坚。

1魂那、首先蛾号,打開SPSS稠项,在列表中的豎排輸入需要計(jì)算相關(guān)性的變量。


2鲜结、在功能菜單中選擇“分析”-“相關(guān)”-“雙變量”


3展运、把變量從左邊勾選到右邊的窗口中活逆,相關(guān)系數(shù)選擇“皮爾遜”


4、點(diǎn)擊確定就可以看到結(jié)果了拗胜,這里我們可以看到相關(guān)性為0.93蔗候,屬于極強(qiáng)相關(guān),看來題海戰(zhàn)術(shù)還是有一定作用的埂软。


5锈遥、如果要繪制圖表的話,可以直接點(diǎn)擊“圖形”-“舊對(duì)話框”-“散點(diǎn)圖”勘畔,再在彈出的對(duì)話框中選擇“簡(jiǎn)單散點(diǎn)圖”即可所灸,因?yàn)槲覀兊臄?shù)據(jù)只有兩個(gè),所以二維的簡(jiǎn)單散點(diǎn)圖非常適合炫七。



6爬立、點(diǎn)擊“定義”之后,會(huì)彈出設(shè)置X和Y坐標(biāo)的頁面万哪,我們把考試成績(jī)作為Y軸侠驯,做題量作為X軸來進(jìn)行顯示,點(diǎn)擊確定奕巍。


7吟策、然后,SPSS就會(huì)自動(dòng)生成散點(diǎn)圖的止,你可以在這個(gè)窗口點(diǎn)擊導(dǎo)出踊挠,把分析結(jié)果作為你的PPT內(nèi)容的一部分。


使用皮爾遜相關(guān)值需要注意的點(diǎn)

任何工具都不是萬能鑰匙冲杀,無法解決所有的情況效床,皮爾遜相關(guān)值也是如此,在使用過程中权谁,需要注意以下幾點(diǎn):

1剩檀、皮爾遜的結(jié)果只能說兩者有相關(guān)關(guān)系,但不一定是因果關(guān)系
舉例來說旺芽,哥哥和弟弟的身高有著近似的關(guān)系沪猴,哥哥的身高很高,那么弟弟的身高很高的可能性也很大采章,這兩者用皮爾遜來計(jì)算會(huì)產(chǎn)生很高的相關(guān)性运嗜。
但并不意味著弟弟身材高大是因?yàn)楦绺纾嵌哂兄餐母改该踔郏歉改傅幕驔Q定了哥哥和弟弟的身高担租。

2、皮爾遜相關(guān)值不適合數(shù)據(jù)量非常小的計(jì)算
假設(shè)我們想要計(jì)算的樣本數(shù)據(jù)只有一例抵怎,那么很有可能得到不準(zhǔn)確的結(jié)論奋救,也就是說公式的分子和分母必須不為零岭参,相關(guān)系數(shù)才有意義。

3尝艘、皮爾遜相關(guān)值不能計(jì)算所有的變量都一致的數(shù)據(jù)
道理和上面的一樣演侯,因?yàn)闃?biāo)準(zhǔn)差需要大量不同的數(shù)據(jù)取取值,算出相關(guān)性背亥,如果數(shù)據(jù)值一樣就無法進(jìn)行計(jì)算了秒际。

皮爾遜相關(guān)值的應(yīng)用場(chǎng)景舉例

1、互聯(lián)網(wǎng)領(lǐng)域應(yīng)用——產(chǎn)品推薦算法

假設(shè)現(xiàn)在有3個(gè)用戶對(duì)123三種產(chǎn)品的喜好程度狡汉,分別用-5~5來表示程癌,最低為-5,最高為5轴猎,我們用皮爾遜計(jì)算三個(gè)用戶之間的相似性嵌莉。


計(jì)算之后得到如下結(jié)果


可以看出,用戶1與用戶2之間存在著顯著相關(guān)的特點(diǎn)捻脖,即用戶1喜歡的東西锐峭,用戶2喜歡的可能性也很大,而用戶1與用戶3則完全是截然相反的類型可婶,對(duì)產(chǎn)品的喜好完全不同沿癞。

那么,當(dāng)你上架了一個(gè)新的商品時(shí)矛渴,用戶1很快就購(gòu)買并給出了4分的評(píng)價(jià)椎扬,而用戶2和用戶3都還沒看到新上架的商品,這時(shí)候你知道應(yīng)該把這個(gè)產(chǎn)品推薦給誰更有可能促成銷售了吧具温。

2蚕涤、金融領(lǐng)域應(yīng)用——外匯貨幣對(duì)相關(guān)性分析

假設(shè)我們需要查看美元指數(shù)與歐元、英鎊铣猩、日元之間在過去三個(gè)星期時(shí)間內(nèi)的走勢(shì)關(guān)聯(lián)性揖铜,以此來作出買賣外匯的交易決策,就可以使用皮爾遜相關(guān)值進(jìn)行分析达皿。

輸入過去15天內(nèi)的價(jià)格漲跌幅


通過SPSS進(jìn)行分析之后得到如下結(jié)論:


歐元與美元指數(shù)呈強(qiáng)烈的負(fù)相關(guān)關(guān)系天吓,當(dāng)美元指數(shù)漲時(shí),歐元兌美元會(huì)下跌峦椰,反之亦然龄寞,而且可以看出漲的幅度與跌的幅度相近。也就是說汤功,當(dāng)美元指數(shù)下跌時(shí)物邑,就可以買入歐元獲利。

英鎊與美元指數(shù)的關(guān)系為強(qiáng)負(fù)相關(guān),英鎊的走勢(shì)與美元指數(shù)的漲跌也有一定的關(guān)聯(lián)拂封,但并不如歐元那么強(qiáng)烈。

日元與美元指數(shù)為中等程度的正相關(guān)鹦蠕,而與英鎊的價(jià)格走勢(shì)關(guān)系為0.99冒签,幾乎沒有關(guān)聯(lián)性。

最后說幾句

皮爾遜相關(guān)值的應(yīng)用場(chǎng)景遠(yuǎn)遠(yuǎn)不止這些钟病,大家盡可以腦洞大開萧恕,把看似不想關(guān)的數(shù)據(jù)關(guān)聯(lián)起來,查看關(guān)聯(lián)性是否足夠強(qiáng)肠阱。

比如票唆,是時(shí)候搞清楚這個(gè)問題了,吃木瓜與豐胸之間到底有沒有關(guān)聯(lián)性屹徘,我們分析統(tǒng)計(jì)妹紙吃木瓜的數(shù)量與cup大小之間的關(guān)聯(lián)性走趋,如果真的是強(qiáng)關(guān)聯(lián)的話,就可以嘿嘿嘿?(? ? ?)~

好了噪伊,今天的分享就到這里簿煌,想知道具體的數(shù)據(jù)結(jié)果嗎?

趕緊點(diǎn)擊關(guān)注凹怠姨伟!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市豆励,隨后出現(xiàn)的幾起案子夺荒,更是在濱河造成了極大的恐慌,老刑警劉巖良蒸,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件技扼,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡嫩痰,警方通過查閱死者的電腦和手機(jī)淮摔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來始赎,“玉大人和橙,你說我怎么就攤上這事≡於猓” “怎么了魔招?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)五辽。 經(jīng)常有香客問我办斑,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任乡翅,我火速辦了婚禮鳞疲,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蠕蚜。我一直安慰自己尚洽,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布靶累。 她就那樣靜靜地躺著腺毫,像睡著了一般。 火紅的嫁衣襯著肌膚如雪挣柬。 梳的紋絲不亂的頭發(fā)上潮酒,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音邪蛔,去河邊找鬼急黎。 笑死,一個(gè)胖子當(dāng)著我的面吹牛侧到,可吹牛的內(nèi)容都是我干的叁熔。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼床牧,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼荣回!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起戈咳,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤心软,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后著蛙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體删铃,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年踏堡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了猎唁。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡顷蟆,死狀恐怖诫隅,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情帐偎,我是刑警寧澤逐纬,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站削樊,受9級(jí)特大地震影響豁生,放射性物質(zhì)發(fā)生泄漏兔毒。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一甸箱、第九天 我趴在偏房一處隱蔽的房頂上張望育叁。 院中可真熱鬧,春花似錦芍殖、人聲如沸豪嗽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽昵骤。三九已至树碱,卻和暖如春肯适,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背成榜。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國(guó)打工框舔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人赎婚。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓刘绣,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親挣输。 傳聞我的和親對(duì)象是個(gè)殘疾皇子纬凤,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 概述及標(biāo)簽體系搭建 1 概述 隨著信息技術(shù)的迅速發(fā)展和信息內(nèi)容的日益增長(zhǎng),“信息過載”問題愈來愈嚴(yán)重撩嚼,愈發(fā)帶來很大...
    JinkeyAI閱讀 22,789評(píng)論 10 241
  • 《數(shù)據(jù)分析的統(tǒng)計(jì)基礎(chǔ)》的讀書筆記 作 者:經(jīng)管之家停士、曹正鳳 出版社:電子工業(yè)出版社 版 次:2015年2月第1...
    格式化_001閱讀 9,583評(píng)論 1 58
  • 國(guó)家電網(wǎng)公司企業(yè)標(biāo)準(zhǔn)(Q/GDW)- 面向?qū)ο蟮挠秒娦畔?shù)據(jù)交換協(xié)議 - 報(bào)批稿:20170802 前言: 排版 ...
    庭說閱讀 10,957評(píng)論 6 13
  • 我追趕著這無邊的夜晚 我追趕著他,我沖他呼喚 我追趕著殺死陽光的兇手 我追趕著萬物停滯的根源 我被他含在夢(mèng)里完丽,但我...
    季夢(mèng)VC_ETG閱讀 440評(píng)論 1 8
  • 眾所周知恋技,在UI系統(tǒng)中進(jìn)行一些耗時(shí)操作,都會(huì)導(dǎo)致卡頓現(xiàn)象逻族,因?yàn)橐淮嗡⑿略?6ms蜻底,如果當(dāng)次操作過了這個(gè)時(shí)間,那么用...
    草叢倫閱讀 2,355評(píng)論 1 10