描述性分析只能分析數(shù)據(jù)呈現(xiàn)出來的基本特征蜒车,不能挖掘變量之間深層次的關(guān)系在旱,無法為后期模型的建立及預(yù)測做準(zhǔn)備。這個時候就需要掌握推斷性分析方法历帚,第一個方法就是相關(guān)分析。
哲學(xué)告訴我們,世界是一個普遍聯(lián)系的有機整體,現(xiàn)象之間客觀上存在著某種有機聯(lián)系登渣,一種現(xiàn)象的發(fā)展變化必然受與之相聯(lián)系的其他現(xiàn)象發(fā)展變化的制約與影響。在統(tǒng)計學(xué)上禽拔,這種依存關(guān)系可以分成相關(guān)關(guān)系和回歸函數(shù)關(guān)系兩大類。
相關(guān)分析
(1)相關(guān)關(guān)系
相關(guān)關(guān)系是指現(xiàn)象之間存在著非嚴(yán)格的室叉、不確定的依存關(guān)系睹栖。這種依存關(guān)系的特點是:某一現(xiàn)象在數(shù)量上發(fā)生變化會影響到另一現(xiàn)象數(shù)量上的變化,而且這種變化在數(shù)量上具有一定的隨機性茧痕。即當(dāng)給定某一現(xiàn)象一個數(shù)值時野来,另一個現(xiàn)象會有若干個數(shù)值與之對應(yīng),并且總是遵循一定的規(guī)律踪旷,圍繞這些數(shù)值的平均數(shù)上下波動曼氛,其原因是影響現(xiàn)象發(fā)生變化的因素不止一個。例如令野,影響銷售的因素除了推廣費用外舀患,還有產(chǎn)品質(zhì)量、價格气破、渠道等因素聊浅。
(2)回歸函數(shù)關(guān)系
回歸函數(shù)關(guān)系是指現(xiàn)象之間存在著依存關(guān)系。在這種依存關(guān)系中现使,對于某一變量的每一個數(shù)值低匙,都有另一變量值與之相對應(yīng),并且這種依存關(guān)系可用一個數(shù)學(xué)表達式反映出來朴下。例如努咐,在一定條件下苦蒿,身高和體重存在著依存關(guān)系殴胧。
相關(guān)分析可分為線性相關(guān)和非線性相關(guān),線性相關(guān)也稱為直線相關(guān),非線性相關(guān)從某種意義來講也就是曲線相關(guān)团滥。
線性相關(guān)是最常用的一種竿屹,即當(dāng)一個連續(xù)變量發(fā)生變動時,另一個連續(xù)變量相應(yīng)地呈現(xiàn)線性關(guān)系變動灸姊,用皮爾遜(Pearson)相關(guān)系數(shù)R來度量拱燃。
皮爾遜相關(guān)系數(shù)R就是反映連續(xù)變量之間線性相關(guān)強度的一個度量指標(biāo),它的取值范圍限于【-1,1】力惯。R的正負(fù)號可以反映相關(guān)的方向碗誉,當(dāng)R>0時表示線性正相關(guān),當(dāng)R<0時表示線性負(fù)相關(guān)父晶。R的大小可以反映相關(guān)的程度哮缺,R=0表示兩個變量之間不存在線性關(guān)系。通常相關(guān)系數(shù)的取值與相關(guān)程度如圖:
相關(guān)分析一般通過散點圖來研究甲喝,如果變量在二維坐標(biāo)中構(gòu)成的數(shù)據(jù)點分布在一條直線的周圍尝苇,那么久說明變量間存在線性相關(guān)關(guān)系。
相關(guān)關(guān)系不等于因果關(guān)系埠胖,相關(guān)性表示兩個變量同時變化糠溜,而因果關(guān)系是一個變量導(dǎo)致另一個變量變化。例如直撤,一項統(tǒng)計研究顯示游泳時溺水人數(shù)越高非竿,冰淇淋銷售就越多,也就是游泳溺水人數(shù)和冰淇淋銷售量之間呈線性正相關(guān)谊惭。由此可以得出結(jié)論:吃冰淇淋就會增加游泳溺水的風(fēng)險嗎汽馋?顯然,這兩個事件都受夏天到了氣溫升高所影響圈盔。