背景知識(shí):
兩個(gè)變項(xiàng)之間的關(guān)系會(huì)有以下遞進(jìn)關(guān)系:
1、毫無(wú)關(guān)系:兩個(gè)變項(xiàng)你是你欺旧、我是我姑丑,一個(gè)陽(yáng)關(guān)道、一個(gè)獨(dú)木橋辞友。人們常說(shuō)“關(guān)你X事栅哀、關(guān)我X事”,也說(shuō)毫無(wú)相關(guān)性踏枣,當(dāng)然這里不涉及“蝴蝶效應(yīng)”那種絕對(duì)辯證唯物主義昌屉。
2、有相關(guān)性:分強(qiáng)弱茵瀑、正負(fù)间驮,上篇短文專(zhuān)門(mén)敘述http://www.reibang.com/p/ecfd913d69f6
3、回歸分析:是預(yù)設(shè)因果的相關(guān)分析马昨,兩個(gè)變項(xiàng)我們假設(shè)一個(gè)是自變項(xiàng)竞帽、另一個(gè)是因變項(xiàng)。人們都喜歡因果論鸿捧,事物終究因什么起屹篓、因什么落。了解清楚以前后匙奴,仿佛預(yù)測(cè)將來(lái)產(chǎn)生確定感堆巧,內(nèi)心便平靜許多。自變項(xiàng)為因泼菌、因變項(xiàng)為果谍肤。誰(shuí)是因誰(shuí)是果,可以由時(shí)間順序定哗伯、也可由邏輯順序定荒揣。前期只是假設(shè),之后有回歸分析確定兩變項(xiàng)是否前后呼應(yīng)焊刹、由此及彼系任】叶祝“顯著”與“不顯著”代替了“是”與“否”。
數(shù)據(jù)分析:
其實(shí)大白話就是猜測(cè)俩滥。開(kāi)始猜測(cè)嘉蕾,還是由簡(jiǎn)單到復(fù)雜吧。
1霜旧、第一種猜測(cè)法—單變項(xiàng)分析:假設(shè)只能得到一個(gè)屬性的大量數(shù)據(jù)荆针,比如說(shuō)“一個(gè)公司員工的年薪”,如前所述遵循正態(tài)分布颁糟。任意一個(gè)員工年薪是多少呢?不是瞎猜喉悴,看著正態(tài)分布圖猜測(cè)棱貌。當(dāng)然是猜平均值了,因?yàn)楦怕试谀抢锩髅靼装追胖啵骄狄粋€(gè)標(biāo)準(zhǔn)差的的范圍內(nèi)概率可是68.26%婚脱,比扔硬幣·的概率都高。具體參看:
看看誤差很大的勺像,沒(méi)辦法我們只知道年薪一個(gè)屬性障贸,這樣就是最好了,也就是現(xiàn)有條件下吟宦,誤差最小就是最好了篮洁。
2、第二種猜測(cè)法—二元回歸分析(雙變項(xiàng)回歸分析):想要再精確一點(diǎn)殃姓,只有加入限制條件袁波,為年薪找個(gè)參照,即影響年薪的條件蜗侈,比如受教育程度篷牌。假定受教育程度是自變項(xiàng)、年薪是因變項(xiàng)踏幻。這樣我們就不必只看正態(tài)分布枷颊,應(yīng)用可憐的單一概率了。
直接舉例子:spss軟件该面,輸入年薪和教育年限數(shù)據(jù)后得到結(jié)果如下
第一猜測(cè):是水平線,第二猜測(cè):是斜線吆倦,散點(diǎn)是各個(gè)實(shí)際數(shù)據(jù)听诸,從圖形直觀看每個(gè)點(diǎn)到線的距離,就是各點(diǎn)的誤差蚕泽。很明顯第二猜測(cè)比第一猜測(cè)靠譜多了晌梨。
少用公式這個(gè)不能少桥嗤,本例回歸方程(教育與年薪的關(guān)系):
y=a+bx+e——y=-18331+3909*EDUC+e
a:是斜線在x=0時(shí)y的值;
b:回歸系數(shù)分兩種仔蝌,1泛领、未標(biāo)準(zhǔn)化系數(shù) ? 利用原始數(shù)據(jù)測(cè)量單位的數(shù)值,表示當(dāng)自變項(xiàng)變化一個(gè)單位時(shí)敛惊,因變項(xiàng)發(fā)生的變化渊鞋。(1年教育使年薪變化3909元)2、標(biāo)準(zhǔn)化系數(shù) ??自變項(xiàng)變化一個(gè)標(biāo)準(zhǔn)差時(shí)瞧挤,因變項(xiàng)發(fā)生的變化標(biāo)準(zhǔn)差锡宋。另外:正負(fù)號(hào)代表正負(fù)相關(guān)。(本例中教育程度標(biāo)準(zhǔn)差2.885年特恬,年薪標(biāo)準(zhǔn)差17075.66元执俩,標(biāo)準(zhǔn)回歸系數(shù)0.661的意思是,教育程度變化2.885年癌刽,則年薪變化為17075.66*0.661=11287.88元)役首。
e:是一個(gè)提醒,告訴我們显拜,這個(gè)方程與現(xiàn)實(shí)還是存在誤差的衡奥。
3、最小二乘回歸就是把猜測(cè)誤差減小了远荠。
ordinary least squares regression 縮寫(xiě)OLS regression 直譯 普通最小平方和回歸矮固。
求出能把誤差平方和最小化的回歸系數(shù),具體求法先不考慮解釋矮台。了解最小二乘線性回歸分析乏屯,就是計(jì)算出一個(gè)回歸系數(shù),使用這個(gè)系數(shù)瘦赫,根據(jù)自變項(xiàng)的值猜測(cè)因變項(xiàng)的值辰晕,能最大程度減小根據(jù)平均值猜測(cè)所產(chǎn)生的誤差。
4确虱、判定系數(shù)R2含友,(標(biāo)準(zhǔn)回歸系數(shù)R)顯示預(yù)測(cè)準(zhǔn)確度提高了多少。
只是說(shuō)第一種猜測(cè)(正態(tài)分布的平均值)與第二種猜測(cè)(二元回歸方程)有差距校辩。第二種比第一種好窘问,好多少呢?
第一種猜測(cè)誤差是1379億宜咒,第二種猜測(cè)減少了602億惠赫,占原有誤差的43.6%,也就是R2=0.436(R=0.661)故黑。意味著猜測(cè)準(zhǔn)確度提高了43.6%儿咱。
總結(jié):二元回歸分析(加一個(gè)限制條件庭砍,預(yù)設(shè)因果關(guān)系),提高了僅用平均值猜測(cè)的準(zhǔn)確度混埠。文中沒(méi)有提及計(jì)算方法怠缸,所有計(jì)算用spss軟件代替,我們了解原理钳宪,直接用結(jié)果就好揭北。