數(shù)據(jù)分析之回歸分析

回歸,最初是遺傳學(xué)中的一個名詞,是由生物學(xué)家兼統(tǒng)計學(xué)家高爾頓首先提出來的衬以。他在研究人類的身高時,發(fā)現(xiàn)高個子回歸于人口的平均身高校摩,而矮個子則從另一個方向回歸于人口的平均身高看峻。

回歸分析是研究自變量和因變量之間數(shù)量變化關(guān)系的一種分析方法,它主要是通過建立因變量Y與影響它的自變量X之間的回歸模型衙吩,衡量自變量X對因變量Y的影響能力互妓,進而可以預(yù)測因變量Y的發(fā)展趨勢。例如坤塞,銷售額對廣告費用存在依存關(guān)系冯勉,通過對這一依存關(guān)系的分析,在制定下一期廣告費用的情況下摹芙,可以預(yù)測將實現(xiàn)的銷售額灼狰。

文/黃成甲

相關(guān)性分析與回歸分析的聯(lián)系與區(qū)別

相關(guān)性分析與回歸分析的聯(lián)系是:兩者均為研究及測度兩個或兩個以上變量之間關(guān)系的方法。在實際工作中浮禾,一般先進行相關(guān)分析交胚,計算相關(guān)系數(shù)份汗,然后建立回歸模型,最后用回歸模型進行推算或預(yù)測蝴簇。

相關(guān)分析與回歸分析的區(qū)別是:

(1)相關(guān)分析研究的都是隨機變量杯活,并且不分因變量和自變量;回歸分析研究的變量要定義出自變量和因變量军熏,并且自變量是確定的普通變量轩猩,因變量是隨機變量。

(2)相關(guān)分析主要是描述兩個變量之間相關(guān)關(guān)系的密切程度荡澎;回歸分析不僅可以揭示變量X對變量Y的影響程度均践,還可以根據(jù)回歸模型進行預(yù)測。

回歸分析模型主要包括線性回歸及非線性回歸兩種摩幔。線性回歸又分為簡單線性回歸彤委、多重線性回歸;而非線性回歸或衡,需要進行對數(shù)轉(zhuǎn)化等方式焦影,將其轉(zhuǎn)化為線性回歸的形式進行研究。

線性回歸分析的步驟如下:

(1)根據(jù)預(yù)測目標(biāo)封断,確定自變量和因變量

圍繞業(yè)務(wù)問題斯辰,明晰預(yù)測目標(biāo),從經(jīng)驗坡疼、常識彬呻、以往歷史數(shù)據(jù)研究等角度,初步確定自變量和因變量柄瑰。

(2)繪制散點圖闸氮,確定回歸模型類型

通過繪制散點圖的方式,從圖形化的角度初步判斷自變量和因變量之間是否具有線性相關(guān)關(guān)系教沾,同時進行相關(guān)分析蒲跨,根據(jù)相關(guān)系數(shù)判斷自變量與因變量之間的相關(guān)程度和方向,從而確定回歸模型的類型授翻。

(3)估計模型參數(shù)或悲,建立回歸模型

采用最小二乘法進行模型參數(shù)的估計,建立回歸模型堪唐。

(4)對回歸模型進行檢驗

回歸模型可能不是一次即可達到預(yù)期的巡语,通過對整個模型及各個參數(shù)的統(tǒng)計顯著性檢驗,逐步優(yōu)化和最終確立回歸模型羔杨。

(5)利用回歸模型進行預(yù)測

模型通過檢驗后捌臊,應(yīng)用到新的數(shù)據(jù)中,進行因變量目標(biāo)值的預(yù)測兜材。

簡單線性回歸分析

簡單線性回歸也稱為一元線性回歸理澎,就是回歸模型中只含一個自變量逞力,它主要用來處理一個自變量與一個因變量之間的線性關(guān)系。簡單線性回歸模型為:

Y=a+bX+ε

式中糠爬,Y:因變量寇荧,X:自變量,a:常數(shù)項执隧,是回歸直線在縱坐標(biāo)軸上的截距揩抡;b:回歸系數(shù),是回歸直線的斜率镀琉;ε:隨機誤差峦嗤,即隨機因素對因變量所產(chǎn)生的影響。

常數(shù)項a就是截距屋摔,回歸系數(shù)b就是斜率烁设,表面自變量對因變量的影響程度。那么如何得到最佳的a和b钓试,使得盡可能多的(X装黑,Y)數(shù)據(jù)點落在或者更加靠近這條擬合出來的直線上,最小二乘法就是一個較好的計算方法弓熏。

最小二乘法恋谭,又稱最小平方法,通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配挽鞠。最小二乘法名字的緣由有兩個:一是要將誤差最小化疚颊;二是將誤差最小化的方法是使誤差的平方和最小化。最小二乘法在回歸模型上的應(yīng)用滞谢,就是要使得觀測點和估計點的距離的平方和達到最小串稀,使得盡可能多的(X除抛,Y)數(shù)據(jù)點或者更加靠近這條擬合出來的直線上狮杨。

最小二乘法

在對回歸模型進行校驗時,判斷系數(shù)R2也稱擬合優(yōu)度或決定系數(shù)到忽,即相關(guān)系數(shù)R的平方橄教,用于表示擬合得到的模型能解釋因變量變化的百分比,R2越接近1喘漏,表示回歸模型擬合效果越好护蝶。

簡單線性回歸主要采用R2衡量模型擬合效果,而調(diào)整后R2用于修正因自變量個數(shù)的增加而導(dǎo)致模型擬合效果過高的情況翩迈,它多用于衡量多重線性回歸分析模型的擬合效果持灰。

線性回歸方差分析表的主要作用是通過F檢驗來判斷回歸模型的回歸效果,即檢驗因變量與所有自變量之間的線性關(guān)系是否顯著负饲,用線性模型來描述它們之間的關(guān)系是否恰當(dāng)堤魁。主要有平方和(SS)喂链、自由度(df)、均方(MS)妥泉、F(F統(tǒng)計量)椭微、顯著性(P值)五大指標(biāo)。通常只需要關(guān)注F和顯著性(P值)兩個指標(biāo)盲链,其中主要參考顯著性(P值)蝇率,因為計算出F統(tǒng)計量,還需要查找統(tǒng)計表(F分布臨界值表)刽沾,并與之進行比較大小才能得出結(jié)果本慕,而顯著性(P值)可直接與顯著性水平α(0.01,0.05)比較得出結(jié)果。

顯著性(P值)是在顯著性水平α(常用取值0.01或0.05)下F的臨界值侧漓,一般我們以此來衡量檢驗結(jié)果是否具有顯著性间狂,如果顯著性(P值)>0.05,則結(jié)果不具有顯著的統(tǒng)計學(xué)意義火架;如果0.01<顯著性(P值)<0.05鉴象,則結(jié)果具有顯著的統(tǒng)計學(xué)意義;如果顯著性(P值)<0.01何鸡,則結(jié)果具有極其顯著的統(tǒng)計學(xué)意義纺弊。

線性回歸模型回歸系數(shù)表

線性回歸模型回歸系數(shù)表,主要用于回歸模型的描述和回歸系數(shù)的顯著性檢驗骡男。即研究回歸模型中的每個自變量與因變量之間是否存在顯著的線性關(guān)系淆游,也就是研究自變量能否有效地解釋因變量的線性變化,它們能否保留在線性回歸模型中隔盛。

第1列的常量犹菱、廣告費用,分別為回歸模型中的常量與自變量X吮炕,第2列的B分別為常量a(截距)腊脱、回歸系數(shù)b(斜率),據(jù)此可以寫出簡單線性回歸模型:Y=377+14.475X龙亲,第5,6列分別是回歸系數(shù)t校驗和相應(yīng)的顯著性(P值)陕凹,顯著性(P值)同樣與顯著性水平α進行比較,本例中回歸系數(shù)顯著性(P值)=0.000<0.01鳄炉,說明回歸系數(shù)b具有極其顯著的統(tǒng)計學(xué)意義杜耙,即因變量“銷售量”和自變量“廣告費用”之間存在極其顯著的線性關(guān)系。

第4列的標(biāo)準(zhǔn)化系數(shù)用來測量自變量對因變量的重要性拂盯,只有將因變量和自變量標(biāo)準(zhǔn)化到統(tǒng)一的量綱下才能進行重要性的比較與衡量佑女,本例中標(biāo)準(zhǔn)化系數(shù)為0.816,與相關(guān)系數(shù)結(jié)果是一致的。如果進行模型的使用與預(yù)測团驱,還是需要使用非標(biāo)準(zhǔn)化系數(shù)簸呈。

多重線性回歸分析

簡單線性回歸模型只考慮單因素影響煤蚌,事實上蒿涎,影響因變量的因素往往不止一個,可能會有多個影響因素哨坪,這就需要用到多重線性回歸分析贩幻。多重線性回歸與多元線性回歸區(qū)別就看因變量或自變量的個數(shù)轿腺,多重線性回歸是指包含兩個或兩個以上自變量的線性回歸模型,而多元線性回歸是指包含兩個或兩個以上因變量的線性回歸模型丛楚。所以族壳,多重線性回歸模型為:

多重線性回歸

多重線性回歸分析采用矩陣散點圖。

矩陣散點圖

5種自變量步進方法:

?變量選擇方法

多重線性回歸中涉及多個自變量趣些,建議采用“步進”方法較為穩(wěn)健仿荆,一般也稱之為逐步回歸法,是“后退”坏平、“前進”兩種方法的結(jié)合拢操。逐步回歸會根據(jù)每個自變量對模型的貢獻對自變量進行依次篩選,逐步剔除那些沒有顯著統(tǒng)計學(xué)意義的自變量舶替,直至再也沒有不顯著的自變量從回歸模型中剔除為止令境,這是一個模型自動優(yōu)化的過程,在多重線性回歸中應(yīng)用較廣顾瞪。

線性回歸模型匯總表

多重線性回歸模型的擬合效果主要看第4列舔庶,調(diào)整后R方,它主要用于衡量在多重線性回歸模型建立過程中加入其它自變量后模型擬合優(yōu)度的變化陈醒。本例中調(diào)整后R方為0.732惕橙,也就是說,“廣告費用”钉跷,“客流量”兩個自變量合起來能夠解釋模型變化的73.2%弥鹦,模型擬合效果良好。

線性回歸方差分析表

線性回歸方差分析表尘应,模型1的方差分析結(jié)果惶凝,F(xiàn)檢驗的顯著性(P值)=0.000<0.01吼虎,即認(rèn)為模型1在0.01顯著性水平下犬钢,由自由變量“客流量”、“廣告費用”和因變量“銷售額”建立起來的線性關(guān)系具有極其顯著的統(tǒng)計學(xué)意義思灰。

線性回歸模型回歸系數(shù)表

第1列常量玷犹、廣告費用、客流量分別為回歸模型中的常量與自變量x1和x2洒疚,第2列的B值分別為常量a(截距)歹颓、偏回歸系數(shù)b1和b2坯屿;據(jù)此可以寫出多重線性回歸模型:

Y=363.31+7.229X1+16.38X2,第4列為標(biāo)準(zhǔn)化系數(shù)巍扛,用來測量自變量對因變量的重要性领跛,,本例子X1撤奸,X2標(biāo)準(zhǔn)化系數(shù)分別為0.407,0.499吠昭,也就是說,客流量對銷售額的影響要大于廣告費用對銷售額的影響胧瓜。

第5,6列分別是偏回歸系數(shù)t檢驗和相應(yīng)的顯著性(P值)矢棚,限制性(P值)同樣與顯著性水平α進行比較,本例中偏回歸系數(shù)b1顯著性(P值)=0.012<0.05府喳,說明偏回歸系數(shù)b1具有顯著的統(tǒng)計學(xué)意義蒲肋,偏回歸系數(shù)b2顯著性(P值)=0.003<0.01,說明偏回歸系數(shù)b2具有極其顯著的統(tǒng)計學(xué)意義钝满,即因變量“銷售額”和自變量“廣告費用”兜粘、“客流量”之間至少存在顯著的線性關(guān)系。

回歸分析用于什么

(1)更好的了解

對某一現(xiàn)象建模弯蚜,以更好地了解該現(xiàn)象并有可能基于對該現(xiàn)象的了解來影響政策的制定以及決定采取何種相應(yīng)措施妹沙。基本目標(biāo)是測量一個或多個變量的變化對另一變量變化的影響程度熟吏。示例:了解某些特定瀕危鳥類的主要棲息地特征(例如:降水距糖、食物源、植被牵寺、天敵)悍引,以協(xié)助通過立法來保護該物種。

(2)建模預(yù)測

對某種現(xiàn)象建模以預(yù)測其他地點或其他時間的數(shù)值帽氓∪そ铮基本目標(biāo)是構(gòu)建一個持續(xù)、準(zhǔn)確的預(yù)測模型黎休。示例:如果已知人口增長情況和典型的天氣狀況浓领,那么明年的用電量將會是多少?

(3)探索檢驗假設(shè)

還可以使用回歸分析來深入探索某些假設(shè)情況势腮。假設(shè)您正在對住宅區(qū)的犯罪活動進行建模联贩,以更好地了解犯罪活動并希望實施可能阻止犯罪活動的策略。開始分析時捎拯,您很可能有很多問題或想要檢驗的假設(shè)情況泪幌。

回歸分析的作用主要有以下幾點:

1)挑選與因變量相關(guān)的自變量;

2)描述因變量與自變量之間的關(guān)系強度;

3)生成模型祸泪,通過自變量來預(yù)測因變量吗浩;

4)根據(jù)模型,通過因變量没隘,來控制自變量懂扼。

回歸分析方法

1)線性回歸

線性回歸它是最為人熟知的建模技術(shù)之一。線性回歸通常是人們在學(xué)習(xí)預(yù)測模型時首選的少數(shù)幾種技術(shù)之一右蒲。在該技術(shù)中微王,因變量是連續(xù)的,自變量(單個或多個)可以是連續(xù)的也可以是離散的品嚣,回歸線的性質(zhì)是線性的炕倘。線性回歸使用最佳的擬合直線(也就是回歸線)建立因變量

(Y) 和一個或多個自變量 (X) 之間的聯(lián)系。用一個等式來表示它翰撑,即:

Y=a+b*X + e

其中a 表示截距罩旋,b 表示直線的傾斜率,e 是誤差項眶诈。這個等式可以根據(jù)給定的單個或多個預(yù)測變量來預(yù)測目標(biāo)變量的值涨醋。

一元線性回歸和多元線性回歸的區(qū)別在于,多元線性回歸有一個以上的自變量逝撬,而一元線性回歸通常只有一個自變量浴骂。

線性回歸要點:

1)自變量與因變量之間必須有線性關(guān)系;

2)多元回歸存在多重共線性宪潮,自相關(guān)性和異方差性溯警;

3)線性回歸對異常值非常敏感。它會嚴(yán)重影響回歸線狡相,最終影響預(yù)測值梯轻;

4)多重共線性會增加系數(shù)估計值的方差,使得估計值對于模型的輕微變化異常敏感尽棕,結(jié)果就是系數(shù)估計值不穩(wěn)定喳挑;

5)在存在多個自變量的情況下,我們可以使用向前選擇法滔悉,向后剔除法和逐步篩選法來選擇最重要的自變量伊诵。

2)Logistic回歸

Logistic回歸可用于發(fā)現(xiàn) “事件=成功”和“事件=失敗”的概率。當(dāng)因變量的類型屬于二元(1 / 0回官、真/假曹宴、是/否)變量時,我們就應(yīng)該使用邏輯回歸孙乖。這里浙炼,Y 的取值范圍是從 0 到 1份氧,它可以用下面的等式表示:

odds= p/ (1-p) = 某事件發(fā)生的概率/ 某事件不發(fā)生的概率

ln(odds) = ln(p/(1-p))

logit(p) = ln(p/(1-p)) =b0+b1X1+b2X2+b3X3....+bkXk

如上唯袄,p表述具有某個特征的概率弯屈。在這里我們使用的是的二項分布(因變量),我們需要選擇一個最適用于這種分布的連結(jié)函數(shù)恋拷。它就是Logit 函數(shù)资厉。在上述等式中,通過觀測樣本的極大似然估計值來選擇參數(shù)蔬顾,而不是最小化平方和誤差(如在普通回歸使用的)宴偿。

Logistic要點:

1)Logistic回歸廣泛用于分類問題;

2)Logistic回歸不要求自變量和因變量存在線性關(guān)系诀豁。它可以處理多種類型的關(guān)系窄刘,因為它對預(yù)測的相對風(fēng)險指數(shù)使用了一個非線性的 log 轉(zhuǎn)換;

3)為了避免過擬合和欠擬合舷胜,我們應(yīng)該包括所有重要的變量娩践。有一個很好的方法來確保這種情況,就是使用逐步篩選方法來估計Logistic回歸烹骨;

4)Logistic回歸需要較大的樣本量翻伺,因為在樣本數(shù)量較少的情況下,極大似然估計的效果比普通的最小二乘法差沮焕;

5)自變量之間應(yīng)該互不相關(guān)吨岭,即不存在多重共線性。然而峦树,在分析和建模中辣辫,我們可以選擇包含分類變量相互作用的影響;

6)如果因變量的值是定序變量魁巩,則稱它為序Logistic回歸络它;

7)如果因變量是多類的話,則稱它為多元Logistic回歸歪赢。

3)Cox回歸

Cox回歸的因變量就有些特殊化戳,它不經(jīng)考慮結(jié)果而且考慮結(jié)果出現(xiàn)時間的回歸模型。它用一個或多個自變量預(yù)測一個事件(死亡埋凯、失敗或舊病復(fù)發(fā))發(fā)生的時間点楼。Cox回歸的主要作用發(fā)現(xiàn)風(fēng)險因素并用于探討風(fēng)險因素的強弱。但它的因變量必須同時有2個白对,一個代表狀態(tài)掠廓,必須是分類變量,一個代表時間甩恼,應(yīng)該是連續(xù)變量蟀瞧。只有同時具有這兩個變量沉颂,才能用Cox回歸分析。Cox回歸主要用于生存資料的分析悦污,生存資料至少有兩個結(jié)局變量铸屉,一是死亡狀態(tài),是活著還是死亡切端;二是死亡時間彻坛,如果死亡,什么時間死亡踏枣?如果活著昌屉,從開始觀察到結(jié)束時有多久了?所以有了這兩個變量茵瀑,就可以考慮用Cox回歸分析间驮。

4)poisson回歸

通常,如果能用Logistic回歸马昨,通常也可以用poission回歸竞帽,poisson回歸的因變量是個數(shù),也就是觀察一段時間后偏陪,發(fā)病了多少人或是死亡了多少人等等抢呆。其實跟Logistic回歸差不多,因為logistic回歸的結(jié)局是是否發(fā)病笛谦,是否死亡抱虐,也需要用到發(fā)病例數(shù)、死亡例數(shù)饥脑。

5)Probit回歸

Probit回歸意思是“概率回歸”恳邀。用于因變量為分類變量數(shù)據(jù)的統(tǒng)計分析,與Logistic回歸近似灶轰。也存在因變量為二分谣沸、多分與有序的情況。目前最常用的為二分笋颤。醫(yī)學(xué)研究中常見的半數(shù)致死劑量乳附、半數(shù)有效濃度等劑量反應(yīng)關(guān)系的統(tǒng)計指標(biāo),現(xiàn)在標(biāo)準(zhǔn)做法就是調(diào)用Pribit過程進行統(tǒng)計分析伴澄。

6)負(fù)二項回歸

所謂負(fù)二項指的是一種分布赋除,其實跟poission回歸、logistic回歸有點類似非凌,poission回歸用于服從poission分布的資料举农,logistic回歸用于服從二項分布的資料,負(fù)二項回歸用于服從負(fù)二項分布的資料敞嗡。如果簡單點理解颁糟,二項分布可以認(rèn)為就是二分類數(shù)據(jù)航背,poission分布就可以認(rèn)為是計數(shù)資料,也就是個數(shù)棱貌,而不是像身高等可能有小數(shù)點玖媚,個數(shù)是不可能有小數(shù)點的。負(fù)二項分布键畴,也是個數(shù)最盅,只不過比poission分布更苛刻突雪,如果結(jié)局是個數(shù)起惕,而且結(jié)局可能具有聚集性,那可能就是負(fù)二項分布咏删。簡單舉例惹想,如果調(diào)查流感的影響因素,結(jié)局當(dāng)然是流感的例數(shù)督函,如果調(diào)查的人有的在同一個家庭里嘀粱,由于流感具有傳染性,那么同一個家里如果一個人得流感辰狡,那其他人可能也被傳染锋叨,因此也得了流感,那這就是具有聚集性宛篇,這樣的數(shù)據(jù)盡管結(jié)果是個數(shù)娃磺,但由于具有聚集性,因此用poission回歸不一定合適叫倍,就可以考慮用負(fù)二項回歸偷卧。

7)weibull回歸

中文有時音譯為威布爾回歸。關(guān)于生存資料的分析常用的是cox回歸吆倦,這種回歸幾乎統(tǒng)治了整個生存分析听诸。但其實夾縫中還有幾個方法在頑強生存著,而且其實很有生命力蚕泽。weibull回歸就是其中之一晌梨。cox回歸受歡迎的原因是它簡單,用的時候不用考慮條件(除了等比例條件之外)须妻,大多數(shù)生存數(shù)據(jù)都可以用仔蝌。而weibull回歸則有條件限制,用的時候數(shù)據(jù)必須符合weibull分布璧南。如果數(shù)據(jù)符合weibull分布掌逛,那么直接套用weibull回歸自然是最理想的選擇,它可以給出最合理的估計司倚。如果數(shù)據(jù)不符合weibull分布豆混,那如果還用weibull回歸篓像,那就套用錯誤,結(jié)果也就會缺乏可信度皿伺。weibull回歸就像是量體裁衣员辩,把體形看做數(shù)據(jù),衣服看做模型鸵鸥,weibull回歸就是根據(jù)某人實際的體形做衣服奠滑,做出來的也就合身,對其他人就不一定合身了妒穴。cox回歸宋税,就像是到商場去買衣服,衣服對很多人都合適讼油,但是對每個人都不是正合適杰赛,只能說是大致合適。至于到底是選擇麻煩的方式量體裁衣矮台,還是選擇簡單到商場直接去買現(xiàn)成的乏屯,那就根據(jù)個人傾向,也根據(jù)具體對自己體形的了解程度瘦赫,如果非常熟悉辰晕,自然選擇量體裁衣更合適。如果不大了解确虱,那就直接去商場買大眾化衣服相對更方便些含友。

8)主成分回歸

主成分回歸是一種合成的方法,相當(dāng)于主成分分析與線性回歸的合成蝉娜。主要用于解決自變量之間存在高度相關(guān)的情況唱较。這在現(xiàn)實中不算少見。比如要分析的自變量中同時有血壓值和血糖值召川,這兩個指標(biāo)可能有一定的相關(guān)性南缓,如果同時放入模型,會影響模型的穩(wěn)定荧呐,有時也會造成嚴(yán)重后果汉形,比如結(jié)果跟實際嚴(yán)重不符。當(dāng)然解決方法很多倍阐,最簡單的就是剔除掉其中一個概疆,但如果實在舍不得,覺得刪了太可惜峰搪,那就可以考慮用主成分回歸岔冀,相當(dāng)于把這兩個變量所包含的信息用一個變量來表示,這個變量我們稱它叫主成分概耻,所以就叫主成分回歸使套。當(dāng)然罐呼,用一個變量代替兩個變量,肯定不可能完全包含他們的信息侦高,能包含80%或90%就不錯了嫉柴。但有時候我們必須做出抉擇,你是要100%的信息奉呛,但是變量非常多的模型计螺?還是要90%的信息,但是只有1個或2個變量的模型瞧壮?打個比方登馒,你要診斷感冒,是不是必須把所有跟感冒有關(guān)的癥狀以及檢查結(jié)果都做完馁痴?還是簡單根據(jù)幾個癥狀就大致判斷呢谊娇?我想根據(jù)幾個癥狀大致能確定90%是感冒了肺孤,不用非得100%的信息不是嗎罗晕?模型也是一樣,模型是用于實際的赠堵,不是空中樓閣小渊。既然要用于實際,那就要做到簡單茫叭。對于一種疾病酬屉,如果30個指標(biāo)能夠100%確診,而3個指標(biāo)可以診斷80%揍愁,我想大家會選擇3個指標(biāo)的模型呐萨。這就是主成分回歸存在的基礎(chǔ),用幾個簡單的變量把多個指標(biāo)的信息綜合一下莽囤,這樣幾個簡單的主成分可能就包含了原來很多自變量的大部分信息谬擦。這就是主成分回歸的原理。

9)嶺回歸

當(dāng)數(shù)據(jù)之間存在多重共線性(自變量高度相關(guān))時朽缎,就需要使用嶺回歸分析惨远。在存在多重共線性時,盡管最小二乘法(OLS)測得的估計值不存在偏差话肖,它們的方差也會很大北秽,從而使得觀測值與真實值相差甚遠。嶺回歸通過給回歸估計值添加一個偏差值最筒,來降低標(biāo)準(zhǔn)誤差贺氓。

上面,我們看到了線性回歸等式:

y=a+ b*x

這個等式也有一個誤差項床蜘。完整的等式是:

y=a+b*x+e (誤差項), [誤差項是用以糾正觀測值與預(yù)測值之間預(yù)測誤差的值]

=> y=a+y= a+ b1x1+ b2x2+....+e, 針對包含多個自變量的情形辙培。

在線性等式中缅叠,預(yù)測誤差可以劃分為 2 個分量,一個是偏差造成的虏冻,一個是方差造成的肤粱。預(yù)測誤差可能會由這兩者或兩者中的任何一個造成。在這里厨相,我們將討論由方差所造成的誤差领曼。嶺回歸通過收縮參數(shù) λ(lambda)解決多重共線性問題。請看下面的等式:

在這個等式中蛮穿,有兩個組成部分庶骄。第一個是最小二乘項,另一個是 β2(β-平方)和的 λ 倍践磅,其中 β 是相關(guān)系數(shù)单刁。λ 被添加到最小二乘項中用以縮小參數(shù)值,從而降低方差值府适。

嶺回歸要點:

1)除常數(shù)項以外羔飞,嶺回歸的假設(shè)與最小二乘回歸相同;

2)它收縮了相關(guān)系數(shù)的值檐春,但沒有達到零逻淌,這表明它不具有特征選擇功能;

3)這是一個正則化方法疟暖,并且使用的是 L2 正則化卡儒。

10)偏最小二乘回歸

偏最小二乘回歸也可以用于解決自變量之間高度相關(guān)的問題。但比主成分回歸和嶺回歸更好的一個優(yōu)點是俐巴,偏最小二乘回歸可以用于例數(shù)很少的情形骨望,甚至例數(shù)比自變量個數(shù)還少的情形。所以欣舵,如果自變量之間高度相關(guān)擎鸠、例數(shù)又特別少、而自變量又很多邻遏,那就用偏最小二乘回歸就可以了糠亩。它的原理其實跟主成分回歸有點像,也是提取自變量的部分信息准验,損失一定的精度赎线,但保證模型更符合實際。因此這種方法不是直接用因變量和自變量分析糊饱,而是用反映因變量和自變量部分信息的新的綜合變量來分析垂寥,所以它不需要例數(shù)一定比自變量多。偏最小二乘回歸還有一個很大的優(yōu)點,那就是可以用于多個因變量的情形滞项,普通的線性回歸都是只有一個因變量狭归,而偏最小二乘回歸可用于多個因變量和多個自變量之間的分析。因為它的原理就是同時提取多個因變量和多個自變量的信息重新組成新的變量重新分析文判,所以多個因變量對它來說無所謂过椎。

11)多項式回歸

對于一個回歸等式,如果自變量的指數(shù)大于1戏仓,那么它就是多項式回歸等式疚宇。如下等式所示:

y=a+b*x^2

在這種回歸技術(shù)中,最佳擬合線不是直線赏殃。而是一個用于擬合數(shù)據(jù)點的曲線敷待。

多項式回歸要點:

1)雖然存在通過高次多項式得到較低的錯誤的趨勢,但這可能會導(dǎo)致過擬合仁热。需要經(jīng)常畫出關(guān)系圖來查看擬合情況榜揖,并確保擬合曲線正確體現(xiàn)了問題的本質(zhì)。下面是一個圖例抗蠢,可以幫助理解:

2)須特別注意尾部的曲線举哟,看看這些形狀和趨勢是否合理。更高次的多項式最終可能產(chǎn)生怪異的推斷結(jié)果物蝙。

12)逐步回歸

該回歸方法可用于在處理存在多個自變量的情形炎滞。在該技術(shù)中,自變量的選取需要借助自動處理程序诬乞,無須人為干預(yù)。通過觀察統(tǒng)計的值钠导,如

R-square震嫉、t-stats和 AIC

指標(biāo),來識別重要的變量牡属,可以實現(xiàn)這一需求票堵。逐步回歸通過同時添加/去除基于指定標(biāo)準(zhǔn)的協(xié)變量來擬合模型。下面列出了一些最常用的逐步回歸方法:

1)標(biāo)準(zhǔn)逐步回歸法需要做兩件事情逮栅,即根據(jù)需要為每個步驟添加和刪除預(yù)測因子悴势;

2)向前選擇法從模型中最重要的預(yù)測因子開始,然后為每一步添加變量措伐;

3)向后剔除法從模型中所有的預(yù)測因子開始特纤,然后在每一步刪除重要性最低的變量。

這種建模技術(shù)的目的是使用最少的預(yù)測因子變量來最大化預(yù)測能力侥加。這也是處理高維數(shù)據(jù)集的方法之一捧存。

13)套索回歸

與嶺回歸類似,套索也會對回歸系數(shù)的絕對值添加一個罰值。此外昔穴,它能降低偏差并提高線性回歸模型的精度镰官。看看下面的等式:

套索回歸與嶺回歸有一點不同吗货,它在懲罰部分使用的是絕對值泳唠,而不是平方值。這導(dǎo)致懲罰(即用以約束估計的絕對值之和)值使一些參數(shù)估計結(jié)果等于零宙搬。使用的懲罰值越大警检,估計值會越趨近于零。這將導(dǎo)致我們要從給定的n個變量之外選擇變量害淤。

套索回歸要點:

1)除常數(shù)項以外扇雕,這種回歸的假設(shè)與最小二乘回歸類似;

2)它將收縮系數(shù)縮減至零(等于零)窥摄,這確實有助于特征選擇镶奉;

3)這是一個正則化方法,使用的是 L1 正則化崭放;

4)如果一組預(yù)測因子是高度相關(guān)的哨苛,套索回歸會選出其中一個因子并且將其它因子收縮為零。

14)ElasticNet 回歸

ElasticNet

回歸是套索回歸和嶺回歸的組合體币砂。它會事先使用 L1 和 L2 作為正則化矩陣進行訓(xùn)練建峭。當(dāng)存在多個相關(guān)的特征時,Elastic-net

會很有用决摧。嶺回歸一般會隨機選擇其中一個特征亿蒸,而 Elastic-net

則會選擇其中的兩個。同時包含嶺回歸和套索回歸的一個切實的優(yōu)點是掌桩,ElasticNet 回歸可以在循環(huán)狀態(tài)下繼承嶺回歸的一些穩(wěn)定性边锁。

ElasticNet 回歸要點:

1)在高度相關(guān)變量的情況下,它會產(chǎn)生群體效應(yīng)波岛;

2)選擇變量的數(shù)目沒有限制茅坛;

3)它可以承受雙重收縮。

2.如何選擇回歸模型

當(dāng)只了解一兩種回歸技術(shù)的時候则拷,情況往往會比較簡單贡蓖。然而,當(dāng)我們在應(yīng)對問題時可供選擇的方法越多煌茬,選擇正確的那一個就越難斥铺。類似的情況下也發(fā)生在回歸模型中。

掌握多種回歸模型時宣旱,基于自變量和因變量的類型仅父、數(shù)據(jù)的維數(shù)以及數(shù)據(jù)的其它基本特征去選擇最合適的技術(shù)非常重要叛薯。以下是要選擇正確的回歸模型時需要考慮的主要因素:

1)數(shù)據(jù)探索是構(gòu)建預(yù)測模型的不可或缺的部分。在選擇合適的模型前笙纤,比如識別變量的關(guān)系和影響耗溜,應(yīng)該首先執(zhí)行這一步驟。

2)比較不同模型的擬合優(yōu)點省容,我們可以分析不同的指標(biāo)參數(shù)抖拴,如統(tǒng)計意義的參數(shù),R-square腥椒,調(diào)整

R-square阿宅,AIC,BIC以及誤差項笼蛛,另一個是 Mallows’ Cp

準(zhǔn)則洒放。這個主要是通過將所選的模型與所有可能的子模型(或仔細挑選的一組模型)進行對比,檢查可能出現(xiàn)的偏差滨砍。

3)交叉驗證是評估預(yù)測模型最好的方法往湿。使用該方法,需將數(shù)據(jù)集分成兩份(一份用于訓(xùn)練惋戏,一份用于驗證)领追。使用觀測值和預(yù)測值之間的均方差即可快速衡量預(yù)測精度。

4)如果數(shù)據(jù)集中存在是多個混合變量响逢,那就不應(yīng)選擇自動模型選擇方法绒窑,因為我們并不愿意將所有變量同時放在同一個模型中。

5)所選擇的回歸技術(shù)也取決于你的目的舔亭⌒┡颍可能會出現(xiàn)這樣的情況,一個不太強大的模型與具有高度統(tǒng)計學(xué)意義的模型相比分歇,更易于實現(xiàn)傀蓉。

6)回歸正則化方法(套索,嶺和ElasticNet)在高維數(shù)據(jù)和數(shù)據(jù)集變量之間存在多重共線性的情況下運行良好职抡。

診斷回歸分析結(jié)果

為了理解、解釋误甚、預(yù)測某個問題缚甩,我們會進行回歸分析。但事實上窑邦,選擇一組優(yōu)質(zhì)的自變量并不是那么容易。通常我們會根據(jù)一些常識、理論基礎(chǔ)圆丹、某些研究界逛、專家的意見、參考文獻等等選擇一組自變量,來進行自變量的篩選厉熟。因此导盅,我們需要診斷回歸分析的質(zhì)量——回歸分析的結(jié)果診斷。

1.自變量與因變量是否具有預(yù)期的關(guān)系

每個自變量都會有一個系數(shù)揍瑟,系數(shù)具有+/-號白翻,來表示自變量與因變量的關(guān)系。從工具的得到的報告中绢片,我們看到的系數(shù)的正負(fù)滤馍,每個自變量應(yīng)該是我們期望的關(guān)系。如果有非常不符合邏輯的系數(shù)底循,我們就應(yīng)該考慮剔除它了巢株。

當(dāng)然,有時也可能得到與常識不同的結(jié)論熙涤。舉個例子阁苞,假如我們在研究森林火災(zāi),我們通常認(rèn)為降雨充沛的區(qū)域火災(zāi)的發(fā)生率會相對較低灭袁,也就是所謂的負(fù)相關(guān)猬错,但是,這片森林火災(zāi)頻發(fā)的原因可能是閃電雷擊茸歧,這樣降雨量這個自變量可能就不是常識中的負(fù)相關(guān)的關(guān)系了倦炒。

因此,我們除了驗證自變量的系數(shù)與先驗知識是否相符外软瞎,還有繼續(xù)結(jié)合其他項檢查繼續(xù)診斷逢唤,從而得出更可靠的結(jié)論。

2.自變量對模型是否有幫助

自變量對模型有無幫助說的就是自變量是否有顯著性涤浇。那如何了解這些自變量是否有顯著性呢鳖藕?

如果自變量的系數(shù)為零(或非常接近零),我們認(rèn)為這個自變量對模型沒有幫助只锭,統(tǒng)計檢驗就用來計算系數(shù)為零的概率著恩。如果統(tǒng)計檢驗返回一個小概率值(p值),則表示系數(shù)為零的概率很小蜻展。如果概率小于0.05喉誊,匯總報告上概率(Probability)旁邊的一個星號(*)表示相關(guān)自變量對模型非常重要。換句話說纵顾,其系數(shù)在95%置信度上具有統(tǒng)計顯著性伍茄。

利用空間數(shù)據(jù)在研究區(qū)域內(nèi)建模的關(guān)系存在差異是非常常見的,這些關(guān)系的特征就是不穩(wěn)定施逾。我們就需要通過穩(wěn)健概率(robust probability)了解一個自變量是否具有統(tǒng)計顯著性敷矫。

3.殘差是否有空間聚類

殘差在空間上應(yīng)該是隨機分布的例获,而不應(yīng)該出現(xiàn)聚類。這項檢查我們可以使用空間自相關(guān)工具(Spatial Autocorrelation Tool)工具進行檢查曹仗。

4.模型是否出現(xiàn)了傾向性

我們常說榨汤,不要戴著“有色眼鏡”看人。同樣整葡,回歸分析模型中件余,也不要帶有“成見”,不能具有傾向性遭居,否則啼器,這不是個客觀合理的模型。

我們都知道正態(tài)分布是個極好的分布模式俱萍,如果我們正確的構(gòu)建了回歸分析模型端壳,那么模型的殘差會符合完美的正態(tài)分布,其圖形為鐘形曲線枪蘑。

當(dāng)模型出現(xiàn)偏差時损谦,可能我們看到的圖形也是詭異的,這樣我們就無法完全信任所預(yù)測的結(jié)果岳颇。

5.自變量中是否存在冗余

在我們建模的過程中照捡,應(yīng)盡量去選擇表示各個不同方面的自變量,也就是盡量避免傳達相同或相似信息的自變量话侧。要清楚栗精,引入了冗余變量的模型是不足以信任的。

6.評估模型的性能

最后需要做的是瞻鹏,評估模型的性能悲立。矯R2值是評估自變量對因變量建模的重要度量。

這項檢查應(yīng)該放到最后新博。一旦我們通過了前面的所有檢驗薪夕,接下來就可以進行評估矯正R2值。

R2值的范圍介于0和1之間赫悄,以百分比形式表示原献。假設(shè)正在為犯罪率建模,并找到一個通過之前所有五項檢查的模型埂淮,其校正

R2值為0.65嚼贡。這樣就可以了解到模型中的自變量說明犯罪率是65%。在有些科學(xué)領(lǐng)域同诫,能夠解釋復(fù)雜現(xiàn)象的 23%

就會讓人興奮不已。在其他領(lǐng)域樟澜,一個R2值可能需要更靠近80%或90%才能引起別人的注意误窖。不管采用哪一種方式叮盘,校正R2值都會幫我們判斷自己模型的性能。

另一項輔助評估模型性能的重要診斷是修正的Akaike信息準(zhǔn)則/Akaike’sinformation

criterion

(AIC)霹俺。AIC值是用于比較多個模型的一項有用度量柔吼。例如,可能希望嘗試用幾組不同的自變量為學(xué)生的分?jǐn)?shù)建模丙唧。在一個模型中僅使用人口統(tǒng)計變量愈魏,而在另一個模型選擇有關(guān)學(xué)校和教室的變量,如每位學(xué)生的支出和師生比想际。只要所有進行比較的模型的因變量(在本示例中為學(xué)生測試分?jǐn)?shù))相同培漏,我們就可以使用來自每個模型的

AIC值確定哪一個的表現(xiàn)更好。模型的AIC值越小胡本,越適合觀測的數(shù)據(jù)牌柄。

回歸設(shè)計常用軟件

目前,用于回歸設(shè)計的統(tǒng)計軟件較多侧甫,無論是對回歸方案設(shè)計珊佣,還是對試驗數(shù)據(jù)處理和回歸設(shè)計成果的應(yīng)用分析,都有相應(yīng)的軟件支撐披粟,或是自編自用的專業(yè)軟件咒锻,或是具有商業(yè)性質(zhì)的統(tǒng)計軟件包,多種多樣守屉,各有特色惑艇。為了便于回歸設(shè)計的更好應(yīng)用,這里簡要地介紹挑選或評價統(tǒng)計軟件的基本思考以及幾種回歸設(shè)計常用的統(tǒng)計軟件胸梆,以利相關(guān)人員簡捷地選用敦捧。

1.統(tǒng)計軟件的選用原則

在挑選或評價統(tǒng)計軟件時,應(yīng)從以下幾個方面加以考慮:

1)可用性

一個軟件如果能為用戶提供良好的用戶界面碰镜、靈活的處理方式和簡明的語句或命令兢卵,就稱這個軟件可用性強。隨著統(tǒng)計軟件在可用性方面的不斷進步绪颖,很多統(tǒng)計軟件的語法規(guī)則簡明秽荤、靈活、學(xué)用方便柠横,這是人們非常歡迎的窃款。

2)數(shù)據(jù)管理

數(shù)據(jù)錄人、核查牍氛、修改晨继、轉(zhuǎn)換和選擇,統(tǒng)稱為數(shù)據(jù)管理搬俊。好的軟件紊扬,如SAS(

statistical analysis system)蜒茄,SPSS(statistical package for thesocial

science) 等的數(shù)據(jù)管理功能已近似大眾化的數(shù)據(jù)庫軟件。統(tǒng)計軟件與數(shù)據(jù)庫軟件之間建立接口餐屎,使數(shù)據(jù)管理不斷深人檀葛,用起來非常方便。

3)文件管理

數(shù)據(jù)文件腹缩、程序文件屿聋、結(jié)果文件等一些文件的建立、存取藏鹊、修改润讥、合并等,統(tǒng)稱為文件管理伙判。它的功能越強象对,操作就越簡單,越方便宴抚。由于操作系統(tǒng)本身文件管理功能較強勒魔。因此,從統(tǒng)計軟件直接調(diào)用操作系統(tǒng)的命令可大大增強其文件管理功能」角現(xiàn)在好的統(tǒng)計軟件已設(shè)計了這類調(diào)用指令冠绢。

4)統(tǒng)計分析

統(tǒng)計分析是統(tǒng)計軟件的核心。統(tǒng)計分析方法的計算機程序的數(shù)量和種類決定了數(shù)據(jù)處理的深度常潮。有些軟件弟胀,如SAS,BMDP(

biomedical computer

programs)等喊式。所包括的分析過程孵户,足夠科研與管理之需。由于統(tǒng)計量的選擇岔留,參數(shù)估計的方法等是多種多樣的夏哭,用戶往往希望統(tǒng)計分析過程盡可能多地提供選項,這樣可以提高統(tǒng)計分析的靈活性和深度献联。

5)容量

盡管處理的數(shù)據(jù)量與計算機硬件有直接關(guān)系竖配,然而,軟件的設(shè)計和程序編寫技巧仍起很大作用里逆。軟件好进胯,在一定程度上可以彌補硬件的不足,而低水平的軟件會浪費很好的硬件配置原押。通常胁镐,統(tǒng)計軟件應(yīng)至少能同時進行不小于10個變量的上千個數(shù)據(jù)點的分析、綜合、對比與預(yù)測希停。

2.SAS軟件系統(tǒng)

SAS軟件系統(tǒng)于20世紀(jì)70年代由美國SAS研究所開發(fā)烁巫。SAS軟件是用于決策支援的大型集成資訊系統(tǒng),但該軟件系統(tǒng)最早的功能限于統(tǒng)計分析宠能;至今,統(tǒng)計分析功能也仍是它的重要模組和核心功能磁餐。SAS已經(jīng)遍布全世界违崇,重要應(yīng)用領(lǐng)域涵蓋政府的經(jīng)濟決策與企業(yè)的決策支援應(yīng)用等,使用的單位遍及金融诊霹、醫(yī)藥衛(wèi)生羞延、生產(chǎn)、運輸脾还、通訊伴箩、科學(xué)研究、政府和教育等領(lǐng)域鄙漏;在資料處理和統(tǒng)計分析領(lǐng)域嗤谚,SAS系統(tǒng)被譽統(tǒng)計軟件界的巨無霸。

SAS

是一個模塊化怔蚌、集成化的大型應(yīng)用軟件系統(tǒng)巩步。它由數(shù)十個專用模塊構(gòu)成,功能包括數(shù)據(jù)訪問桦踊、數(shù)據(jù)儲存及管理椅野、應(yīng)用開發(fā)、圖形處理籍胯、數(shù)據(jù)分析竟闪、報告編制、運籌學(xué)方法杖狼、計量經(jīng)濟學(xué)與預(yù)測等等炼蛤。

SAS系統(tǒng)基本上可以分為四大部分:SAS數(shù)據(jù)庫部分;SAS分析核心本刽;SAS開發(fā)呈現(xiàn)工具鲸湃;SAS對分布處理模式的支持及其數(shù)據(jù)倉庫設(shè)計。

SAS系統(tǒng)主要完成以數(shù)據(jù)為中心的四大任務(wù):數(shù)據(jù)訪問子寓;數(shù)據(jù)管理暗挑;數(shù)據(jù)呈現(xiàn);數(shù)據(jù)分析斜友。

SAS

是由大型機系統(tǒng)發(fā)展而來炸裆,其核心操作方式就是程序驅(qū)動,經(jīng)過多年的發(fā)展鲜屏,現(xiàn)在已成為一套完整的計算機語言烹看,其用戶界面也充分體現(xiàn)了這一特點:它采用MDI

(多文檔界面)国拇,用戶在PGM視窗中輸入程序,分析結(jié)果以文本的形式在OUTPUT視窗中輸出惯殊。使用程序方式酱吝,用戶可以完成所有需要做的工作,包括統(tǒng)計分析土思、預(yù)測务热、建模和模擬抽樣等。但是己儒,這使得初學(xué)者在使用SAS時必須要學(xué)習(xí)SAS語言崎岂,入門比較困難。

3.Excel軟件

在回歸設(shè)計的實踐中闪湾,一些計算機軟件可以解決多元回歸分析的求解問題冲甘,但常常是數(shù)據(jù)的輸入和軟件的操作運用要經(jīng)過專門訓(xùn)練。Excel軟件為回歸分析的求解給出了非常方便的操作過程途样,而且目前Excel軟件幾乎在每臺計算機上都已經(jīng)安裝江醇。

Excel是一個面向商業(yè)、科學(xué)和工程計算的數(shù)據(jù)分析軟件娘纷,它的主要優(yōu)點是具有對數(shù)據(jù)進行分析嫁审、計算、匯總的強大功能赖晶。除了眾多的函數(shù)功能外律适,Excel的高級數(shù)據(jù)分析工具則給出了更為深入、更為有用遏插、針對性更強的各類經(jīng)營和科研分析功能捂贿。高級數(shù)據(jù)分析工具集中了Excel最精華、對數(shù)據(jù)分析最有用的部分胳嘲,其分析工具集中在Excel主菜單中的“工具”子菜單內(nèi)厂僧,回歸分析便為其中之一。

Excel是以電子表格的方式來管理數(shù)據(jù)的了牛,所有的輸入颜屠、存取、提取鹰祸、處理甫窟、統(tǒng)計、模型計算和圖形分析都是圍繞電子表格來進行的蛙婴。

4.Statistica軟件

Statistica是由統(tǒng)計軟件公司(Statsoft)開發(fā)粗井、專用于科技及工業(yè)統(tǒng)計的大型軟件包。它除了具有常規(guī)的統(tǒng)計分析功能外,還包括有因素分析浇衬、質(zhì)量控制懒构、過程分析、回歸設(shè)計等模塊耘擂。利用其回歸設(shè)計模塊可以進行回歸正交設(shè)計胆剧、正交旋轉(zhuǎn)組合設(shè)計、正交多項式回歸設(shè)計梳星、A最優(yōu)及D最優(yōu)設(shè)計等赞赖。該軟件包還可以進行對試驗結(jié)果的統(tǒng)計檢驗、誤差分析冤灾、試驗水平估計和各類統(tǒng)計圖表、曲線辕近、曲面的分析計算工作韵吨。

5.SPSS軟件

SPSS是世界上最早采用圖形菜單驅(qū)動界面的統(tǒng)計軟件,它最突出的特點就是操作界面極為友好移宅,輸出結(jié)果美觀漂亮归粉。它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來漏峰,使用Windows的窗口方式展示各種管理和分析數(shù)據(jù)方法的功能糠悼,對話框展示出各種功能選擇項。用戶只要掌握一定的Windows操作技能浅乔,精通統(tǒng)計分析原理倔喂,就可以使用該軟件為特定的科研工作服務(wù)。SPSS采用類似EXCEL表格的方式輸入與管理數(shù)據(jù)靖苇,數(shù)據(jù)接口較為通用席噩,能方便的從其他數(shù)據(jù)庫中讀入數(shù)據(jù)。其統(tǒng)計過程包括了常用的贤壁、較為成熟的統(tǒng)計過程悼枢,完全可以滿足非統(tǒng)計專業(yè)人士的工作需要。輸出結(jié)果十分美觀脾拆,存儲時則是專用的SPO格式馒索,可以轉(zhuǎn)存為HTML格式和文本格式。對于熟悉老版本編程運行方式的用戶名船,SPSS還特別設(shè)計了語法生成窗口绰上,用戶只需在菜單中選好各個選項,然后按"粘貼"按鈕就可以自動生成標(biāo)準(zhǔn)的SPSS程序包帚。極大的方便了中渔期、高級用戶。

6.R軟件

R語言是統(tǒng)計領(lǐng)域廣泛使用的,誕生于1980年左右的S語言的一個分支疯趟。 R語言是S語言的一種實現(xiàn)拘哨。S語言是由AT&T貝爾實驗室開發(fā)的一種用來進行數(shù)據(jù)探索、統(tǒng)計分析信峻、作圖的解釋型語言倦青。

R是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)盹舞。其功能包括:數(shù)據(jù)存儲和處理系統(tǒng)产镐;數(shù)組運算工具(其向量、矩陣運算方面功能尤其強大)踢步;完整連貫的統(tǒng)計分析工具癣亚;優(yōu)秀的統(tǒng)計制圖功能;簡便而強大的編程語言:可操縱數(shù)據(jù)的輸入和輸入获印,可實現(xiàn)分支述雾、循環(huán),用戶可自定義功能兼丰。

與其說R是一種統(tǒng)計軟件玻孟,還不如說R是一種數(shù)學(xué)計算的環(huán)境,因為R并不是僅僅提供若干統(tǒng)計程序鳍征、使用者只需指定數(shù)據(jù)庫和若干參數(shù)便可進行一個統(tǒng)計分析黍翎。R的思想是:它可以提供一些集成的統(tǒng)計工具,但更大量的是它提供各種數(shù)學(xué)計算艳丛、統(tǒng)計計算的函數(shù)匣掸,從而使使用者能靈活機動的進行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法质礼。

R是一個免費的自由軟件旺聚,它有UNIX、LINUX眶蕉、MacOS和WINDOWS版本砰粹,都是可以免費下載和使用的。在R主頁那兒可以下載到R的安裝程序造挽、各種外掛程序和文檔碱璃。在R的安裝程序中只包含了8個基礎(chǔ)模塊,其他外在模塊可以通過CRAN獲得饭入。

學(xué)習(xí)資料

1.書籍

1)《實用回歸分析》(何曉群)

該書從數(shù)據(jù)出發(fā)嵌器,不是從假設(shè)、定理出發(fā)谐丢;從歸納出發(fā)爽航,不是從演繹出法蚓让;強調(diào)案例分析;重統(tǒng)計思想的闡述讥珍,弱化數(shù)學(xué)證明的推導(dǎo)历极。

2)《應(yīng)用多元統(tǒng)計分析》(高惠璇)

書中介紹了各種常用的多元統(tǒng)計分析方法的統(tǒng)計背景和實際意義,說明該方法的統(tǒng)計思想衷佃、數(shù)學(xué)原理及解題步驟趟卸,還列舉了各方面的應(yīng)用實例。該書將多元統(tǒng)計方法的介紹與在計算機上實現(xiàn)這些方法的統(tǒng)計軟件(SAS系統(tǒng))結(jié)合起來氏义,不僅可以學(xué)到統(tǒng)計方法的理論知識锄列,還知道如何解決實際問題。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末惯悠,一起剝皮案震驚了整個濱河市邻邮,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌克婶,老刑警劉巖饶囚,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異鸠补,居然都是意外死亡,警方通過查閱死者的電腦和手機嘀掸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門紫岩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人睬塌,你說我怎么就攤上這事泉蝌。” “怎么了揩晴?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵勋陪,是天一觀的道長。 經(jīng)常有香客問我硫兰,道長诅愚,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任劫映,我火速辦了婚禮违孝,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘泳赋。我一直安慰自己雌桑,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布祖今。 她就那樣靜靜地躺著校坑,像睡著了一般拣技。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上耍目,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天膏斤,我揣著相機與錄音,去河邊找鬼制妄。 笑死掸绞,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的耕捞。 我是一名探鬼主播衔掸,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼俺抽!你這毒婦竟也來了敞映?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤磷斧,失蹤者是張志新(化名)和其女友劉穎振愿,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體弛饭,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡冕末,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了侣颂。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片档桃。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖憔晒,靈堂內(nèi)的尸體忽然破棺而出藻肄,到底是詐尸還是另有隱情,我是刑警寧澤拒担,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布嘹屯,位于F島的核電站,受9級特大地震影響从撼,放射性物質(zhì)發(fā)生泄漏州弟。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一谋逻、第九天 我趴在偏房一處隱蔽的房頂上張望呆馁。 院中可真熱鬧,春花似錦毁兆、人聲如沸浙滤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽纺腊。三九已至畔咧,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間揖膜,已是汗流浹背誓沸。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留壹粟,地道東北人拜隧。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像趁仙,于是被迫代替她去往敵國和親洪添。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 回歸分析是研究自變量和因變量之間數(shù)量變化關(guān)系的一種分析方法雀费。 回歸分析包括線性回歸和非線性回歸干奢。線性回歸包括簡單線...
    雪莉1709閱讀 1,154評論 0 1
  • 正式稿: 每天1分鐘數(shù)據(jù)分析小知識1-回歸分析 我們現(xiàn)實中遇到的數(shù)據(jù),一般都是“毫無規(guī)律”的散點圖盏袄,回歸分析就是把...
    月光漣漪閱讀 1,026評論 0 0
  • 黑色的海島上懸著一輪又大又圓的明月辕羽,毫不嫌棄地把溫柔的月色照在這寸草不生的小島上逛尚。一個少年白衣白發(fā),悠閑自如地倚坐...
    小水Vivian閱讀 3,093評論 1 5
  • 漸變的面目拼圖要我怎么拼? 我是疲乏了還是投降了蕾管? 不是不允許自己墜落枷踏, 我沒有滴水不進的保護膜。 就是害怕變得面...
    悶熱當(dāng)乘涼閱讀 4,234評論 0 13
  • 感覺自己有點神經(jīng)衰弱掰曾,總是覺得手機響了旭蠕;屋外有人走過;每次媽媽不聲不響的進房間突然跟我說話旷坦,我都會被嚇得半死掏熬!一整...
    章魚的擁抱閱讀 2,168評論 4 5