回歸分析著重在尋求變量之間近似的函數(shù)關(guān)系狮斗。在現(xiàn)實世界中存在著大量這樣的情況,兩個或多個變量之間有一些聯(lián)系改含,但是沒有確切到可以嚴(yán)格決定的程度情龄。例如,人的身高和人的體重有聯(lián)系捍壤,一般表現(xiàn)為X大時Y也傾向于大,但X并不能嚴(yán)格決定Y鞍爱。一種農(nóng)作物的畝產(chǎn)量Y與其播種量X1 和施肥量 X2有聯(lián)系鹃觉,但X1和X2又不能嚴(yán)格決定Y。 一般Y稱為因變量睹逃,X稱為自變量盗扇。但是X祷肯,Y并不是明顯的因果關(guān)系。例如決定畝產(chǎn)量Y的因素有很多疗隶,遠不止播種量X1和施肥量X2佑笋,灌溉情況,氣溫變化斑鼻,災(zāi)害等都會影響畝產(chǎn)量Y蒋纬。已考慮的因素X1和X2只能在一定程度上影響Y,其他因素都歸為隨機誤差坚弱。
于是回歸模型定義為
Y= f(X1,X2,....,Xp)+e,其中e作為隨機誤差蜀备,其均值為0 ,E(e)=0
設(shè)ε為一個隨機變量荒叶,則E(ε-c)的平方作為c的函數(shù)碾阁,在c=E(ε)處達到最小,由于這個性質(zhì)些楣,可以對理論回歸函數(shù)f(x1,x2,...xp)做下面的解釋脂凶,如果我們只掌握了因素X1,X2愁茁,..Xp,而希望利用他們的值盡可能好的逼近Y的值蚕钦,則均方誤差最小的意義下,以使用理論回歸函數(shù)最好埋市。
但在實際問題中冠桃,理論回歸函數(shù)一般總是未知的,統(tǒng)計回歸分析的任務(wù)道宅,就在于根據(jù)X1食听,X2,..Xp和Y的觀察值污茵,去估計這個函數(shù)樱报,一級討論于此有關(guān)的種種統(tǒng)計推斷問題。所用的方法泞当,在相當(dāng)大的程度上取決于模型的假定迹蛤,也就是對回歸函數(shù)f及隨機誤差e所做的假定。
其中在應(yīng)用上最重要且在理論上發(fā)展的最完善的特例襟士,是f為線性函數(shù)的情形盗飒。
f(x1,x2,...,xp) =b0+b1x+..+bpxp.這種情況叫線性回歸。
如果自變量變化范圍不大陋桂,而曲面y=f(x1,x2,...,xp)彎曲程度也不過分逆趣,則在該較小的范圍內(nèi),他可以近似用一個平面(即線性函數(shù))去代替嗜历,而不至于引起過大的誤差宣渗。
E(Y-f(x1,x2,..,xp))的平方=E(e的平方)=Var(e)=δ方抖所,δ方越小,用f(X1,X2,痕囱。田轧。,Xp)逼近Y所導(dǎo)致的均方誤差就越小鞍恢,回歸方程就越有用傻粘。
δ方的大小由兩點決定,
1有序,在選擇自變量的時候抹腿,是否把對因變量Y有重要影響的那些都收進來了。
2 旭寿,回歸函數(shù)的形式是否選的準(zhǔn)警绩,
另外,預(yù)測問題和回歸函數(shù)雖然實質(zhì)上很不一樣盅称,但兩者的解法一致肩祥,二是預(yù)測的精度要比估計回歸函數(shù)的精度差,因為在預(yù)測中缩膝,除了估計回歸函數(shù)有一個誤差外混狠,還要加上一個隨機誤差e,這一點在考慮區(qū)間估計中更能清楚的看出來疾层。
還有就是控制将饺,在這類應(yīng)用中,不妨把自變量解釋為輸入值痛黎,因變量解釋為輸出值予弧,目標(biāo)是要把輸出值控制在給定的水平y(tǒng)0.例如,X為用藥量湖饱,Y為生理指標(biāo)掖蛤,血壓,調(diào)整用藥量使徐亞達到某種認(rèn)為是正常的水平井厌。