統(tǒng)計(jì)原理一回歸分析

關(guān)于回歸分析的筆記:

原理理解:

確定兩種及兩種以上變量相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。
步驟:
1)確定目標(biāo)豆同,也就是因變量。接著確定自變量子房〔盏睿可以做散點(diǎn)圖觀察變量和自變量間的關(guān)系奥裸。
2)建立回歸方程模型:用最小二乘估計(jì),當(dāng)sse 即離差平方和達(dá)到最小的時(shí)候確定的自變量系數(shù)沪袭。
3)相關(guān)性分析
一個(gè)實(shí)際案例:父母的身高是否影響子女的身高湾宙?(聯(lián)系:預(yù)估分的高低是否影響考試成績(jī)?)
思考:用t檢驗(yàn)冈绊,把父母身高分為高矮兩組侠鳄,如果有影響,那么父母身高高的組子女身高應(yīng)該顯著高于父母矮的一組(聯(lián)系焚碌,預(yù)估分高的學(xué)生考試成績(jī)應(yīng)該顯著高于預(yù)估分低的)
這里預(yù)估分的高低有很多劃分標(biāo)準(zhǔn)畦攘,不同標(biāo)準(zhǔn)結(jié)果會(huì)不同霸妹。此時(shí)可以用回歸分析解決

  • 線性回歸模型:
    假設(shè)預(yù)測(cè)變量和預(yù)測(cè)值之間存在線性關(guān)系十电。
    揭示兩個(gè)變量之間是否具有相關(guān)性,而非因果關(guān)系叹螟。

             預(yù)測(cè)變量:父母身高
             預(yù)測(cè)值:子女身高
             誤差項(xiàng):模型無(wú)法解釋的個(gè)體差異
             線性回歸模型:回歸線加上誤差項(xiàng)來描述預(yù)測(cè)值和預(yù)測(cè)變量之間的關(guān)系
    

一 . 建立線性模型:

[]截距:每當(dāng)x增加一個(gè)單位鹃骂,y增加的多少。
[]似然:likelyhood罢绽,在假設(shè)我們的估計(jì)就是真實(shí)值的情況下畏线,觀測(cè)到我們手上數(shù)據(jù)的可能性有多大。相當(dāng)于一個(gè)概率值良价,當(dāng)然可能性越大越好寝殴。能夠衡量這種可能性的函數(shù)就叫似然函數(shù),似然最大的點(diǎn)就叫極大似然估計(jì)明垢。
[]最小二乘解:極大似然解的幾何意義:在所有截距和回歸系數(shù)的組合中蚣常,能夠是的誤差平方和最小的一組,這個(gè)組合就是最小二乘解痊银。
通過極大似然法計(jì)算最符合數(shù)據(jù)的回歸線抵蚊,從而建立因變量與自變量之間的線形模型。

二. 驗(yàn)證模型的合理性
1 . 系數(shù)驗(yàn)證:
驗(yàn)證線性模型中自變量和因變量是否具有顯著的線性關(guān)系——檢驗(yàn)回歸線的斜率是否為0溯革。此時(shí)每個(gè)樣本對(duì)應(yīng)的似然斜率呈現(xiàn)為一個(gè)正態(tài)分布贞绳,如果這個(gè)斜率的方差越小,那么對(duì)斜率的估計(jì)就越準(zhǔn)確致稀。(此處用F檢驗(yàn)和t檢驗(yàn))
由于斜率的方差與誤差項(xiàng)的方差是正比冈闭,與自變量方差成反比。因此抖单,采集數(shù)據(jù)樣本的時(shí)候拒秘,盡量涵蓋自變量所有范圍号显。
在對(duì)斜率進(jìn)行假設(shè)檢驗(yàn)之后,得到p值和置信區(qū)間躺酒。如果p>0.05,說明顯著押蚤,所以拒絕原假設(shè),

  1. 判別系數(shù) R2
    R2=1-誤差平方和/總平方和羹应。越接近1越合理揽碘。
    我們可以通過一次次增加回歸因子進(jìn)行判斷取舍,找到最合適的模型园匹。但是最終好的模型需要用新數(shù)據(jù)檢驗(yàn)雳刺,也就是預(yù)測(cè)集(我們回歸分析的一大目的就是做預(yù)測(cè),所以預(yù)測(cè)集用于驗(yàn)證)這時(shí)用預(yù)測(cè)集得到的樣本外R方裸违,越接近1就說明擬合最好掖桦。
    如果檢測(cè)模型中有一個(gè)模型R方最高,而該模型下預(yù)測(cè)集的R方低供汛,說明該模型過擬合枪汪。

    3.其他標(biāo)準(zhǔn):
    修正的R方:越接近1越好
    AIC:越小越好
    BIC:越小越好

三. 如果結(jié)果不顯著怎么辦?
1.思考統(tǒng)計(jì)功效是否足夠怔昨,想辦法多收集數(shù)據(jù)雀久,尤其距離平均值比較遠(yuǎn)的數(shù)據(jù)。
2.影響y的值趁舀,不止一個(gè)因素赖捌,還有其他因素“耄考慮多元回歸越庇。
二元回歸:性別做0/1分類
多元線性規(guī)劃:
先對(duì)第一個(gè)系數(shù)做中心化處理;增加交互因子(x1*x2);
注意:如果某一個(gè)因子的系數(shù)檢測(cè)出來不顯著奉狈,也可能是有其他因子是相互抵消關(guān)系卤唉,導(dǎo)致結(jié)果不顯著。
計(jì)算方差膨脹因子——VIF: 代表每個(gè)自變量與其他自變量的相關(guān)性嘹吨。所以越小越好搬味。

python 操作思路:
1,交叉驗(yàn)證:對(duì)訓(xùn)練數(shù)據(jù)集分成三類做交叉驗(yàn)證
from sklearn.linear_model import LinearRegression
from sklearn.cross_validation import KFold
alg=LinearRegression()
kf=KFold( len ,n_folds=?,random_state=1)
2, 確定特征集

3蟀拷,應(yīng)用回歸模型進(jìn)行擬合
predictions=[ ] #定義一個(gè)空列表
for train, test in kf:
train_predictors=...
train_target=…
alg.fit=(train_predictors, train_target). #擬合曲線
test_predictions=alg.predict( )
Predictions.append(test_predictions) #將測(cè)試結(jié)果放入list中

4碰纬,特征工程
選擇合適的特征作為進(jìn)行回歸擬合

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市问芬,隨后出現(xiàn)的幾起案子悦析,更是在濱河造成了極大的恐慌,老刑警劉巖此衅,帶你破解...
    沈念sama閱讀 221,820評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件强戴,死亡現(xiàn)場(chǎng)離奇詭異亭螟,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)骑歹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門预烙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人道媚,你說我怎么就攤上這事扁掸。” “怎么了最域?”我有些...
    開封第一講書人閱讀 168,324評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵谴分,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我镀脂,道長(zhǎng)牺蹄,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,714評(píng)論 1 297
  • 正文 為了忘掉前任薄翅,我火速辦了婚禮沙兰,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘匿刮。我一直安慰自己僧凰,他們只是感情好探颈,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評(píng)論 6 397
  • 文/花漫 我一把揭開白布熟丸。 她就那樣靜靜地躺著,像睡著了一般伪节。 火紅的嫁衣襯著肌膚如雪光羞。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,328評(píng)論 1 310
  • 那天怀大,我揣著相機(jī)與錄音纱兑,去河邊找鬼。 笑死化借,一個(gè)胖子當(dāng)著我的面吹牛潜慎,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蓖康,決...
    沈念sama閱讀 40,897評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼铐炫,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了蒜焊?” 一聲冷哼從身側(cè)響起倒信,我...
    開封第一講書人閱讀 39,804評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎泳梆,沒想到半個(gè)月后鳖悠,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體榜掌,經(jīng)...
    沈念sama閱讀 46,345評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評(píng)論 3 340
  • 正文 我和宋清朗相戀三年乘综,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了憎账。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,561評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡卡辰,死狀恐怖鼠哥,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情看政,我是刑警寧澤朴恳,帶...
    沈念sama閱讀 36,238評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站允蚣,受9級(jí)特大地震影響于颖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜嚷兔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評(píng)論 3 334
  • 文/蒙蒙 一森渐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧冒晰,春花似錦同衣、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至蒋情,卻和暖如春埠况,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背棵癣。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工辕翰, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人狈谊。 一個(gè)月前我還...
    沈念sama閱讀 48,983評(píng)論 3 376
  • 正文 我出身青樓喜命,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親河劝。 傳聞我的和親對(duì)象是個(gè)殘疾皇子壁榕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 介紹 我正在和一位剛剛在印度超市連鎖店擔(dān)任運(yùn)營(yíng)經(jīng)理的朋友說話护桦。在我們的討論中,我們開始談?wù)撛谟《裙?jié)日(排燈節(jié))開始...
    正在充電Loading閱讀 5,308評(píng)論 2 1
  • 最近
    zhaorg閱讀 188評(píng)論 0 0
  • 自打初中畢業(yè)煎娇,我就很少煽情了二庵,很少去刻意渲染和放大情緒贪染。 大事化小,小事化了催享,再大的石頭也只能在我內(nèi)心的湖里激起幾...
    巧樂吱閱讀 198評(píng)論 0 1
  • 那時(shí)杭隙,人說桃花紅艷 我只認(rèn)伊人素妝 那時(shí),人說桃花微熏 我只醉伊人發(fā)香 那時(shí)因妙,人說桃花貌美 尚不及伊人萬(wàn)一 那時(shí)痰憎,...
    難為水_閱讀 395評(píng)論 0 5
  • 今天抽空做了一個(gè)簡(jiǎn)單的ppt,忽然想到葉(我昔日的陽(yáng)光班班長(zhǎng))休假在家铣耘,她是學(xué)繪畫攝影的,眼光肯定不錯(cuò)以故,讓她看看...
    海風(fēng)輕吹閱讀 415評(píng)論 2 6