20190811各模型建立流程歸納

一泻拦、線性回歸模型建立流程

????? 九大步驟:

????? 1、明確需求(確定因變量Y是什么)

????? 2、數(shù)據(jù)清洗氨鹏,并不是刪除數(shù)據(jù)

?????????? 2.1 處理缺失值

?????????? 2.2 處理異常值

?????????? 2.3 增加分類變量,如教育水平列的數(shù)據(jù)只有小學(xué)压状、中學(xué)仆抵、大學(xué)、碩士种冬、博士五個值镣丑,則把‘中學(xué)、大學(xué)娱两、碩士莺匠、博士’設(shè)置為4列,用0和1來賦值十兢,1來表示是(注:不能把‘小學(xué)趣竣、中學(xué)、大學(xué)纪挎、碩士期贫、博士’按1-5的順序號賦值;另新加的分類變量中不能含有5個值异袄,否則會出現(xiàn)線性相關(guān))

????? 3通砍、相關(guān)分析,用相關(guān)系數(shù)判斷每個變量與Y的關(guān)系,一定要畫散點圖(避免相關(guān)系數(shù)的缺點發(fā)生)

????? 4封孙、分割測試集和訓(xùn)練集迹冤,先隨機抽取20%數(shù)據(jù)出來保留用作測試數(shù)據(jù)來驗證模型,另外80%數(shù)據(jù)用作訓(xùn)練集來建模型虎忌。(注:①泡徙、分組的比例依據(jù)實際情況而定,20%和80%不是固定的膜蠢。②堪藐、注意分類明顯的數(shù)據(jù)抽取,比如樣本中男性的數(shù)據(jù)只占有10%挑围,而女性的數(shù)據(jù)占有90%礁竞。此時不能直接按隨機抽取,因為我們男性和女性兩個組的隨機數(shù)據(jù)都要在總的隨機數(shù)據(jù)中杉辙,這樣建立的模型才貼近實際模捂。解決方法是按比例分組隨機抽樣抽取數(shù)據(jù))

????? 5、讓計算機跑回歸模型(F檢驗(檢查系數(shù)是否都為0)蜘矢,t檢驗狂男,調(diào)整R^2)

????? 6、模型調(diào)優(yōu)

????????? 6.1 檢驗殘差是否正態(tài)分布品腹,畫正態(tài)概率圖(也叫qq圖)或用SW假設(shè)檢驗(樣本數(shù)小于等于5000)或KS假設(shè)檢驗(樣本數(shù)大于5000)岖食。H_{0}:是正態(tài)分布→驗證p> α/2。 ???????????? 解決非正態(tài)分布方法是對y取ln???????????

????????? 6.2 檢驗殘差是否出現(xiàn)同方差性珍昨,畫散點圖或BP檢驗(小樣本適用)或White檢驗(大樣本適用县耽,準(zhǔn)確度更高,會用掉大量自由度镣典,\frac{\sum_{ } (x-\bar{x})^2}{n-c} 隨著參數(shù)數(shù)的增多兔毙,C的取值會成幾何型翻倍;即1百萬的數(shù)據(jù)可能只取了50萬數(shù)據(jù)作檢驗)兄春。H_{0}:殘差是同方差澎剥。

???????????????? 處理方法同方差方法:①對y取ln;②使用加權(quán)最小二乘(是備選方案不是最好的方法赶舆,第一種方法無法實現(xiàn)時使用)

????????? 6.3 檢驗殘差是否存在內(nèi)生性(殘差μ與自變量間出現(xiàn)相關(guān)性)哑姚,遺漏自變量會發(fā)生,商業(yè)領(lǐng)域一般忽略這個問題芜茵,因為難以把所有的自變量找齊叙量。

???????????????? 處理方法內(nèi)生性方法:?①當(dāng)樣本量逐漸加大,內(nèi)生性現(xiàn)象會逐漸趨于0九串;②Hausman檢驗H_{0}:無內(nèi)生性绞佩。常用工具變量換用變量處理

????????? 6.4 檢驗殘差是否出現(xiàn)時間序列相關(guān)性寺鸥,Rammsey 檢驗,H_{0}:無時間序列相關(guān)

???????????????? 處理方法內(nèi)生性方法:①用時間序列方法處理品山;②把時間序列當(dāng)作變量加入模型

????????? 6.5 檢驗自變量間是否存在共線性胆建,一般地,VIF>3肘交,定為存在共線性(另外笆载,出現(xiàn)普遍偏高情形,比如都是2.9幾)

???????????????? 處理方法共線性方法:①主成分分析處理涯呻,會改變變量的原始屬性凉驻,做預(yù)測并不需要用到原始屬性的情形可用;②嶺回歸(\hat{β}=\frac{Cov}{Var+|h|} )或Lasso(\hat{β}=\frac{Cov}{Var+h^2} ),兩種方法一定會存在偏差复罐,若偏差不太大可以用這個方法沿侈,否則不行

????? 7、模型精修

?????????? 加入高次項(不宜太多太復(fù)雜)市栗,加入交互項(多個變量間不共用一個斜率時有用,改變斜率的目的咳短,能改變線條為曲線填帽,越貼近事實),加入新變量(如季節(jié)趨勢(特殊節(jié)日導(dǎo)致銷售特別高咙好、淡旺季篡腌,如雙十一)、時間趨勢(可以過濾時間對其他變量的影響)勾效,目的是解除其他因素的影響嘹悼,不宜多,最多加入2-3個)

????? 8层宫、讓計算機精修

??????????? 逐步回歸(優(yōu)化變量的選擇)杨伙,交叉驗證(多次抽樣跑數(shù)據(jù),然后取出最優(yōu)的β)

????? 9萌腿、模型測試

???????????? 用測試集數(shù)據(jù)測試模型

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末限匣,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子毁菱,更是在濱河造成了極大的恐慌米死,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件贮庞,死亡現(xiàn)場離奇詭異峦筒,居然都是意外死亡,警方通過查閱死者的電腦和手機窗慎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進店門物喷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事脯丝∩滩玻” “怎么了?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵宠进,是天一觀的道長晕拆。 經(jīng)常有香客問我,道長材蹬,這世上最難降的妖魔是什么实幕? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮堤器,結(jié)果婚禮上昆庇,老公的妹妹穿的比我還像新娘。我一直安慰自己闸溃,他們只是感情好整吆,可當(dāng)我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著辉川,像睡著了一般表蝙。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上乓旗,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天府蛇,我揣著相機與錄音,去河邊找鬼屿愚。 笑死汇跨,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的妆距。 我是一名探鬼主播穷遂,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼娱据!你這毒婦竟也來了塞颁?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤吸耿,失蹤者是張志新(化名)和其女友劉穎祠锣,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體咽安,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡伴网,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了妆棒。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片澡腾。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡沸伏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出动分,到底是詐尸還是另有隱情毅糟,我是刑警寧澤,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布澜公,位于F島的核電站姆另,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏坟乾。R本人自食惡果不足惜迹辐,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望甚侣。 院中可真熱鬧明吩,春花似錦、人聲如沸殷费。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽详羡。三九已至躏鱼,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間殷绍,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工鹊漠, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留主到,地道東北人。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓躯概,卻偏偏與公主長得像登钥,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子娶靡,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容