一泻拦、線性回歸模型建立流程
????? 九大步驟:
????? 1、明確需求(確定因變量Y是什么)
????? 2、數(shù)據(jù)清洗氨鹏,并不是刪除數(shù)據(jù)
?????????? 2.1 處理缺失值
?????????? 2.2 處理異常值
?????????? 2.3 增加分類變量,如教育水平列的數(shù)據(jù)只有小學(xué)压状、中學(xué)仆抵、大學(xué)、碩士种冬、博士五個值镣丑,則把‘中學(xué)、大學(xué)娱两、碩士莺匠、博士’設(shè)置為4列,用0和1來賦值十兢,1來表示是(注:不能把‘小學(xué)趣竣、中學(xué)、大學(xué)纪挎、碩士期贫、博士’按1-5的順序號賦值;另新加的分類變量中不能含有5個值异袄,否則會出現(xiàn)線性相關(guān))
????? 3通砍、相關(guān)分析,用相關(guān)系數(shù)判斷每個變量與Y的關(guān)系,一定要畫散點圖(避免相關(guān)系數(shù)的缺點發(fā)生)
????? 4封孙、分割測試集和訓(xùn)練集迹冤,先隨機抽取20%數(shù)據(jù)出來保留用作測試數(shù)據(jù)來驗證模型,另外80%數(shù)據(jù)用作訓(xùn)練集來建模型虎忌。(注:①泡徙、分組的比例依據(jù)實際情況而定,20%和80%不是固定的膜蠢。②堪藐、注意分類明顯的數(shù)據(jù)抽取,比如樣本中男性的數(shù)據(jù)只占有10%挑围,而女性的數(shù)據(jù)占有90%礁竞。此時不能直接按隨機抽取,因為我們男性和女性兩個組的隨機數(shù)據(jù)都要在總的隨機數(shù)據(jù)中杉辙,這樣建立的模型才貼近實際模捂。解決方法是按比例分組隨機抽樣抽取數(shù)據(jù))
????? 5、讓計算機跑回歸模型(F檢驗(檢查系數(shù)是否都為0)蜘矢,t檢驗狂男,調(diào)整)
????? 6、模型調(diào)優(yōu)
????????? 6.1 檢驗殘差是否正態(tài)分布品腹,畫正態(tài)概率圖(也叫qq圖)或用SW假設(shè)檢驗(樣本數(shù)小于等于5000)或KS假設(shè)檢驗(樣本數(shù)大于5000)岖食。:是正態(tài)分布→驗證p> α/2。 ???????????? 解決非正態(tài)分布方法是對y取ln???????????
????????? 6.2 檢驗殘差是否出現(xiàn)同方差性珍昨,畫散點圖或BP檢驗(小樣本適用)或White檢驗(大樣本適用县耽,準(zhǔn)確度更高,會用掉大量自由度镣典,隨著參數(shù)數(shù)的增多兔毙,C的取值會成幾何型翻倍;即1百萬的數(shù)據(jù)可能只取了50萬數(shù)據(jù)作檢驗)兄春。:殘差是同方差澎剥。
???????????????? 處理方法同方差方法:①對y取ln;②使用加權(quán)最小二乘(是備選方案不是最好的方法赶舆,第一種方法無法實現(xiàn)時使用)
????????? 6.3 檢驗殘差是否存在內(nèi)生性(殘差μ與自變量間出現(xiàn)相關(guān)性)哑姚,遺漏自變量會發(fā)生,商業(yè)領(lǐng)域一般忽略這個問題芜茵,因為難以把所有的自變量找齊叙量。
???????????????? 處理方法內(nèi)生性方法:?①當(dāng)樣本量逐漸加大,內(nèi)生性現(xiàn)象會逐漸趨于0九串;②Hausman檢驗:無內(nèi)生性绞佩。常用工具變量換用變量處理
????????? 6.4 檢驗殘差是否出現(xiàn)時間序列相關(guān)性寺鸥,Rammsey 檢驗,:無時間序列相關(guān)
???????????????? 處理方法內(nèi)生性方法:①用時間序列方法處理品山;②把時間序列當(dāng)作變量加入模型
????????? 6.5 檢驗自變量間是否存在共線性胆建,一般地,VIF>3肘交,定為存在共線性(另外笆载,出現(xiàn)普遍偏高情形,比如都是2.9幾)
???????????????? 處理方法共線性方法:①主成分分析處理涯呻,會改變變量的原始屬性凉驻,做預(yù)測并不需要用到原始屬性的情形可用;②嶺回歸()或Lasso(),兩種方法一定會存在偏差复罐,若偏差不太大可以用這個方法沿侈,否則不行
????? 7、模型精修
?????????? 加入高次項(不宜太多太復(fù)雜)市栗,加入交互項(多個變量間不共用一個斜率時有用,改變斜率的目的咳短,能改變線條為曲線填帽,越貼近事實),加入新變量(如季節(jié)趨勢(特殊節(jié)日導(dǎo)致銷售特別高咙好、淡旺季篡腌,如雙十一)、時間趨勢(可以過濾時間對其他變量的影響)勾效,目的是解除其他因素的影響嘹悼,不宜多,最多加入2-3個)
????? 8层宫、讓計算機精修
??????????? 逐步回歸(優(yōu)化變量的選擇)杨伙,交叉驗證(多次抽樣跑數(shù)據(jù),然后取出最優(yōu)的β)
????? 9萌腿、模型測試
???????????? 用測試集數(shù)據(jù)測試模型