?自動線性建模特點:
1)連續(xù)變量和分類變量都可以作為自變量進行線性自動建模师崎。
2)能自動尋找對因變量重要性最大的自變量瓜浸,舍棄重要性很小或不重要的自變量,我們不必去關心自變量秋冰,自動化的過程會根據數(shù)據的特征選擇最佳的自變量仲义。
3、會自動進行離群值和缺失值的處理剑勾。
如果已經在數(shù)據文件中對數(shù)據變量的“角色”屬性設置為【輸入】【目標】埃撵,便可以使用“使用預定義角色”。
如果沒有設置虽另,我們可以自定義【使用定制字段分配】暂刘,手動設置好“輸入”和“目標”,我們可以吧明顯不是自變量的變量移出“輸入”捂刺,比如“日期”谣拣。
【構建選項】:主要用來設置建立模型的相關參數(shù)。
【構建選項】--【目標】
目標--創(chuàng)建標準模型:創(chuàng)建一個可以使用自變量預測目標的傳統(tǒng)模型族展。
標準模型的評分速度更快芝发,易于理解,最常用苛谷。
目標--增強模型準確度:可生成一個模型序列來獲得更多精確地預測值辅鲸。
需要較長的時間來構建和預測評分。
目標--增強模型穩(wěn)定性:生成多個模型序列來獲得更多可靠的預測值腹殿。
需要更長的時間來構建和預測評分独悴。
目標--為大型數(shù)據集創(chuàng)建模型例书。。刻炒。决采。
【構建選項】--【基本】
主要用來設置是否自動準備數(shù)據,也就是是否自動進行離群值和缺失值等的處理坟奥。一般默認勾選“自動準備數(shù)據”
【構建選項】--【模型選擇】
1)包括所有預測變量:不做自變量篩選树瞭,將所有自變量都參與模型的建立。
2)向前步進:將自變量逐個引入模型中爱谁,并做顯著性驗證晒喷,之道再也沒有不顯著的自變量被剔除為止。若選擇【向前步進】的方法访敌,需要設置【條件】凉敲,默認為“信息條件Aicc”即可。
3)最佳子集:自動篩選最佳變量寺旺,因為選擇過重要考慮所有變量組合方式爷抓,因此時間長,變量超過10個時不建議使用阻塑。
PS:只有方法是“向前步進”時候蓝撇,才需要設置條件,默認Aicc即可陈莽。
選擇別的方法時唉地,沒有條件可選
信息準則Aicc:數(shù)值越小便是模型越好,需要對比不同模型的信息準則传透,選擇最優(yōu)的即可。
主要用于可能會建立多組模型時极颓,判斷模型的效果朱盐。
【模型選項】:主要用來設置模型的額保存
勾選“將預測值保存到數(shù)據集”后,可新生成一個預測變量菠隆,名字可以自定義兵琳。
此處保存模型,是為了后面做預測時進行使用
模型結果的解讀:
這張圖用進度條來展示模型擬合的效果骇径,類似于簡單線性回歸分析中的R方躯肌,類似于多種線性回歸分析中的調整后的R方。
本例模型的準確度達到了94.8%破衔,效果很好清女。
一般模型準確度大于70%就算擬合的不錯,小于60%時就需要修正模型晰筛,可以通過增刪自變量等方式進行修正嫡丙。
這個表沒什么卵用拴袭,了解一下就行
這個表說明了自變量對因變量的重要性,所有自變量的重要性之和為1曙博,其中自變量的重要性對模型的準確度無關拥刻。
本例中“廣告費用”的重要度為0.97,“廣告推廣渠道”的重要性為0.03.
如果效果好父泳,數(shù)據點應該是落在一條45度線上分布般哼。
本例中預測值和是基因變量值較為接近,預測效果較好惠窄。
這張是殘差圖:
殘差圖是指實際值和預測值自己建的差蒸眠,用于回歸診斷,也就是診斷當前模型是否滿足回歸模型的假設:回歸模型理想條件下的殘差圖應該服從正態(tài)分布睬捶。
本例中殘差直方圖和正態(tài)曲線是一致的黔宛,可以得出殘差圖是接近正態(tài)分布的結論,滿足回歸模型的假設擒贸。
這是殘差圖的P-P圖表達方式:越靠近直線臀晃,表示殘差的分布越接近正太分布。
庫克距離越大的個案介劫,對模型的影響越大徽惋,此類個案會導致模型精度的下降
線條上下順序是按照自變量的重要性大小降序排列。
線條的粗細表示顯著性水平座韵,顯著性水平越高的線條越粗险绘。
這是另一種表達方式,我們可以看出自變量的重要性和顯著性的具體數(shù)值誉碴。
這張【回歸效果圖】最重要宦棺,我們可以根據他得出結果。
上下位置代表自變量重要性黔帕;線條粗細代表顯著性代咸;顏色代表正負。
已表的方式展現(xiàn)成黄,可以看到具體數(shù)值:
我們發(fā)現(xiàn)兩個變量都具有極其顯著的統(tǒng)計學意義呐芥。
購買用戶數(shù)=1768.096+94.439*廣告費用--15.681*廣告投放渠道
因變量與各個自變量的均直線圖,不顯著的自變量不會生成對應的均直線圖奋岁。
我們采用的是【向前步進】方法思瘟,最后出來了兩個模型,我們選擇了模型2闻伶,即信息條件AICC值更小的模型
我們看一下如何進行預測:
【實用程序】--【評分向導】
選擇我們已經保存的模型
可以自定義預測值的名稱
結果如下:生成了一個新的變量“預測值”