---------------
一硼被。。崭倘。问芬。
分析--回歸--自動線性建模--
將“購買用戶數(shù)”移置目標(biāo)
日期? 移置字段
--模型選項(xiàng)--勾選與測試保存到數(shù)據(jù)集--運(yùn)行
1.字段? 選項(xiàng)卡
字段主要用來設(shè)置自動線性回歸的 模型的因變量悦析,和自變量
spss中默認(rèn)變量都是自變量,我們將因變量移入 目標(biāo)目標(biāo)中即可
2.目標(biāo)項(xiàng)目:
1)創(chuàng)建標(biāo)準(zhǔn)模型
2)增強(qiáng)模型準(zhǔn)確度bosting方法此衅,可以生成模型bosting她按,使用boosting構(gòu)建在整體模型的方法,可生成一個(gè)模型序列來獲得更多精確的預(yù)測值炕柔,與標(biāo)準(zhǔn)模型相比,整體模型需要更長的時(shí)間來構(gòu)建預(yù)測評分
3)為大數(shù)據(jù)創(chuàng)建模型型媒佣,通過將數(shù)據(jù)集拆分成單獨(dú)的數(shù)據(jù)快來構(gòu)建整體模型的方法匕累,主要用于大型數(shù)據(jù)進(jìn)行建模
模型選擇
篩選方法:
1.不做篩選,所有自變量都參與模型建立
2.向前步進(jìn)默伍,將自變量逐個(gè)引入模型并進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)欢嘿,直至在也沒有不顯著的自變量從回歸模型中剔除為止(AICc)
3.最佳子集:用統(tǒng)計(jì)學(xué)中變量選擇模型算法進(jìn)行自動篩選最佳自變量,選擇過程中考慮了所有變量組合方式,(在變量超過10個(gè)以上也糊,不推薦使用)
評價(jià)模型標(biāo)準(zhǔn):信息準(zhǔn)則的數(shù)值越小表示模型越好炼蹦,但沒有絕對的數(shù)值大小標(biāo)準(zhǔn)。
Aic赤池信息量準(zhǔn)則只是用胡大樣本數(shù)據(jù)(AICc,為了使用小樣本數(shù)狸剃,在AIC準(zhǔn)則的共公式上進(jìn)行調(diào)整修正掐隐,適用于任何樣本量。
BIc貝葉斯信息量準(zhǔn)則
模型選項(xiàng)卡:
可以將預(yù)測的變量名為其他變量名稱-
----------------------------------
二。
模型解讀:
1.進(jìn)度條圖來表示模型擬合的效果虑省,他看類似于普通線性回歸中的R2(決定系數(shù))(一般模型準(zhǔn)確度大于70%就算你和的不錯(cuò)匿刮,60%以下就需要修正模型,可以通過增加或刪除變量后再次建模進(jìn)行修正探颈,本例中達(dá)到了95.6%熟丸,效果不錯(cuò)
2.自動準(zhǔn)備數(shù)據(jù)
第二張圖是建模的自動準(zhǔn)備數(shù)據(jù)過程的信息,比如各個(gè)變量的角色伪节,對其進(jìn)入模型之前都做過那些預(yù)處理操作光羞,廠家呢處理就是李群智,缺失值等處理怀大,只要勾選(自動準(zhǔn)備數(shù)據(jù))復(fù)選框纱兑,SPSS就會自動進(jìn)行處理
3.預(yù)測變量重要性圖
模型中每個(gè)變量的重要性(重要性的綜合為1)
4.預(yù)測-實(shí)測散點(diǎn)圖
預(yù)測值與實(shí)際變量繪制的散點(diǎn)圖(橫軸為實(shí)際變量的值,縱軸為預(yù)測值)
他用來考察預(yù)測效果叉寂,如果效果好萍启,數(shù)據(jù)應(yīng)該在一體哦啊45°線上分布,本列中預(yù)測值與實(shí)際值比較接近屏鳍,預(yù)測效果比較好
5.殘差圖
實(shí)際值與預(yù)測值之間的差
殘差圖用于回歸診斷勘纯,也就是來判斷當(dāng)前模型是否滿足回歸模型的假設(shè)(在理想條件下,服從正態(tài)分布)圖中的直方圖钓瞭,與正態(tài)分布曲線是一致的驳遵,可以得出殘差圖是接近正態(tài)分布的結(jié)論。滿足回歸模型假設(shè)
6.離群值
強(qiáng)影響點(diǎn)(離群值)的診斷
庫克距離越大的個(gè)案對回歸你和影響的成都越大山涡,此類個(gè)案可能會導(dǎo)致模型準(zhǔn)確度下降
7.回歸效果圖
回歸效果圖:用于展現(xiàn)及比較各個(gè)自變量對因變量的重要性堤结。每個(gè)顯著地連續(xù)變量將均作為一個(gè)模型項(xiàng),并對應(yīng)一條直線鸭丛,如果有顯著的分類納入模型竞穷,那么模型將分類變量的每一種顯著地類別分別作為一個(gè),模型項(xiàng)鳞溉,并分別對應(yīng)一條線條瘾带。
線條的順序:按照自變量的重要性大小降序排列的
線條的粗細(xì):表示顯著性水平,相助性越高熟菲,其線條越粗看政,將鼠標(biāo)一致線條上,可以查看相應(yīng)變量的具體信息抄罕,顯著新和重要性
p<0.01 說明具有極其顯著性的統(tǒng)計(jì)學(xué)意義
8.回歸系數(shù)圖
模型中最重要的一張圖允蚣,與上個(gè)回歸分析國土表相比,多了截距呆贿,回歸系數(shù)等信息嚷兔,用顏色區(qū)分回歸系數(shù)的正負(fù),藍(lán)色-正數(shù),橙色--負(fù)數(shù)
線條順序谴垫,按重要性降序排列
粗細(xì);表示回歸系數(shù)顯著水平
鼠標(biāo)移到線上章母,可觀察相應(yīng)的具體信息:回歸系數(shù),顯著性翩剪,重要性
9.均值線圖
因變量宇各個(gè)自變量繪制的均值線圖?
用直觀的形式幫助餓哦么 研究變量與各個(gè)自變量之間的關(guān)系
不顯著的自變量不會生成對應(yīng)的均值線圖
10.模型構(gòu)建摘要圖
用于模型構(gòu)建過程中的信息
AICc值從做導(dǎo)游一次遞減乳怎,(隨著自變量逐漸選進(jìn)模型,是的模型擬合效果越來越好前弯。)
----------------------------------
三蚪缀。模型預(yù)測
1.直接將預(yù)測值保存到數(shù)據(jù)集
2.在原數(shù)據(jù)增加一列預(yù)測值的方式到預(yù)測之外
實(shí)用程序--評分導(dǎo)向