說(shuō)明:非原創(chuàng)芜飘,借鑒網(wǎng)上多方材料整理,其中包括CSDN博主路易三十六蹦狂,TOMOCAT及百度資源整合做的一份學(xué)習(xí)筆記誓篱,與大家共享。
一凯楔、定義
判別分析又稱“分辨法”窜骄,是在分類確定的條件下,根據(jù)某一研究對(duì)象的各種特征值判別其類型歸屬問(wèn)題的一種多變量統(tǒng)計(jì)分析方法摆屯。
二邻遏、判別分析的一般形式
y=a1x1+a2x2+……+anxn(a1為系數(shù),Xn為變量)虐骑。事先非常明確共有幾個(gè)類別准验,目的是從已知樣本中訓(xùn)練出判別函數(shù)
三、前提假設(shè)(有點(diǎn)類似多重回歸分析)
1.各自變量為連續(xù)性或有序分類變量
2.自變量和因變量符合線性假設(shè)
3.各組的協(xié)方差矩陣相等廷没,類似與方差分析中的方差齊
4.變量間獨(dú)立糊饱,無(wú)共線性
注:違反條件影響也不大,主要看預(yù)測(cè)準(zhǔn)不準(zhǔn)颠黎,準(zhǔn)的話違反也無(wú)所謂
四另锋、用途
1.對(duì)客戶進(jìn)行信用預(yù)測(cè)滞项;2.尋找潛在客戶等
五、判別分析常用判別方法
1.最大似然法
適用于自變量均為分類變量的情況夭坪,算出這些情況的概率組合文判,基于這些組合大小進(jìn)行判別
2.距離判別
對(duì)新樣品求出他們離各個(gè)類別重心的距離遠(yuǎn)近,適用于自變量均為連續(xù)變量的情況室梅,對(duì)變量分布類型無(wú)嚴(yán)格要求
3.Fisher判別法
與主成份分析有關(guān)戏仓,對(duì)分布、方差等都沒(méi)有什么限制竞惋,按照類別與類別差異最大原則提取公因子然后使用公因子判別
4.Bayes判別
強(qiáng)項(xiàng)是進(jìn)行多類判別柜去,要求總體呈多元正態(tài)分布。利用貝葉斯公式拆宛,概率分布邏輯衍生出來(lái)一個(gè)判別方法嗓奢,計(jì)算這個(gè)樣本落入這個(gè)類別的概率,概率最大就被歸為一類
在spss中一般用Fisher判別即可浑厚,要考慮概率及誤判損失最小的用Bayes判別股耽,但變量較多時(shí),一般先進(jìn)行逐步判別篩選出有統(tǒng)計(jì)意義的變量钳幅,但通常在判別分析前我們已經(jīng)做了相關(guān)的預(yù)分析物蝙,所以不推薦使用逐步判別分析(采用步進(jìn)法讓自變量逐個(gè)嘗試進(jìn)入函數(shù)式,如果進(jìn)入到函數(shù)式中的自變量符合條件敢艰,則保留在函數(shù)式中诬乞,否則,將從函數(shù)式中剔除)钠导。
六震嫉、聚類分析與判別分析的區(qū)別與聯(lián)系
都是研究分類的。聚類分析牡属,對(duì)總體到底有幾種類型不知道(研究分幾類較為合適需從計(jì)算中加以調(diào)整)票堵。判別分析則是在總體類型劃分已知,對(duì)當(dāng)前新樣本判斷它們屬于哪個(gè)總體逮栅。如我們對(duì)研究的多元數(shù)據(jù)的特征不熟悉悴势,當(dāng)然要進(jìn)行聚類分析,才能考慮判別分析問(wèn)題措伐。
七特纤、判別分析得到的判別函數(shù)效果評(píng)判方法
1.自身驗(yàn)證(拿訓(xùn)練數(shù)據(jù)直接預(yù)測(cè)驗(yàn)證,但是對(duì)預(yù)測(cè)樣本預(yù)測(cè)好不代表對(duì)新樣本預(yù)測(cè)好)
2.外部數(shù)據(jù)驗(yàn)證(收集新的數(shù)據(jù)來(lái)驗(yàn)證废士,這是最客觀最有效的叫潦,但是麻煩而且兩次收集的數(shù)據(jù)不一定是同質(zhì)的)
3.樣本二分法(一般劃分2/3為訓(xùn)練集,1/3為驗(yàn)證集官硝,但是浪費(fèi)了1/3的樣本)
4.交互驗(yàn)證(Cross-Validation)----刀切法(10分法矗蕊,數(shù)據(jù)劃分為10個(gè)集合,每次挑選一個(gè)出來(lái)做驗(yàn)證集氢架,其余9個(gè)做訓(xùn)練集傻咖,可以做10次,因?yàn)轵?yàn)證集可換10種可能)
在spss軟件中通過(guò)【分析】—【留一分類】獲得此項(xiàng)結(jié)論岖研。
下面采用實(shí)例來(lái)說(shuō)明卿操。
一、問(wèn)題描述
如下圖-1數(shù)據(jù)集包含了剛毛孙援、變色害淤、弗吉尼亞這三種鳶尾花的花萼長(zhǎng)、寬和花瓣長(zhǎng)拓售、寬窥摄,分析目的是希望能夠使用這4個(gè)變量來(lái)對(duì)花的種類進(jìn)行區(qū)分。spno為事先的分組础淤,度量標(biāo)準(zhǔn)設(shè)為【名義】崭放。
二、數(shù)據(jù)預(yù)處理
主要是對(duì)假設(shè)條件的檢驗(yàn)鸽凶,在spss中【分析】—【描述統(tǒng)計(jì)】—【描述】币砂,如圖-2
如圖-3可以看到數(shù)據(jù)的分布沒(méi)有特別的離異點(diǎn),也沒(méi)有缺失值和不合理的分布玻侥,從而可以用該數(shù)據(jù)做接下來(lái)的判別分析决摧。
三、spss操作
1)選擇分類變量及其范圍:如圖-4所示
【分組變量】矩形框中選擇表明已知的觀測(cè)量所屬類別的變量(一定是離散變量)凑兰,在定義范圍框最小值中輸入該分類變量的最小值掌桩,最大框中輸入該分類變量的最大值。
2)? ? 指定判別分析的自變量
3) 選擇觀測(cè)量
如果希望使用一部分觀測(cè)量進(jìn)行判別函數(shù)的推導(dǎo)而且有一個(gè)變量的某個(gè)值可以作為這些觀測(cè)量的標(biāo)識(shí)票摇,則用Select 功能進(jìn)行選擇拘鞋,鍵入標(biāo)識(shí)參與分析的觀測(cè)量所具有的該變量值,一般均使用數(shù)據(jù)文件中的所有合法觀測(cè)量此步驟可以省略矢门。
4) 選擇分析方法:如圖-5所示
【一起輸入自變量】選項(xiàng)盆色,當(dāng)認(rèn)為所有自變量都能對(duì)觀測(cè)量特性提供豐富的信息時(shí)砚嘴,使用該選擇項(xiàng)乔宿。選擇該項(xiàng)將不加選擇地使用所有自變量進(jìn)行判別分析岩喷,建立全模型矢腻,不需要進(jìn)一步進(jìn)行選擇也拜。
【使用步進(jìn)式方法】選項(xiàng)谜疤,當(dāng)不認(rèn)為所有自變量都能對(duì)觀測(cè)量特性提供豐富的信息時(shí)在张,使用該選擇項(xiàng)赠群。因此需要判別貢獻(xiàn)的大小叛薯,再進(jìn)行選擇當(dāng)鼠標(biāo)單擊該項(xiàng)時(shí)【方法】按鈕加亮浑吟,可以進(jìn)一步選擇判別分析方法笙纤。一般我們做判別分析前已經(jīng)做了相關(guān)的預(yù)分析(不推薦)。
如圖-6所示【方法】選項(xiàng):步進(jìn)法讓自變量逐個(gè)嘗試進(jìn)入函數(shù)式组力,如果進(jìn)入到函數(shù)式中的自變量符合條件省容,則保留在函數(shù)式中,否則燎字,將從函數(shù)式中剔除腥椒。可供選擇的判別分析方法有:
1.Wilks'lambda 選項(xiàng)候衍,它是組內(nèi)平方和與總平方和之比笼蛛,用于描述各組的均值是否存在顯著差別,當(dāng)所有觀測(cè)組的均值都相等時(shí)蛉鹿,Wilks’lambda值為1滨砍;當(dāng)組內(nèi)變異與總變異相比很小時(shí),表示組件變異較大榨为,表示組間變異較大惨好,系數(shù)接近于0。系統(tǒng)默認(rèn)選項(xiàng)随闺。
2.未解釋方差日川。 它指把計(jì)算殘余最小的自變量?jī)?yōu)先納入到判別函數(shù)式中。
3.Mahalanobis’距離 矩乐。它把每步都使靠得最近的兩類間的馬氏距離最大的變量進(jìn)入判別函數(shù)
4.最小 F值龄句。它把方差差異最大的自變量?jī)?yōu)先納入到判別函數(shù)中。
5.Rao’s V 散罕。勞氏增值法:它把勞氏統(tǒng)計(jì)量V產(chǎn)生最大增值的自變量?jī)?yōu)先納入到判別函數(shù)中分歇。可以對(duì)一個(gè)要加入到模型中的變量的V 值指定一個(gè)最小增量欧漱。選擇此種方法后职抡,應(yīng)該在該項(xiàng)下面的V-to-enter 后的矩形框中輸入這個(gè)增量的指定值。當(dāng)某變量導(dǎo)致的V值增量大于指定值的變量后進(jìn)入判別函數(shù)误甚。
【標(biāo)準(zhǔn)】:選擇逐步判別停止的判據(jù)
1.使用F值缚甩。系統(tǒng)默認(rèn)的判據(jù)。當(dāng)加人一個(gè)變量(或剔除一個(gè)變量)后窑邦,對(duì)在判別函數(shù)中的變量進(jìn)行方差分析擅威。當(dāng)計(jì)算的F值大于指定的進(jìn)入值時(shí),該變量保留在函數(shù)中冈钦。默認(rèn)值是3.84:當(dāng)該變量使計(jì)算的F值小于指定的刪除值時(shí)郊丛,該變量從函數(shù)中剔除。默認(rèn)值為2.71。即當(dāng)被加入的變量F 值為3.84 時(shí)才把該變量加入到模型中厉熟,否則變量不能進(jìn)入模型导盅;或者,當(dāng)要從模型中移出的變量F值<2.71時(shí),該變量才被移出模型,否則模型中的變量不會(huì)被移出.設(shè)置這兩個(gè)值時(shí)應(yīng)該注意進(jìn)入值>刪除值庆猫。
2.使用F檢的概率认轨。決定變量是否加入函數(shù)或被剔除的概率而不是用F值绅络。加入變量的F值概率的默認(rèn)值是0.05(5%)月培,移出變量的F值概率是0.10(10%)。刪除值(移出變量的F值概率) >進(jìn)入值(加入變量的F值概率)恩急。
【輸出】:對(duì)于逐步選擇變量的過(guò)程和最后結(jié)果的顯示可以通過(guò)輸出欄中的兩項(xiàng)進(jìn)行選擇:
1.步進(jìn)摘要杉畜。要求在逐步選擇變量過(guò)程中的每一步之后顯示每個(gè)變量的統(tǒng)計(jì)量。
2.兩兩組間距離的F值衷恭。要求顯示兩兩類之間的兩兩F值矩陣此叠。
這里我們選擇建立全模型,所以不用對(duì)方法進(jìn)行設(shè)置。
如圖-7所示【statistics】選項(xiàng):可以選擇的輸出統(tǒng)計(jì)量分為以下3 類:
(1) 描述性
1.平均值随珠∶鹪可以輸出各類中各自變量的均值、標(biāo)準(zhǔn)差和各自變量總樣本的均值和標(biāo)準(zhǔn)差窗看。
2.單變量ANOVA復(fù)選項(xiàng)茸歧。對(duì)各類中同一自變量均值都相等的假設(shè)進(jìn)行檢驗(yàn),輸出單變量的方差分析結(jié)果显沈。
3.Box’s M 復(fù)選項(xiàng)软瞎。對(duì)各組的協(xié)方差矩陣相等的假設(shè)進(jìn)行檢驗(yàn)。如果樣本足夠大拉讯,差異不顯著的p值表明矩陣差異不明顯涤浇。
(2)函數(shù)系數(shù)欄:選擇判別函數(shù)系數(shù)的輸出形式
1.Fisherh’s。給出Bayes判別函數(shù)的系數(shù)魔慷。對(duì)每一類給出一組系數(shù)只锭,并給出該組中判別分?jǐn)?shù)最大的觀測(cè)量。(注意:這個(gè)選項(xiàng)不是要給出Fisher判別函數(shù)的系數(shù)院尔。這個(gè)復(fù)選框的名字之所以為Fisher’s蜻展,是因?yàn)榘磁袆e函數(shù)值最大的一組進(jìn)行歸類這種思想是由Fisher提出來(lái)的。這里極易混淆召边,請(qǐng)注意辨別铺呵。)
2.未標(biāo)準(zhǔn)化。給出未標(biāo)準(zhǔn)化的判別函數(shù)(即典型判別函數(shù))的系數(shù)(SPSS默認(rèn)給出標(biāo)準(zhǔn)化的判別函數(shù)信息)隧熙。
(3)矩陣
1.組內(nèi)相關(guān)片挂。即類內(nèi)相關(guān)矩陣,它是根據(jù)在計(jì)算相關(guān)矩陣之前將各組(類)協(xié)方差矩陣平均后計(jì)算類內(nèi)相關(guān)矩陣。
2.組內(nèi)協(xié)方差音念。即計(jì)算并顯示合并類內(nèi)協(xié)方差矩陣沪饺,是將各組(類)協(xié)方差矩陣平均后計(jì)算的。區(qū)別于總協(xié)方差陣闷愤。
3.分組協(xié)方差整葡。對(duì)每類輸出顯示一個(gè)協(xié)方差矩陣。
4.總體協(xié)方差讥脐。計(jì)算并顯示總樣本的協(xié)方差矩陣遭居。
如圖-8所示【分類】選項(xiàng):
(1) 先驗(yàn)概率:兩者選其一
1.所有組相等。各類先驗(yàn)概率相等旬渠。若分為m類俱萍,則各類先驗(yàn)概率均為1/m。系統(tǒng)默認(rèn)
2.根據(jù)組大小計(jì)算告丢。由各類的樣本量計(jì)算決定枪蘑,即各類的先驗(yàn)概率與其樣本量成正比。
(2) 使用協(xié)方差矩陣 :選擇分類使用的協(xié)方差矩陣
1.在組內(nèi)岖免。指定使用合并組內(nèi)協(xié)方差矩陣進(jìn)行分類岳颇。系統(tǒng)默認(rèn)
2.分組。指定使用各組協(xié)方差矩陣進(jìn)行分類颅湘。
由于分類是根據(jù)判別函數(shù)话侧,而不是根據(jù)原始變量,因此該選擇項(xiàng)不是總等價(jià)于二次判別栅炒。
(3) 圖:選擇要求輸出的統(tǒng)計(jì)圖
1.合并組掂摔。生成一張包括各類的散點(diǎn)圖。該散點(diǎn)圖是根據(jù)前兩個(gè)判別函數(shù)值作的散點(diǎn)圖赢赊。如果只有一個(gè)判別函數(shù)就輸出直方圖乙漓。
2.分組。根據(jù)前兩個(gè)判別函數(shù)值對(duì)每一類生成一張激點(diǎn)圖释移,共分為幾類就生成幾張散點(diǎn)圖叭披。如果只有一個(gè)判別函數(shù)就輸出直方圖。
3.區(qū)域圖玩讳。生成用于根據(jù)函數(shù)值把觀測(cè)量分到各組中去的邊界圖涩蜘。此種統(tǒng)計(jì)圖把一張圖的平面劃分出與類數(shù)相同的區(qū)域。每一類占據(jù)一個(gè)區(qū)各類的均值在各區(qū)中用*號(hào)標(biāo)出熏纯。如果僅有一個(gè)判別函數(shù)同诫,則不作此圖。
(4) 輸出欄:選擇生成到輸出窗中的分類結(jié)果
1.個(gè)案摘要樟澜。要求輸出每個(gè)觀測(cè)量包括判別分?jǐn)?shù)误窖、實(shí)際類叮盘、預(yù)測(cè)類(根據(jù)判別函數(shù)求得的分類結(jié)果)和后驗(yàn)概率等。選擇此項(xiàng)還可以選擇其附屬選擇項(xiàng):將個(gè)案限制在前霹俺,并在后面的小矩形框中輸入觀測(cè)量數(shù)n選擇柔吼。此項(xiàng)則僅對(duì)前n個(gè)觀測(cè)量輸出分類結(jié)果。觀測(cè)數(shù)量大時(shí)可以選擇此項(xiàng)丙唧。
2.摘要表愈魏。要求輸出分類的小結(jié),給出正確分類觀測(cè)量數(shù)(原始類和根據(jù)判別函數(shù)計(jì)算的預(yù)測(cè)類相同)和錯(cuò)分觀測(cè)量數(shù)和錯(cuò)分率想际。
3.不考慮該個(gè)案時(shí)的分類(留一分類)培漏。輸出對(duì)每個(gè)觀測(cè)量進(jìn)行分類的結(jié)果,所依據(jù)的判別是由除該觀測(cè)量以外的其他觀測(cè)量導(dǎo)出的沼琉,也稱為交互校驗(yàn)結(jié)果北苟。建議勾選
(5)使用均值替換缺失值:即用該類變量的均值代替缺失值。缺失值缺失大于10%打瘪,不介意勾選
本例中如圖-8中勾選。
如圖-9所示【保存】選項(xiàng):指定生成并保存在數(shù)據(jù)文件中的新變量
1.預(yù)測(cè)組成員傻昙。要求建立一個(gè)新變量闺骚,預(yù)測(cè)觀測(cè)量的分類。是根據(jù)判別分?jǐn)?shù)把觀測(cè)量按后驗(yàn)概率最大指派所屬的類妆档。每運(yùn)行一次Discriminant過(guò)程僻爽,就建立一個(gè)表明使用判別函數(shù)預(yù)測(cè)各觀測(cè)量屬于哪一類的新變量。第1 次運(yùn)行建立新變量的變量名為dis_l贾惦,如果在工作數(shù)據(jù)文件中不把前一次建立的新變量刪除胸梆,第n次運(yùn)行Descriminant 過(guò)程建立的新變量默認(rèn)的變量名為dis_n。
2.判別分?jǐn)?shù)须板。要求建立fisher判別分?jǐn)?shù)的新變量碰镜。該分?jǐn)?shù)是由未標(biāo)準(zhǔn)化的判別系數(shù)乘自變量的值,將這些乘積求和后加上常數(shù)得來(lái)习瑰。每次運(yùn)行Discriminant過(guò)程都給出一組表明判別分?jǐn)?shù)的新變量绪颖,建立幾個(gè)判別函數(shù)就有幾個(gè)判別分?jǐn)?shù)變量。
3. 組成員概率甜奄。Bayes后驗(yàn)概率值柠横。有m類,對(duì)一個(gè)觀測(cè)量就會(huì)給出m個(gè)概率值课兄,因此建立m個(gè)新變量牍氛。
本例不勾選。
四烟阐、輸出結(jié)果
下面為最重要的結(jié)果,可在撰寫結(jié)論使用楷力。