可視分箱化設(shè)計(jì)的目的在于,幫助您在將現(xiàn)有變量的連續(xù)值進(jìn)行分組的基礎(chǔ)上蛋辈,將新變量創(chuàng)建到數(shù)目有限的不同類別中∑澳龋可以將可視分箱化用于:
從連續(xù)刻度變量創(chuàng)建分類變量眠砾。例如褒颈,您可以使用刻度收入變量創(chuàng)建包含收入范圍的新的分類變量。
將大量有序類別拼并到一小組類別中堡掏。例如泉唁,您可以將具有 9 個(gè)級(jí)別的等級(jí)標(biāo)度拼并為分別代表低、中扮休、高的三個(gè)類別玷坠。
1)已掃描的變量列表
列出了在前一個(gè)對(duì)話框中所選擇的所有變量
2)左下側(cè)“復(fù)制塊”框組
當(dāng)選擇了多個(gè)變量,并且其中部分變量已設(shè)定完可視分箱選項(xiàng)時(shí)兄渺,可以將設(shè)定好的屬性“復(fù)制”到其他變量厉膀,也可以“從另一個(gè)變量”(已設(shè)定好的)讀取相應(yīng)的設(shè)定
3)上部變量屬性
顯示老變量的名稱和標(biāo)簽溶耘,新變量的名車更是需要自定義的服鹅,否則將不會(huì)生成任何新變量
4)中部直方圖
對(duì)原變量的取值情況做出顯示企软,如果已設(shè)定了分割點(diǎn)仗哨,也會(huì)一并顯示
5)下部數(shù)值標(biāo)簽網(wǎng)格
此處可以自定義分割點(diǎn)的數(shù)值和相應(yīng)的標(biāo)簽
6)右下側(cè)“上端點(diǎn)”框組
用于設(shè)定端點(diǎn)是都被包括在上冊(cè)區(qū)間內(nèi)
7)“生成分割點(diǎn)”按鈕
數(shù)據(jù)的變量管理--可視分箱等寬度間隔萨醒。根據(jù)以下三條標(biāo)準(zhǔn)中的任意兩條富纸,生成等寬(例如 1 - 10晓褪、11 - 20 和 21 - 30)的分箱化類別:
第一個(gè)分割點(diǎn)的位置。 定義最下面的分箱化類別的上端點(diǎn)的值(例如好港,值 10 表示包含所有不超過(guò) 10 的值的范圍)。
分割點(diǎn)數(shù)量岛杀。 分箱化類別數(shù)是分割點(diǎn)數(shù)量加一。例如辨宠,9 個(gè)分割點(diǎn)會(huì)生成 10 個(gè)分箱化類別嗤形。
寬度赋兵。 每個(gè)區(qū)間的寬度霹期。例如历造,值 10 會(huì)將年齡 分箱化為長(zhǎng)度為 10 年的區(qū)間。
基于已掃描個(gè)案的等百分位臣淤。 基于以下標(biāo)準(zhǔn)之一邑蒋,生成一些分箱化類別寺董,使得每個(gè)分箱中的個(gè)案數(shù)相等(對(duì)于百分位遮咖,使用 Aempirical 算法):
分割點(diǎn)數(shù)量麦箍。 分箱化類別數(shù)是分割點(diǎn)數(shù)量加一。例如陶珠,三個(gè)分割點(diǎn)會(huì)生成四個(gè)百分位分箱(四分位數(shù))挟裂,每個(gè)分箱包含 25% 的個(gè)案。
寬度(%)揍诽。 每個(gè)區(qū)間的寬度诀蓉,表示為個(gè)案總數(shù)的百分比。例如暑脆,值 33.3 將生成三個(gè)分箱化類別(兩個(gè)分割點(diǎn))渠啤,每個(gè)類別包含 33.3% 的個(gè)案。
如果源變量包含的不同值相對(duì)較少添吗,或者有大量個(gè)案具有相同的值沥曹,則獲取的分箱數(shù)可能少于請(qǐng)求的分箱數(shù)。如果在分割點(diǎn)處有多個(gè)相同的值鲤孵,則它們都將轉(zhuǎn)到相同的區(qū)間;因此實(shí)際百分比并不總是完全相同的。
基于已掃描個(gè)案的平均和選定標(biāo)準(zhǔn)差處的分割點(diǎn)奸汇。 基于變量分布的平均值和標(biāo)準(zhǔn)差的值生成分箱化類別贯涎。
如果不選擇任何標(biāo)準(zhǔn)差區(qū)間,則將使用平均值作為分割點(diǎn)來(lái)劃分分箱,從而創(chuàng)建兩個(gè)分箱化類別。
您可以基于一倍、兩倍和/或三倍標(biāo)準(zhǔn)差選擇標(biāo)準(zhǔn)差區(qū)間的任意組合呼渣。例如蓝角,選擇所有三個(gè)標(biāo)準(zhǔn)差將生成八個(gè)分箱化類別 -- 每個(gè)標(biāo)準(zhǔn)差區(qū)間內(nèi)兩個(gè)分箱(三個(gè)區(qū)間共六個(gè)分箱)患朱,平均值上下超過(guò)三倍標(biāo)準(zhǔn)差的個(gè)案兩個(gè)分箱执虹。
8)“生成標(biāo)簽”按鈕
在分割點(diǎn)設(shè)定完成之后,點(diǎn)擊該按鈕可以自動(dòng)生成相應(yīng)的值標(biāo)簽
9)“反向刻度”復(fù)選框
默認(rèn)情況下,新的變量的值是從1到n的升序數(shù)列徘跪,勾選“反向刻度”會(huì)變成從n到1的降序整數(shù)哨查。
例子:把年齡段進(jìn)行分組褂傀。
打開(kāi)某個(gè)數(shù)據(jù)文件叠国,選擇菜單【轉(zhuǎn)換】--【可視分箱】,得到如下結(jié)果
選擇想要分組的變量,拖到右側(cè)的框里
在第一區(qū)域可以自定義變量組的名稱钙皮,比如“年齡段”茸时。
從系統(tǒng)給出的柱狀圖中我們發(fā)現(xiàn):
最小值為16,最大值為78,并且數(shù)據(jù)大多集中于20--35之間汇四,因此我們可以如下分組:
<=20? /? 21--25? /? 26-30? /? 31-35? /? 36+
有兩種方法:自動(dòng)分組和手動(dòng)分組
自動(dòng)分組:中間區(qū)域只能等分,點(diǎn)擊【生成分割點(diǎn)】
分成5個(gè)區(qū)間需要4個(gè)分割點(diǎn),且中間的區(qū)域只能等分厚宰,計(jì)算規(guī)則如圖所示
點(diǎn)擊【應(yīng)用】結(jié)果如下
點(diǎn)擊【生成標(biāo)簽】就可以得到如圖所示的標(biāo)簽說(shuō)明
第二種方法是手動(dòng)分組,非常靈活,可以不等分分組誉己。
操作方法如下:
在第一區(qū)域輸入要分組的節(jié)點(diǎn)值慢宗,然后點(diǎn)擊【生成標(biāo)簽】即可
即輸入20、25奔穿、30镜沽、35后點(diǎn)擊【生成標(biāo)簽】得到如下結(jié)果:
點(diǎn)擊【確定】,數(shù)據(jù)表中新生成了一個(gè)變量”年齡段“