一、數(shù)據(jù)轉(zhuǎn)化
1. 數(shù)據(jù)形態(tài)轉(zhuǎn)化
1)分類(lèi)字段轉(zhuǎn)化為連續(xù)字段页徐,比如汽車(chē)的顏色苏潜,白色黑色需求會(huì)較多,紅色或者其他顏色需求少变勇,因此我們排序后可以給顏色賦值恤左,比如白色1,黑色2贰锁,其他顏色依次類(lèi)推赃梧。 但是一個(gè)很關(guān)鍵的地方就是,分誒字段想要轉(zhuǎn)化為連續(xù)字段豌熄,必須是有等級(jí)有序的授嘀,否則沒(méi)有意義。
2)數(shù)據(jù)離散化锣险,把所有人年齡分成90后蹄皱,80后,因?yàn)槲覀冄芯客活?lèi)型的特點(diǎn)芯肤。
2. 數(shù)據(jù)標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化的目的就是消除量綱
1)極值標(biāo)準(zhǔn)化巷折,就是把所有值轉(zhuǎn)化為固定區(qū)間,比如(0,100)來(lái)衡量
2)這個(gè)最常用
3. 數(shù)據(jù)一般化:主要是針對(duì)分類(lèi)數(shù)據(jù)崖咨,有時(shí)候分類(lèi)數(shù)據(jù)很多锻拘,我們可以減少一些分類(lèi)數(shù)據(jù),比如地址信息很詳細(xì)击蹲,但我們不需要這么詳細(xì)署拟,可以直接忽略街道這些信息而只關(guān)注整個(gè)城市
二、數(shù)據(jù)離散化與數(shù)據(jù)擴(kuò)充
目的
1)3)本質(zhì)上就是看看離散化后能不能讓模型跑出結(jié)果歌豺,原來(lái)跑不出來(lái)推穷,離散了以后看看有沒(méi)有一些關(guān)系,比如線性關(guān)系类咧。
2)這個(gè)點(diǎn)不對(duì)馒铃,一般能用連續(xù)數(shù)值型盡量用連續(xù)數(shù)值型蟹腾,只有說(shuō)我們不需要這么精確,才會(huì)轉(zhuǎn)化為離散型數(shù)值区宇,而不是為了配合模型娃殖,先有分析目標(biāo),再有模型
等寬箱子其實(shí)就是最大值-最小值/組數(shù) 得到組距萧锉,上面圖片組距是3
等分箱子就是每個(gè)間隔箱子個(gè)數(shù)都一樣
實(shí)際操作過(guò)程中我們可以嘗試性的用上述的分法珊随,然后跑下模型,看看效果好不好柿隙。
數(shù)據(jù)擴(kuò)充簡(jiǎn)單了,看下ppt
三鲫凶、數(shù)據(jù)合并與拆分
理論部分如上圖
1) 數(shù)據(jù)合并
重新獲取telco.sav文件打開(kāi)禀崖,第一步我們先生成一部分額外的數(shù)據(jù)集
可以通過(guò)選擇個(gè)案按鈕-隨機(jī)個(gè)案樣本,這一步我們添加10%個(gè)案螟炫,然后復(fù)制數(shù)據(jù)到新數(shù)據(jù)集波附,命名為合并。
第二步開(kāi)始合并昼钻,我們點(diǎn)擊數(shù)據(jù)按鈕-選擇合并文件-添加個(gè)案-打開(kāi)數(shù)據(jù)集-選中剛才的合并-點(diǎn)擊繼續(xù)
只是個(gè)案源打鉤
可以看到多了100多條數(shù)據(jù)掸屡,并且多了個(gè)字段叫做source,原文件是0然评,新文件來(lái)的是1仅财,合并完成
-
變量數(shù)據(jù)合并
這里還有一個(gè)合并變量按鈕,其實(shí)就是按健值合并碗淌,這一部分其實(shí)直接用sql更加簡(jiǎn)單盏求。
3)內(nèi)部數(shù)據(jù)擴(kuò)充
這一步其實(shí)就是計(jì)算字段,給表內(nèi)通過(guò)計(jì)算的方式增加計(jì)算字段亿眠。
點(diǎn)擊轉(zhuǎn)換按鈕-計(jì)算變量-我們要計(jì)算家庭人均收入碎罚,在目標(biāo)變量里面輸入家庭人均收入,在數(shù)字表達(dá)式里面輸入income/reside-點(diǎn)擊確定
結(jié)果如上纳像,多了一列家庭人均收入