自學(xué)搜集,原文請看:http://blog.csdn.net/hero_fantao/article/details/34533533,http://blog.csdn.net/yang090510118/article/details/39478033
連續(xù)性變量轉(zhuǎn)化成離散型變量大致有兩類方法:
(1)卡方檢驗方法剃浇;
(2)信息增益方法怎栽;
一: 卡方檢驗方法
1.1 分裂方法
1.2 合并方法
分裂方法譬正,就是找到一個分裂點看饥努,左右2個區(qū)間民珍,在目標(biāo)值上分布是否有顯著差異欧募,有顯著差異就分裂腋粥,否則就忽略蚊荣。這個點可以每次找差異最大的點赤拒。合并類似秫筏,先劃分如果很小單元區(qū)間,按順序合并在目標(biāo)值上分布不顯著的相鄰區(qū)間挎挖,直到收斂这敬。
二:信息增益方法
2.1 分裂方法
2.2 合并方法
這個和決策樹的學(xué)習(xí)很類似。分裂方法蕉朵,就是找到一個分裂點看崔涂,左右2個區(qū)間,看分裂前后信息增益變化閾值始衅,如果差值超過閾值(正值冷蚂,分列前-分裂后信息熵),則分裂汛闸。每次找差值最大的點做分裂點蝙茶,直到收斂。合并類似诸老,先劃分如果很小單元區(qū)間隆夯,按順序合并信息增益小于閾值的相鄰區(qū)間,直到收斂别伏。
邏輯回歸LR的特征為什么要先離散化
在工業(yè)界吮廉,很少直接將連續(xù)值作為特征喂給邏輯回歸模型,而是將連續(xù)特征離散化為一系列0畸肆、1特征交給邏輯回歸模型宦芦,這樣做的優(yōu)勢有以下幾點:
稀疏向量內(nèi)積乘法運算速度快,計算結(jié)果方便存儲轴脐,容易scalable(擴展)调卑。
離散化后的特征對異常數(shù)據(jù)有很強的魯棒性:比如一個特征是年齡>30是1抡砂,否則0。如果特征沒有離散化恬涧,一個異常數(shù)據(jù)“年齡300歲”會給模型造成很大的干擾注益。
邏輯回歸屬于廣義線性模型,表達(dá)能力受限溯捆;單變量離散化為N個后丑搔,每個變量有單獨的權(quán)重,相當(dāng)于為模型引入了非線性提揍,能夠提升模型表達(dá)能力啤月,加大擬合。
離散化后可以進行特征交叉劳跃,由M+N個變量變?yōu)镸*N個變量谎仲,進一步引入非線性,提升表達(dá)能力刨仑。
特征離散化后郑诺,模型會更穩(wěn)定,比如如果對用戶年齡離散化杉武,20-30作為一個區(qū)間辙诞,不會因為一個用戶年齡長了一歲就變成一個完全不同的人。當(dāng)然處于區(qū)間相鄰處的樣本會剛好相反轻抱,所以怎么劃分區(qū)間是門學(xué)問飞涂。
李沐少帥指出,模型是使用離散特征還是連續(xù)特征十拣,其實是一個“海量離散特征+簡單模型” 同 “少量連續(xù)特征+復(fù)雜模型”的權(quán)衡封拧。既可以離散化用線性模型志鹃,也可以用連續(xù)特征加深度學(xué)習(xí)夭问。就看是喜歡折騰特征還是折騰模型了。通常來說曹铃,前者容易缰趋,而且可以n個人一起并行做,有成功經(jīng)驗陕见;后者目前看很贊秘血,能走多遠(yuǎn)還須拭目以待。
大概的理解:
1)計算簡單
2)簡化模型
3)增強模型的泛化能力评甜,不易受噪聲的影響