特征離散化方法及LR邏輯回歸

自學(xué)搜集,原文請看:http://blog.csdn.net/hero_fantao/article/details/34533533,http://blog.csdn.net/yang090510118/article/details/39478033

連續(xù)性變量轉(zhuǎn)化成離散型變量大致有兩類方法:

(1)卡方檢驗方法剃浇;

(2)信息增益方法怎栽;

一: 卡方檢驗方法

1.1 分裂方法

1.2 合并方法

分裂方法譬正,就是找到一個分裂點看饥努,左右2個區(qū)間民珍,在目標(biāo)值上分布是否有顯著差異欧募,有顯著差異就分裂腋粥,否則就忽略蚊荣。這個點可以每次找差異最大的點赤拒。合并類似秫筏,先劃分如果很小單元區(qū)間,按順序合并在目標(biāo)值上分布不顯著的相鄰區(qū)間挎挖,直到收斂这敬。

二:信息增益方法

2.1 分裂方法

2.2 合并方法
這個和決策樹的學(xué)習(xí)很類似。分裂方法蕉朵,就是找到一個分裂點看崔涂,左右2個區(qū)間,看分裂前后信息增益變化閾值始衅,如果差值超過閾值(正值冷蚂,分列前-分裂后信息熵),則分裂汛闸。每次找差值最大的點做分裂點蝙茶,直到收斂。合并類似诸老,先劃分如果很小單元區(qū)間隆夯,按順序合并信息增益小于閾值的相鄰區(qū)間,直到收斂别伏。


邏輯回歸LR的特征為什么要先離散化
在工業(yè)界吮廉,很少直接將連續(xù)值作為特征喂給邏輯回歸模型,而是將連續(xù)特征離散化為一系列0畸肆、1特征交給邏輯回歸模型宦芦,這樣做的優(yōu)勢有以下幾點:

  1. 稀疏向量內(nèi)積乘法運算速度快,計算結(jié)果方便存儲轴脐,容易scalable(擴展)调卑。

  2. 離散化后的特征對異常數(shù)據(jù)有很強的魯棒性:比如一個特征是年齡>30是1抡砂,否則0。如果特征沒有離散化恬涧,一個異常數(shù)據(jù)“年齡300歲”會給模型造成很大的干擾注益。

  3. 邏輯回歸屬于廣義線性模型,表達(dá)能力受限溯捆;單變量離散化為N個后丑搔,每個變量有單獨的權(quán)重,相當(dāng)于為模型引入了非線性提揍,能夠提升模型表達(dá)能力啤月,加大擬合。

  4. 離散化后可以進行特征交叉劳跃,由M+N個變量變?yōu)镸*N個變量谎仲,進一步引入非線性,提升表達(dá)能力刨仑。

  5. 特征離散化后郑诺,模型會更穩(wěn)定,比如如果對用戶年齡離散化杉武,20-30作為一個區(qū)間辙诞,不會因為一個用戶年齡長了一歲就變成一個完全不同的人。當(dāng)然處于區(qū)間相鄰處的樣本會剛好相反轻抱,所以怎么劃分區(qū)間是門學(xué)問飞涂。

李沐少帥指出,模型是使用離散特征還是連續(xù)特征十拣,其實是一個“海量離散特征+簡單模型” 同 “少量連續(xù)特征+復(fù)雜模型”的權(quán)衡封拧。既可以離散化用線性模型志鹃,也可以用連續(xù)特征加深度學(xué)習(xí)夭问。就看是喜歡折騰特征還是折騰模型了。通常來說曹铃,前者容易缰趋,而且可以n個人一起并行做,有成功經(jīng)驗陕见;后者目前看很贊秘血,能走多遠(yuǎn)還須拭目以待。

大概的理解:

1)計算簡單

2)簡化模型

3)增強模型的泛化能力评甜,不易受噪聲的影響

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子墩邀,更是在濱河造成了極大的恐慌,老刑警劉巖熔脂,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異柑肴,居然都是意外死亡霞揉,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進店門晰骑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來适秩,“玉大人,你說我怎么就攤上這事硕舆』嘬瘢” “怎么了?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵岗宣,是天一觀的道長蚂会。 經(jīng)常有香客問我,道長耗式,這世上最難降的妖魔是什么胁住? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮刊咳,結(jié)果婚禮上彪见,老公的妹妹穿的比我還像新娘。我一直安慰自己娱挨,他們只是感情好余指,可當(dāng)我...
    茶點故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著跷坝,像睡著了一般酵镜。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上柴钻,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天淮韭,我揣著相機與錄音,去河邊找鬼贴届。 笑死靠粪,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的毫蚓。 我是一名探鬼主播占键,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼元潘!你這毒婦竟也來了畔乙?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤翩概,失蹤者是張志新(化名)和其女友劉穎牲距,沒想到半個月后袖订,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡嗅虏,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年洛姑,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片皮服。...
    茶點故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡楞艾,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出龄广,到底是詐尸還是另有隱情硫眯,我是刑警寧澤,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布择同,位于F島的核電站两入,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏敲才。R本人自食惡果不足惜裹纳,卻給世界環(huán)境...
    茶點故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望紧武。 院中可真熱鬧剃氧,春花似錦、人聲如沸阻星。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽妥箕。三九已至滥酥,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間畦幢,已是汗流浹背坎吻。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留呛讲,地道東北人禾怠。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓返奉,卻偏偏與公主長得像贝搁,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子芽偏,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內(nèi)容