模型融合LR+GBDT(特征自動(dòng)組合進(jìn)行二分類)

LR+GBDT

在推薦問題中久脯,我們一般都預(yù)測(cè)用戶是否做某事谆扎,是一個(gè)二分類問題锋八。

對(duì)于二分類問題一般我們使用的是邏輯回歸浙于。邏輯回歸是廣義的線性模型,增加sigma函數(shù)使其輸出值在[0挟纱,1]內(nèi)羞酗,可以看做是一個(gè)事件發(fā)生的概率值。

但是邏輯回歸對(duì)非線性的關(guān)系無能為力樊销。

為了解決這個(gè)問題整慎,我們可以用特征值組合解決這個(gè)問題。

假如性別和國(guó)籍與最終預(yù)測(cè)結(jié)果是非線性的围苫。而性別+國(guó)籍與預(yù)測(cè)結(jié)果是線性的裤园。如性別(男)并且國(guó)籍(china)。一個(gè)并操作就是特征值組合剂府。

假如我們使用one_hot來表示特征值拧揽,那么性別1,國(guó)籍1 -> 性別國(guó)籍 1

特征值組合也屬于特征工程的一部分腺占,其難點(diǎn)在于怎么組合淤袜,組合哪些特征值是有效的。

特征選擇時(shí)衰伯,我們總使用樹模型來選擇最重要的幾個(gè)特征值铡羡。在這里樹模型又發(fā)揮著特征組合的功能。

我們先來看一棵cart樹意鲸,因?yàn)樗且活w二叉樹烦周,所以每一個(gè)節(jié)點(diǎn)分出兩個(gè)枝干。每一個(gè)葉節(jié)點(diǎn)作為輸出怎顾。

圖片發(fā)自簡(jiǎn)書App


例如读慎,樣本x最終落在了小女孩葉節(jié)點(diǎn)上,那么我們可以認(rèn)為age<15并且No male與最終結(jié)果有線性關(guān)系槐雾。

這樣我們可以認(rèn)為每一個(gè)葉節(jié)點(diǎn)都可以看做一個(gè)組合過的特征值夭委,且該特征值與結(jié)果有著線性關(guān)系。


我們選擇的樹模型是梯度提升樹募强。什么是梯度提升樹?又為什么選擇它呢?

梯度提升樹是一個(gè)提升bosting模型株灸。從一個(gè)弱分類器開始崇摄,開始用訓(xùn)練集訓(xùn)練出一棵樹,將其負(fù)梯度作為殘差(與真實(shí)性的差距)

圖片發(fā)自簡(jiǎn)書App

用殘差訓(xùn)練下一棵樹蚂且,用下一棵樹的葉節(jié)點(diǎn)去最小化全局損失函數(shù)

圖片發(fā)自簡(jiǎn)書App

最后更新樹(就是累加過程)

圖片發(fā)自簡(jiǎn)書App

直到滿足一個(gè)較小的誤差配猫。并得到強(qiáng)分類器

圖片發(fā)自簡(jiǎn)書App

為什么使用該樹呢?

梯度提升樹是一顆樹+一棵樹累加起來的。前面的樹是為了區(qū)分大多數(shù)樣本杏死,而后面的樹是為了把特殊的樣本分開。所以我們得到的組合特征也是有重要性的捆交。

這比起單棵樹或者是隨機(jī)森林都要好淑翼。



我們將GBDT中,安樹的葉節(jié)點(diǎn)采取特征值做one_hot然后喂入邏輯回歸模型品追。會(huì)得到很好的效果玄括。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市肉瓦,隨后出現(xiàn)的幾起案子遭京,更是在濱河造成了極大的恐慌,老刑警劉巖泞莉,帶你破解...
    沈念sama閱讀 207,248評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件哪雕,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡鲫趁,警方通過查閱死者的電腦和手機(jī)斯嚎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來挨厚,“玉大人堡僻,你說我怎么就攤上這事∫咛辏” “怎么了钉疫?”我有些...
    開封第一講書人閱讀 153,443評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)巢价。 經(jīng)常有香客問我牲阁,道長(zhǎng),這世上最難降的妖魔是什么蹄溉? 我笑而不...
    開封第一講書人閱讀 55,475評(píng)論 1 279
  • 正文 為了忘掉前任咨油,我火速辦了婚禮,結(jié)果婚禮上柒爵,老公的妹妹穿的比我還像新娘役电。我一直安慰自己,他們只是感情好棉胀,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,458評(píng)論 5 374
  • 文/花漫 我一把揭開白布法瑟。 她就那樣靜靜地躺著冀膝,像睡著了一般。 火紅的嫁衣襯著肌膚如雪霎挟。 梳的紋絲不亂的頭發(fā)上窝剖,一...
    開封第一講書人閱讀 49,185評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音酥夭,去河邊找鬼赐纱。 笑死,一個(gè)胖子當(dāng)著我的面吹牛熬北,可吹牛的內(nèi)容都是我干的疙描。 我是一名探鬼主播,決...
    沈念sama閱讀 38,451評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼讶隐,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼起胰!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起巫延,我...
    開封第一講書人閱讀 37,112評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤效五,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后炉峰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體畏妖,經(jīng)...
    沈念sama閱讀 43,609評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,083評(píng)論 2 325
  • 正文 我和宋清朗相戀三年讲冠,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了瓜客。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,163評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡竿开,死狀恐怖谱仪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情否彩,我是刑警寧澤疯攒,帶...
    沈念sama閱讀 33,803評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站列荔,受9級(jí)特大地震影響敬尺,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜贴浙,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,357評(píng)論 3 307
  • 文/蒙蒙 一砂吞、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧崎溃,春花似錦蜻直、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽呼巷。三九已至,卻和暖如春赎瑰,著一層夾襖步出監(jiān)牢的瞬間王悍,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評(píng)論 1 261
  • 我被黑心中介騙來泰國(guó)打工餐曼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留压储,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,636評(píng)論 2 355
  • 正文 我出身青樓源譬,卻偏偏與公主長(zhǎng)得像渠脉,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子瓶佳,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,925評(píng)論 2 344