邏輯斯蒂回歸VS決策樹VS隨機(jī)森林

LR 與SVM

不同

1.logistic regression適合需要得到一個分類概率的場景骗污，SVM則沒有分類概率

2.LR其實同樣可以使用kernel，但是LR沒有support vector在計算復(fù)雜度上會高出很多沈条。如果樣本量很大并且需要的是一個復(fù)雜模型需忿，那么建議SVM

3. 如果樣本比較少，模型又比較復(fù)雜蜡歹。那么建議svm屋厘，它有一套比較好的解構(gòu)風(fēng)險最小化理論的保障，比如large margin和soft margin

相同

1. 由于hinge loss和entropy loss很接近月而，因此得出來的兩個分類面是非常接近的

2. 都是在兩個loss上做了一個regularization

作者：Jack

鏈接：https://www.zhihu.com/question/21704547/answer/74459964

來源：知乎

著作權(quán)歸作者所有汗洒。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)，非商業(yè)轉(zhuǎn)載請注明出處景鼠。

LR 與SVM

在Andrew NG的課里講到過：

1. 如果Feature的數(shù)量很大仲翎，跟樣本數(shù)量差不多痹扇，這時候選用LR或者是Linear Kernel的SVM

2. 如果Feature的數(shù)量比較小铛漓，樣本數(shù)量一般，不算大也不算小鲫构，選用SVM+Gaussian Kernel

3. 如果Feature的數(shù)量比較小浓恶，而樣本數(shù)量很多，需要手工添加一些feature變成第一種情況

仔細(xì)想想结笨，為什么是這樣包晰？

作者：雷軍

鏈接：https://www.zhihu.com/question/21704547/answer/30682505

來源：知乎

著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)炕吸，非商業(yè)轉(zhuǎn)載請注明出處伐憾。

下面內(nèi)容來源：http://www.cnblogs.com/suanec/p/4992887.html

首先，我們來分析下邏輯回歸（Logistic Regression）,它是解決工業(yè)規(guī)模問題最流行的算法赫模，盡管與其他技術(shù)相比树肃，其在效率和算法實現(xiàn)的易用性方面并不出眾。

邏輯回歸非常便利并且很有用的一點就是瀑罗，它輸出的結(jié)果并不是一個離散值或者確切的類別胸嘴。相反，你得到的是一個與每個觀測樣本相關(guān)的概率列表斩祭。你可以使用不同的標(biāo)準(zhǔn)和常用的性能指標(biāo)來分析這個概率分?jǐn)?shù)劣像，并得到一個閾值，然后使用最符合你業(yè)務(wù)問題的方式進(jìn)行分類輸出摧玫。在金融行業(yè)耳奕，這種技術(shù)普遍應(yīng)用于記分卡中，對于同一個模型，你可以調(diào)整你的閾值【臨界值】來得到不同的分類結(jié)果屋群。很少有其它算法使用這種分?jǐn)?shù)作為直接結(jié)果时迫。相反，它們的輸出是嚴(yán)謹(jǐn)?shù)闹苯臃诸惤Y(jié)果谓晌。同時掠拳，邏輯回歸在時間和內(nèi)存需求上相當(dāng)高效。它可以應(yīng)用于分布式數(shù)據(jù)纸肉，并且還有在線算法實現(xiàn)溺欧，用較少的資源處理大型數(shù)據(jù)。

除此之外柏肪，邏輯回歸算法對于數(shù)據(jù)中小噪聲的魯棒性很好姐刁，并且不會受到輕微的多重共線性的特別影響。嚴(yán)重的多重共線性則可以使用邏輯回歸結(jié)合L2正則化來解決烦味，不過如果要得到一個簡約模型聂使，L2正則化并不是最好的選擇，因為它建立的模型涵蓋了全部的特征谬俄。

當(dāng)你的特征數(shù)目很大并且還丟失了大部分?jǐn)?shù)據(jù)時柏靶，邏輯回歸就會表現(xiàn)得力不從心。同時溃论，太多的類別變量對邏輯回歸來說也是一個問題屎蜓。邏輯回歸的另一個爭議點是它使用整個數(shù)據(jù)來得到它的概率分?jǐn)?shù)。雖然這并不是一個問題钥勋，但是當(dāng)你嘗試畫一條分離曲線的時候炬转，邏輯回歸可能會認(rèn)為那些位于分?jǐn)?shù)兩端“明顯的”數(shù)據(jù)點不應(yīng)該被關(guān)注。有些人可能認(rèn)為算灸，在理想情況下扼劈，邏輯回歸應(yīng)該依賴這些邊界點。同時菲驴，如果某些特征是非線性的荐吵，那么你必須依靠轉(zhuǎn)換，然而當(dāng)你特征空間的維數(shù)增加時谢翎，這也會變成另一個難題捍靠。所以，對于邏輯回歸森逮，我們根據(jù)討論的內(nèi)容總結(jié)了一些突出的優(yōu)點和缺點榨婆。

Logistic回歸分析的優(yōu)點：

1.適合需要得到一個分類概率的場景

2.實現(xiàn)效率較高

3.對邏輯回歸而言，多重共線性并不是問題褒侧，它可以結(jié)合L2正則化來解決良风；

4.邏輯回歸廣泛的應(yīng)用于工業(yè)問題上

邏輯回歸的缺點：

1.當(dāng)特征空間很大時谊迄，邏輯回歸的性能不是很好；

2.不能很好地處理大量多類特征或變量烟央；

4.對于非線性特征统诺，需要進(jìn)行轉(zhuǎn)換；

5.依賴于全部的數(shù)據(jù)特征疑俭，當(dāng)特征有缺失的時候表現(xiàn)效果不好

決策樹

決策樹固有的特性是它對單向變換或非線性特征并不關(guān)心[這不同于預(yù)測器當(dāng)中的非線性相關(guān)性>粮呢，因為它們簡單地在特征空間中插入矩形[或是（超）長方體]，這些形狀可以適應(yīng)任何單調(diào)變換钞艇。當(dāng)決策樹被設(shè)計用來處理預(yù)測器的離散數(shù)據(jù)或是類別時啄寡，任何數(shù)量的分類變量對決策樹來說都不是真正的問題。使用決策樹訓(xùn)練得到的模型相當(dāng)直觀哩照，在業(yè)務(wù)上也非常容易解釋挺物。決策樹并不是以概率分?jǐn)?shù)作為直接結(jié)果，但是你可以使用類概率反過來分配給終端節(jié)點飘弧。這也就讓我們看到了與決策樹相關(guān)的最大問題识藤，即它們屬于高度偏見型模型。你可以在訓(xùn)練集上構(gòu)建決策樹模型次伶，而且其在訓(xùn)練集上的結(jié)果可能優(yōu)于其它算法痴昧，但你的測試集最終會證明它是一個差的預(yù)測器。你必須對樹進(jìn)行剪枝学少，同時結(jié)合交叉驗證才能得到一個沒有過擬合的決策樹模型剪个。

隨機(jī)森林在很大程度上克服了過擬合這一缺陷，其本身并沒有什么特別之處版确，但它卻是決策樹一個非常優(yōu)秀的擴(kuò)展。隨機(jī)森林同時也剝奪了商業(yè)規(guī)則的易解釋性乎折，因為現(xiàn)在你有上千棵這樣的樹绒疗，而且它們使用的多數(shù)投票規(guī)則會使得模型變得更加復(fù)雜。同時骂澄，決策樹變量之間也存在相互作用吓蘑，如果你的大多數(shù)變量之間沒有相互作用關(guān)系或者非常弱，那么會使得結(jié)果非常低效坟冲。此外磨镶，這種設(shè)計也使得它們更不易受多重共線性的影響。

決策樹總結(jié)如下：

決策樹的優(yōu)點：

1.直觀的決策規(guī)則

2.可以處理非線性特征

3.考慮了變量之間的相互作用

決策樹的缺點：

1.訓(xùn)練集上的效果高度優(yōu)于測試集健提，即過擬合[隨機(jī)森林克服了此缺點]

2.沒有將排名分?jǐn)?shù)作為直接結(jié)果

支持向量機(jī)

現(xiàn)在來討論下支持向量機(jī)（SVM, Support Vector Machine）琳猫。支持向量機(jī)的特點是它依靠邊界樣本來建立需要的分離曲線。正如我們之間看到的那樣私痹，它可以處理非線性決策邊界脐嫂。對邊界的依賴统刮，也使得它們有能力處理缺失數(shù)據(jù)中“明顯的”樣本實例。支持向量機(jī)能夠處理大的特征空間账千，也因此成為文本分析中最受歡迎的算法之一侥蒙，由于文本數(shù)據(jù)幾乎總是產(chǎn)生大量的特征，所以在這種情況下邏輯回歸并不是一個非常好的選擇匀奏。

對于一個行外人來說鞭衩，SVM的結(jié)果并不像決策樹那樣直觀。同時使用非線性核娃善，使得支持向量機(jī)在大型數(shù)據(jù)上的訓(xùn)練非常耗時醋旦。總之：

SVM的優(yōu)點：

1.能夠處理大型特征空間

2.能夠處理非線性特征之間的相互作用

3.無需依賴整個數(shù)據(jù)

SVM的缺點：

1.當(dāng)觀測樣本很多時会放，效率并不是很高

2.有時候很難找到一個合適的核函數(shù)

為此饲齐，我試著編寫一個簡單的工作流，決定應(yīng)該何時選擇這三種算法咧最，流程如下：

首當(dāng)其沖應(yīng)該選擇的就是邏輯回歸捂人，如果它的效果不怎么樣，那么可以將它的結(jié)果作為基準(zhǔn)來參考矢沿；

然后試試決策樹（隨機(jī)森林）是否可以大幅度提升模型性能滥搭。即使你并沒有把它當(dāng)做最終模型，你也可以使用隨機(jī)森林來移除噪聲變量捣鲸；

如果特征的數(shù)量和觀測樣本特別多瑟匆，那么當(dāng)資源和時間充足時，使用SVM不失為一種選擇栽惶。

最后愁溜，大家請記住，在任何時候好的數(shù)據(jù)總要勝過任何一個算法外厂。時常思考下冕象，看看是否可以使用你的領(lǐng)域知識來設(shè)計一個好的特征。在使用創(chuàng)建的特征做實驗時汁蝶，可以嘗試下各種不同的想法渐扮。此外，你還可以嘗試下多種模型的組合掖棉。這些我們將在下回討論墓律，所以，整裝待發(fā)吧幔亥！

最后編輯于：2017.12.03 04:29:42

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末耻讽，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子紫谷，更是在濱河造成了極大的恐慌齐饮，老刑警劉巖捐寥，帶你破解...
沈念sama閱讀 219,427評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異祖驱，居然都是意外死亡握恳，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,551評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門捺僻，熙熙樓的掌柜王于貴愁眉苦臉地迎上來乡洼，“玉大人，你說我怎么就攤上這事匕坯∈牵” “怎么了？”我有些...
開封第一講書人閱讀 165,747評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵葛峻，是天一觀的道長锹雏。經(jīng)常有香客問我，道長术奖，這世上最難降的妖魔是什么礁遵？我笑而不...
開封第一講書人閱讀 58,939評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮采记，結(jié)果婚禮上佣耐，老公的妹妹穿的比我還像新娘。我一直安慰自己唧龄，他們只是感情好兼砖，可當(dāng)我...
茶點故事閱讀 67,955評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著既棺，像睡著了一般讽挟。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上援制，一...
開封第一講書人閱讀 51,737評論 1贊 305
城市分裂傳說
那天戏挡，我揣著相機(jī)與錄音，去河邊找鬼晨仑。笑死，一個胖子當(dāng)著我的面吹牛拆檬，可吹牛的內(nèi)容都是我干的洪己。我是一名探鬼主播，決...
沈念sama閱讀 40,448評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼竟贯，長吁一口氣：“原來是場噩夢啊……” “哼答捕！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起屑那，我...
開封第一講書人閱讀 39,352評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤拱镐，失蹤者是張志新（化名）和其女友劉穎艘款，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體沃琅，經(jīng)...
沈念sama閱讀 45,834評論 1贊 317
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡哗咆，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,992評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了益眉。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片晌柬。...
茶點故事閱讀 40,133評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖郭脂，靈堂內(nèi)的尸體忽然破棺而出年碘，到底是詐尸還是另有隱情，我是刑警寧澤展鸡，帶...
沈念sama閱讀 35,815評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布屿衅，位于F島的核電站，受9級特大地震影響莹弊，放射性物質(zhì)發(fā)生泄漏涤久。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,477評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一箱硕、第九天我趴在偏房一處隱蔽的房頂上張望拴竹。院中可真熱鬧，春花似錦剧罩、人聲如沸栓拜。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,022評論 0贊 22
一樁弒父案惠昔，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽幕与。三九已至，卻和暖如春镇防，著一層夾襖步出監(jiān)牢的瞬間啦鸣，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,147評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工来氧，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留诫给，地道東北人。一個月前我還...
沈念sama閱讀 48,398評論 3贊 373
代替公主和親
正文我出身青樓啦扬，卻偏偏與公主長得像中狂，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子扑毡，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,077評論 2贊 355

邏輯斯蒂回歸VS決策樹VS隨機(jī)森林

推薦閱讀更多精彩內(nèi)容