機器學習-談談分類算法的選擇

http://blog.csdn.net/pb09013037/article/details/41446575

如何針對某個分類問題決定使用何種機器學習算法中跌？當然，如果你真心在乎準確率埂伦，最好的途徑就是測試一大堆各式各樣的算法（同時確保在每個算法上也測試不同的參數(shù)），最后選擇在交叉驗證中表現(xiàn)最好的思恐。倘若你只是想針對你的問題尋找一個“足夠好”的算法沾谜，或者一個起步點，這里給出了一些我覺得這些年用著還不錯的常規(guī)指南壁袄。

訓練集有多大类早？

如果是小訓練集，高偏差/低方差的分類器（比如樸素貝葉斯）要比低偏差/高方差的分類器（比如k最近鄰）具有優(yōu)勢嗜逻，因為后者容易過擬合涩僻。然而隨著訓練集的增大，低偏差/高方差的分類器將開始具有優(yōu)勢（它們擁有更低的漸近誤差）栈顷，因為高偏差分類器對于提供準確模型不那么給力逆日。

你也可以把這一點看作生成模型和判別模型的差別。

一些常用算法的優(yōu)缺點

樸素貝葉斯: 巨尼瑪簡單萄凤，你只要做些算術就好了室抽。倘若條件獨立性假設確實滿足，樸素貝葉斯分類器將會比判別模型靡努，譬如邏輯回歸收斂得更快坪圾，因此你只需要更少的訓練數(shù)據。就算該假設不成立惑朦，樸素貝葉斯分類器在實踐中仍然有著不俗的表現(xiàn)兽泄。如果你需要的是快速簡單并且表現(xiàn)出色，這將是個不錯的選擇漾月。其主要缺點是它學習不了特征間的交互關系（比方說病梢，它學習不了你雖然喜歡甄子丹和姜文的電影，卻討厭他們共同出演的電影《關云長》的情況）梁肿。

邏輯回歸: 有很多正則化模型的方法蜓陌，而且你不必像在用樸素貝葉斯那樣擔心你的特征是否相關。與決策樹與支持向量機相比吩蔑，你還會得到一個不錯的概率解釋钮热，你甚至可以輕松地利用新數(shù)據來更新模型（使用在線梯度下降算法）。如果你需要一個概率架構（比如簡單地調節(jié)分類閾值烛芬，指明不確定性隧期，或者是要得得置信區(qū)間）痴奏，或者你以后想將更多的訓練數(shù)據快速整合到模型中去，使用它吧厌秒。

決策樹: 易于解釋說明（對于某些人來說 —— 我不確定我是否在這其中）。它可以毫無壓力地處理特征間的交互關系并且是非參數(shù)化的擅憔，因此你不必擔心異常值或者數(shù)據是否線性可分（舉個例子鸵闪，決策樹能輕松處理好類別A在某個特征維度x的末端，類別B在中間暑诸，然后類別A又出現(xiàn)在特征維度x前端的情況）蚌讼。它的一個缺點就是不支持在線學習，于是在新樣本到來后个榕，決策樹需要全部重建篡石。另一個缺點是容易過擬合，但這也就是諸如隨機森林（或提升樹）之類的集成方法的切入點西采。另外凰萨，隨機森林經常是很多分類問題的贏家（通常比支持向量機好上那么一點，我認為）械馆，它快速并且可調胖眷，同時你無須擔心要像支持向量機那樣調一大堆參數(shù)，所以最近它貌似相當受歡迎霹崎。

支持向量機: 高準確率珊搀，為避免過擬合提供了很好的理論保證，而且就算數(shù)據在原特征空間線性不可分尾菇，只要給個合適的核函數(shù)境析，它就能運行得很好。在動輒超高維的文本分類問題中特別受歡迎派诬±拖可惜內存消耗大，難以解釋千埃，運行和調參也有些煩人憔儿，所以我認為隨機森林要開始取而代之了。

然而放可。谒臼。。

盡管如此耀里，回想一下蜈缤，好的數(shù)據卻要優(yōu)于好的算法，設計優(yōu)良特征是大有裨益的冯挎。假如你有一個超大數(shù)據集底哥，那么無論你使用哪種算法可能對分類性能都沒太大影響（此時就根據速度和易用性來進行抉擇）。

再重申一次我上面說過的話，倘若你真心在乎準確率趾徽，你一定得嘗試多種多樣的分類器续滋，并且通過交叉驗證選擇最優(yōu)。要么就從Netflix Prize（和Middle Earth）取點經孵奶，用集成方法把它們合而用之疲酌，妥妥的。

最后編輯于：2017.12.10 00:25:53

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末了袁，一起剝皮案震驚了整個濱河市朗恳，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌载绿，老刑警劉巖粥诫，帶你破解...
沈念sama閱讀 218,607評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異崭庸，居然都是意外死亡怀浆，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,239評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門冀自，熙熙樓的掌柜王于貴愁眉苦臉地迎上來揉稚，“玉大人，你說我怎么就攤上這事熬粗〔缶粒” “怎么了？”我有些...
開封第一講書人閱讀 164,960評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵驻呐，是天一觀的道長灌诅。經常有香客問我，道長含末，這世上最難降的妖魔是什么猜拾？我笑而不...
開封第一講書人閱讀 58,750評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮佣盒，結果婚禮上挎袜，老公的妹妹穿的比我還像新娘。我一直安慰自己肥惭，他們只是感情好盯仪，可當我...
茶點故事閱讀 67,764評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著蜜葱，像睡著了一般全景。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上牵囤，一...
開封第一講書人閱讀 51,604評論 1贊 305
城市分裂傳說
那天爸黄，我揣著相機與錄音滞伟，去河邊找鬼。笑死炕贵，一個胖子當著我的面吹牛梆奈，可吹牛的內容都是我干的。我是一名探鬼主播称开，決...
沈念sama閱讀 40,347評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼鉴裹，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了钥弯？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 39,253評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤督禽，失蹤者是張志新（化名）和其女友劉穎脆霎，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體狈惫，經...
沈念sama閱讀 45,702評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡睛蛛，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,893評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了胧谈。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片忆肾。...
茶點故事閱讀 40,015評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖菱肖，靈堂內的尸體忽然破棺而出客冈，到底是詐尸還是另有隱情，我是刑警寧澤稳强，帶...
沈念sama閱讀 35,734評論 5贊 346
?日本核電站爆炸內幕
正文年R本政府宣布场仲，位于F島的核電站，受9級特大地震影響退疫，放射性物質發(fā)生泄漏渠缕。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,352評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一褒繁、第九天我趴在偏房一處隱蔽的房頂上張望亦鳞。院中可真熱鬧，春花似錦棒坏、人聲如沸燕差。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,934評論 0贊 22
一樁弒父案俊抵，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽谁不。三九已至，卻和暖如春徽诲，著一層夾襖步出監(jiān)牢的瞬間刹帕，已是汗流浹背吵血。一陣腳步聲響...
開封第一講書人閱讀 33,052評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留偷溺，地道東北人蹋辅。一個月前我還...
沈念sama閱讀 48,216評論 3贊 371
代替公主和親
正文我出身青樓，卻偏偏與公主長得像挫掏，于是被迫代替她去往敵國和親侦另。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,969評論 2贊 355

機器學習-談談分類算法的選擇

訓練集有多大类早？

一些常用算法的優(yōu)缺點

然而放可。谒臼。。

推薦閱讀更多精彩內容