機器學習-談談分類算法的選擇

http://blog.csdn.net/pb09013037/article/details/41446575

如何針對某個分類問題決定使用何種機器學習算法中跌? 當然,如果你真心在乎準確率埂伦,最好的途徑就是測試一大堆各式各樣的算法(同時確保在每個算法上也測試不同的參數(shù)),最后選擇在交叉驗證中表現(xiàn)最好的思恐。倘若你只是想針對你的問題尋找一個“足夠好”的算法沾谜,或者一個起步點,這里給出了一些我覺得這些年用著還不錯的常規(guī)指南壁袄。

訓練集有多大类早?

如果是小訓練集,高偏差/低方差的分類器(比如樸素貝葉斯)要比低偏差/高方差的分類器(比如k最近鄰)具有優(yōu)勢嗜逻,因為后者容易過擬合涩僻。然而隨著訓練集的增大,低偏差/高方差的分類器將開始具有優(yōu)勢(它們擁有更低的漸近誤差)栈顷,因為高偏差分類器對于提供準確模型不那么給力逆日。

你也可以把這一點看作生成模型和判別模型的差別。

一些常用算法的優(yōu)缺點

樸素貝葉斯: 巨尼瑪簡單萄凤,你只要做些算術就好了室抽。倘若條件獨立性假設確實滿足,樸素貝葉斯分類器將會比判別模型靡努,譬如邏輯回歸收斂得更快坪圾,因此你只需要更少的訓練數(shù)據。就算該假設不成立惑朦,樸素貝葉斯分類器在實踐中仍然有著不俗的表現(xiàn)兽泄。如果你需要的是快速簡單并且表現(xiàn)出色,這將是個不錯的選擇漾月。其主要缺點是它學習不了特征間的交互關系(比方說病梢,它學習不了你雖然喜歡甄子丹和姜文的電影,卻討厭他們共同出演的電影《關云長》的情況)梁肿。

邏輯回歸: 有很多正則化模型的方法蜓陌,而且你不必像在用樸素貝葉斯那樣擔心你的特征是否相關。與決策樹與支持向量機相比吩蔑,你還會得到一個不錯的概率解釋钮热,你甚至可以輕松地利用新數(shù)據來更新模型(使用在線梯度下降算法)。如果你需要一個概率架構(比如簡單地調節(jié)分類閾值烛芬,指明不確定性隧期,或者是要得得置信區(qū)間)痴奏,或者你 以后 想將更多的訓練數(shù)據 快速 整合到模型中去,使用它吧厌秒。

決策樹: 易于解釋說明(對于某些人來說 —— 我不確定我是否在這其中)。它可以毫無壓力地處理特征間的交互關系并且是非參數(shù)化的擅憔,因此你不必擔心異常值或者數(shù)據是否線性可分(舉個例子鸵闪,決策樹能輕松處理好類別A在某個 特征維度x的末端 ,類別B在中間暑诸,然后類別A又出現(xiàn)在特征維度x前端的情況 )蚌讼。它的一個缺點就是不支持在線學習,于是在新樣本到來后个榕,決策樹需要全部重建篡石。另一個缺點是容易過擬合,但這也就是諸如隨機森林(或提升樹)之類的集成方法的切入點西采。另外凰萨,隨機森林經常是很多分類問題的贏家(通常比支持向量機好上那么一點,我認為)械馆,它快速并且可調胖眷,同時你無須擔心要像支持向量機那樣調一大堆參數(shù),所以最近它貌似相當受歡迎霹崎。

支持向量機: 高準確率珊搀,為避免過擬合提供了很好的理論保證,而且就算數(shù)據在原特征空間線性不可分尾菇,只要給個合適的核函數(shù)境析,它就能運行得很好。在動輒超高維的文本分類問題中特別受歡迎派诬±拖可惜內存消耗大,難以解釋千埃,運行和調參也有些煩人憔儿,所以我認為隨機森林要開始取而代之了。

然而放可。谒臼。。

盡管如此耀里,回想一下蜈缤,好的數(shù)據卻要優(yōu)于好的算法,設計優(yōu)良特征是大有裨益的冯挎。假如你有一個超大數(shù)據集底哥,那么無論你使用哪種算法可能對分類性能都沒太大影響(此時就根據速度和易用性來進行抉擇)。

再重申一次我上面說過的話,倘若你真心在乎準確率趾徽,你一定得嘗試多種多樣的分類器续滋,并且通過交叉驗證選擇最優(yōu)。要么就從Netflix Prize(和Middle Earth)取點經孵奶,用集成方法把它們合而用之疲酌,妥妥的。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末了袁,一起剝皮案震驚了整個濱河市朗恳,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌载绿,老刑警劉巖粥诫,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異崭庸,居然都是意外死亡怀浆,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進店門冀自,熙熙樓的掌柜王于貴愁眉苦臉地迎上來揉稚,“玉大人,你說我怎么就攤上這事熬粗〔缶粒” “怎么了?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵驻呐,是天一觀的道長灌诅。 經常有香客問我,道長含末,這世上最難降的妖魔是什么猜拾? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮佣盒,結果婚禮上挎袜,老公的妹妹穿的比我還像新娘。我一直安慰自己肥惭,他們只是感情好盯仪,可當我...
    茶點故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蜜葱,像睡著了一般全景。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上牵囤,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天爸黄,我揣著相機與錄音滞伟,去河邊找鬼。 笑死炕贵,一個胖子當著我的面吹牛梆奈,可吹牛的內容都是我干的。 我是一名探鬼主播称开,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼鉴裹,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了钥弯?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤督禽,失蹤者是張志新(化名)和其女友劉穎脆霎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體狈惫,經...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡睛蛛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了胧谈。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片忆肾。...
    茶點故事閱讀 40,015評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖菱肖,靈堂內的尸體忽然破棺而出客冈,到底是詐尸還是另有隱情,我是刑警寧澤稳强,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布场仲,位于F島的核電站,受9級特大地震影響退疫,放射性物質發(fā)生泄漏渠缕。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一褒繁、第九天 我趴在偏房一處隱蔽的房頂上張望亦鳞。 院中可真熱鬧,春花似錦棒坏、人聲如沸燕差。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽谁不。三九已至,卻和暖如春徽诲,著一層夾襖步出監(jiān)牢的瞬間刹帕,已是汗流浹背吵血。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留偷溺,地道東北人蹋辅。 一個月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像挫掏,于是被迫代替她去往敵國和親侦另。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,969評論 2 355

推薦閱讀更多精彩內容