機(jī)器學(xué)習(xí)算法的優(yōu)缺點(diǎn)
機(jī)器學(xué)習(xí)算法的優(yōu)缺點(diǎn)
線性回歸是用于回歸的,而不像Logistic回歸是用于分類祝峻,其基本思想是用梯度下降法對(duì)最小二乘法形式的誤差函數(shù)進(jìn)行優(yōu)化魔吐,當(dāng)然也可以用Normal Equation直接求得參數(shù)的解,結(jié)果為1:?
ω^=(XTX)?1XTyω^=(XTX)?1XTy
而在LWLR(局部加權(quán)線性回歸)中莱找,參數(shù)的計(jì)算表達(dá)式為:?
ω^=(XTWX)?1XTWyω^=(XTWX)?1XTWy
由此可見(jiàn)LWLR與LR不同酬姆,LWLR是一個(gè)非參數(shù)模型,因?yàn)槊看芜M(jìn)行回歸計(jì)算都要遍歷訓(xùn)練樣本至少一次奥溺。
優(yōu)點(diǎn):
實(shí)現(xiàn)簡(jiǎn)單辞色,計(jì)算簡(jiǎn)單;
缺點(diǎn):
不能擬合非線性數(shù)據(jù)谚赎。
線性回歸假設(shè)特征和結(jié)果滿足線性關(guān)系淫僻。其實(shí)線性關(guān)系的表達(dá)能力非常強(qiáng)大诱篷,每個(gè)特征對(duì)結(jié)果的影響強(qiáng)弱可以由前面的參數(shù)體現(xiàn)壶唤,而且每個(gè)特征變量可以首先映射到一個(gè)函數(shù),然后再參與線性計(jì)算棕所。這樣就可以表達(dá)特征與結(jié)果之間的非線性關(guān)系闸盔。
Logistic回歸本質(zhì)上是線性回歸,只是在特征到結(jié)果的映射中加入了一層函數(shù)映射琳省,即先把特征線性求和迎吵,然后使用函數(shù)g(z)g(z)將最為假設(shè)函數(shù)來(lái)預(yù)測(cè)躲撰。g(z)g(z)可以將連續(xù)值映射到0和1上。
其損失函數(shù)的目的是增加對(duì)分類影響較大的數(shù)據(jù)點(diǎn)的權(quán)重击费,減少與分類關(guān)系較小的數(shù)據(jù)點(diǎn)的權(quán)重2拢蛋。
優(yōu)點(diǎn):
預(yù)測(cè)結(jié)果是界于0和1之間的概率;
可以適用于連續(xù)性和類別性自變量蔫巩;
容易使用和解釋谆棱;
缺點(diǎn):
當(dāng)特征空間很大時(shí),邏輯回歸的性能不是很好圆仔;
容易欠擬合垃瞧,一般準(zhǔn)確度不太高;
不能很好地處理大量多類特征或變量坪郭;
只能處理兩分類問(wèn)題(在此基礎(chǔ)上衍生出來(lái)的Softmax可以用于多分類)个从,且必須線性可分;
預(yù)測(cè)結(jié)果呈“S”型歪沃,因此從log(odds)log(odds)向概率轉(zhuǎn)化的過(guò)程是非線性的嗦锐,在兩端隨著log(odds)log(odds)值的變化,概率變化很小沪曙,邊際值太小意推,slopeslope太小,而中間概率的變化很大珊蟀,很敏感菊值。 導(dǎo)致很多區(qū)間的變量變化對(duì)目標(biāo)概率的影響沒(méi)有區(qū)分度,無(wú)法確定閥值育灸;
對(duì)于非線性特征腻窒,需要進(jìn)行轉(zhuǎn)換;
樸素貝葉斯屬于生成式模型(關(guān)于生成模型和判別式模型磅崭,主要還是在于是否是要求聯(lián)合分布)儿子,非常簡(jiǎn)單,你只是做了一堆計(jì)數(shù)砸喻。如果注有條件獨(dú)立性假設(shè)(一個(gè)比較嚴(yán)格的條件)柔逼,樸素貝葉斯分類器的收斂速度將快于判別模型,如邏輯回歸割岛,所以你只需要較少的訓(xùn)練數(shù)據(jù)即可愉适。即使NB條件獨(dú)立假設(shè)不成立,NB分類器在實(shí)踐中仍然表現(xiàn)的很出色癣漆。它的主要缺點(diǎn)是它不能學(xué)習(xí)特征間的相互作用维咸,用mRMR中R來(lái)講,就是特征冗余癌蓖。引用一個(gè)比較經(jīng)典的例子,比如租副,雖然你喜歡BradPitt和TomCruise的電影坐慰,但是它不能學(xué)習(xí)出你不喜歡他們?cè)谝黄鹧莸碾娪啊?/p>
優(yōu)點(diǎn):
樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)用僧,以及穩(wěn)定的分類效率讨越;
對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)很好,能個(gè)處理多分類任務(wù)永毅,適合增量式訓(xùn)練把跨;
對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單沼死,常用于文本分類着逐。
缺點(diǎn):
需要計(jì)算先驗(yàn)概率;
分類決策存在錯(cuò)誤率意蛀;
對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感耸别。
其主要過(guò)程為:
計(jì)算訓(xùn)練樣本和測(cè)試樣本中每個(gè)樣本點(diǎn)的距離(常見(jiàn)的距離度量有歐式距離,馬氏距離等)县钥;
對(duì)上面所有的距離值進(jìn)行排序秀姐;
選前kk個(gè)最小距離的樣本;
根據(jù)這kk個(gè)樣本的標(biāo)簽進(jìn)行投票若贮,得到最后的分類類別省有;
如何選擇一個(gè)最佳的kk值,這取決于數(shù)據(jù)谴麦。一般情況下蠢沿,在分類時(shí)較大的kk值能夠減小噪聲的影響。但會(huì)使類別之間的界限變得模糊匾效。一個(gè)較好的kk值可通過(guò)各種啟發(fā)式技術(shù)來(lái)獲取舷蟀,比如,交叉驗(yàn)證面哼。另外噪聲和非相關(guān)性特征向量的存在會(huì)使kk近鄰算法的準(zhǔn)確性減小野宜。
近鄰算法具有較強(qiáng)的一致性結(jié)果。隨著數(shù)據(jù)趨于無(wú)限魔策,算法保證錯(cuò)誤率不會(huì)超過(guò)貝葉斯算法錯(cuò)誤率的兩倍匈子。對(duì)于一些好的kk值,kk近鄰保證錯(cuò)誤率不會(huì)超過(guò)貝葉斯理論誤差率代乃。
優(yōu)點(diǎn):
理論成熟旬牲,思想簡(jiǎn)單仿粹,既可以用來(lái)做分類也可以用來(lái)做回歸搁吓;
可用于非線性分類原茅;
訓(xùn)練時(shí)間復(fù)雜度為O(n)O(n);
對(duì)數(shù)據(jù)沒(méi)有假設(shè)堕仔,準(zhǔn)確度高擂橘,對(duì)outlier不敏感;
缺點(diǎn):
計(jì)算量大摩骨;
樣本不平衡問(wèn)題(即有些類別的樣本數(shù)量很多通贞,而其它樣本的數(shù)量很少)恼五;
需要大量的內(nèi)存灾馒。
易于解釋。它可以毫無(wú)壓力地處理特征間的交互關(guān)系并且是非參數(shù)化的轨功,因此你不必?fù)?dān)心異常值或者數(shù)據(jù)是否線性可分(舉個(gè)例子容达,決策樹(shù)能輕松處理好類別A在某個(gè)特征維度x的末端花盐,類別B在中間,然后類別A又出現(xiàn)在特征維度x前端的情況)啄栓。它的缺點(diǎn)之一就是不支持在線學(xué)習(xí)也祠,于是在新樣本到來(lái)后诈嘿,決策樹(shù)需要全部重建。另一個(gè)缺點(diǎn)就是容易出現(xiàn)過(guò)擬合淳梦,但這也就是諸如隨機(jī)森林RF(或提升樹(shù)Boosted Tree)之類的集成方法的切入點(diǎn)爆袍。另外,隨機(jī)森林經(jīng)常是很多分類問(wèn)題的贏家(通常比支持向量機(jī)好上那么一丁點(diǎn))陨囊,它訓(xùn)練快速并且可調(diào),同時(shí)你無(wú)須擔(dān)心要像支持向量機(jī)那樣調(diào)一大堆參數(shù)胁塞,所以在以前都一直很受歡迎啸罢。
決策樹(shù)中很重要的一點(diǎn)就是選擇一個(gè)屬性進(jìn)行分枝胎食,因此要注意一下信息增益的計(jì)算公式厕怜,并深入理解它。
優(yōu)點(diǎn):
計(jì)算簡(jiǎn)單舵揭,易于理解躁锡,可解釋性強(qiáng)映之;
比較適合處理有缺失屬性的樣本;
能夠處理不相關(guān)的特征赎败;
在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果蠢甲。
缺點(diǎn):
容易發(fā)生過(guò)擬合(隨機(jī)森林可以很大程度上減少過(guò)擬合)鹦牛;
忽略了數(shù)據(jù)之間的相關(guān)性;
對(duì)于那些各類別樣本數(shù)量不一致的數(shù)據(jù)窍仰,在決策樹(shù)當(dāng)中,信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征(只要是使用了信息增益驹吮,都有這個(gè)缺點(diǎn),如RF)碟狞。