機(jī)器學(xué)習(xí)算法的優(yōu)缺點(diǎn)

機(jī)器學(xué)習(xí)算法的優(yōu)缺點(diǎn)

機(jī)器學(xué)習(xí)算法的優(yōu)缺點(diǎn)

線性回歸 Linear Regression

邏輯回歸 Logistic Regression

樸素貝葉斯 Naive Bayes

最近領(lǐng)算法 KNN

決策樹(shù) Decision Tree

1. 線性回歸 Linear Regression

線性回歸是用于回歸的,而不像Logistic回歸是用于分類祝峻,其基本思想是用梯度下降法對(duì)最小二乘法形式的誤差函數(shù)進(jìn)行優(yōu)化魔吐,當(dāng)然也可以用Normal Equation直接求得參數(shù)的解,結(jié)果為1:?

ω^=(XTX)?1XTyω^=(XTX)?1XTy

而在LWLR(局部加權(quán)線性回歸)中莱找,參數(shù)的計(jì)算表達(dá)式為:?

ω^=(XTWX)?1XTWyω^=(XTWX)?1XTWy

由此可見(jiàn)LWLR與LR不同酬姆,LWLR是一個(gè)非參數(shù)模型,因?yàn)槊看芜M(jìn)行回歸計(jì)算都要遍歷訓(xùn)練樣本至少一次奥溺。

優(yōu)點(diǎn):

實(shí)現(xiàn)簡(jiǎn)單辞色,計(jì)算簡(jiǎn)單;

缺點(diǎn):

不能擬合非線性數(shù)據(jù)谚赎。

2. 邏輯回歸 Logistic Regression

線性回歸假設(shè)特征和結(jié)果滿足線性關(guān)系淫僻。其實(shí)線性關(guān)系的表達(dá)能力非常強(qiáng)大诱篷,每個(gè)特征對(duì)結(jié)果的影響強(qiáng)弱可以由前面的參數(shù)體現(xiàn)壶唤,而且每個(gè)特征變量可以首先映射到一個(gè)函數(shù),然后再參與線性計(jì)算棕所。這樣就可以表達(dá)特征與結(jié)果之間的非線性關(guān)系闸盔。

Logistic回歸本質(zhì)上是線性回歸,只是在特征到結(jié)果的映射中加入了一層函數(shù)映射琳省,即先把特征線性求和迎吵,然后使用函數(shù)g(z)g(z)將最為假設(shè)函數(shù)來(lái)預(yù)測(cè)躲撰。g(z)g(z)可以將連續(xù)值映射到0和1上。

其損失函數(shù)的目的是增加對(duì)分類影響較大的數(shù)據(jù)點(diǎn)的權(quán)重击费,減少與分類關(guān)系較小的數(shù)據(jù)點(diǎn)的權(quán)重2拢蛋。

優(yōu)點(diǎn):

預(yù)測(cè)結(jié)果是界于0和1之間的概率;

可以適用于連續(xù)性和類別性自變量蔫巩;

容易使用和解釋谆棱;

缺點(diǎn):

當(dāng)特征空間很大時(shí),邏輯回歸的性能不是很好圆仔;

容易欠擬合垃瞧,一般準(zhǔn)確度不太高;

不能很好地處理大量多類特征或變量坪郭;

只能處理兩分類問(wèn)題(在此基礎(chǔ)上衍生出來(lái)的Softmax可以用于多分類)个从,且必須線性可分;

預(yù)測(cè)結(jié)果呈“S”型歪沃,因此從log(odds)log(odds)向概率轉(zhuǎn)化的過(guò)程是非線性的嗦锐,在兩端隨著log(odds)log(odds)值的變化,概率變化很小沪曙,邊際值太小意推,slopeslope太小,而中間概率的變化很大珊蟀,很敏感菊值。 導(dǎo)致很多區(qū)間的變量變化對(duì)目標(biāo)概率的影響沒(méi)有區(qū)分度,無(wú)法確定閥值育灸;

對(duì)于非線性特征腻窒,需要進(jìn)行轉(zhuǎn)換;

3. 樸素貝葉斯 Naive Bayes

樸素貝葉斯屬于生成式模型(關(guān)于生成模型和判別式模型磅崭,主要還是在于是否是要求聯(lián)合分布)儿子,非常簡(jiǎn)單,你只是做了一堆計(jì)數(shù)砸喻。如果注有條件獨(dú)立性假設(shè)(一個(gè)比較嚴(yán)格的條件)柔逼,樸素貝葉斯分類器的收斂速度將快于判別模型,如邏輯回歸割岛,所以你只需要較少的訓(xùn)練數(shù)據(jù)即可愉适。即使NB條件獨(dú)立假設(shè)不成立,NB分類器在實(shí)踐中仍然表現(xiàn)的很出色癣漆。它的主要缺點(diǎn)是它不能學(xué)習(xí)特征間的相互作用维咸,用mRMR中R來(lái)講,就是特征冗余癌蓖。引用一個(gè)比較經(jīng)典的例子,比如租副,雖然你喜歡BradPitt和TomCruise的電影坐慰,但是它不能學(xué)習(xí)出你不喜歡他們?cè)谝黄鹧莸碾娪啊?/p>

優(yōu)點(diǎn):

樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)用僧,以及穩(wěn)定的分類效率讨越;

對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)很好,能個(gè)處理多分類任務(wù)永毅,適合增量式訓(xùn)練把跨;

對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單沼死,常用于文本分類着逐。

缺點(diǎn):

需要計(jì)算先驗(yàn)概率;

分類決策存在錯(cuò)誤率意蛀;

對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感耸别。

4. 最近領(lǐng)算法 KNN

其主要過(guò)程為:

計(jì)算訓(xùn)練樣本和測(cè)試樣本中每個(gè)樣本點(diǎn)的距離(常見(jiàn)的距離度量有歐式距離,馬氏距離等)县钥;

對(duì)上面所有的距離值進(jìn)行排序秀姐;

選前kk個(gè)最小距離的樣本;

根據(jù)這kk個(gè)樣本的標(biāo)簽進(jìn)行投票若贮,得到最后的分類類別省有;

如何選擇一個(gè)最佳的kk值,這取決于數(shù)據(jù)谴麦。一般情況下蠢沿,在分類時(shí)較大的kk值能夠減小噪聲的影響。但會(huì)使類別之間的界限變得模糊匾效。一個(gè)較好的kk值可通過(guò)各種啟發(fā)式技術(shù)來(lái)獲取舷蟀,比如,交叉驗(yàn)證面哼。另外噪聲和非相關(guān)性特征向量的存在會(huì)使kk近鄰算法的準(zhǔn)確性減小野宜。

近鄰算法具有較強(qiáng)的一致性結(jié)果。隨著數(shù)據(jù)趨于無(wú)限魔策,算法保證錯(cuò)誤率不會(huì)超過(guò)貝葉斯算法錯(cuò)誤率的兩倍匈子。對(duì)于一些好的kk值,kk近鄰保證錯(cuò)誤率不會(huì)超過(guò)貝葉斯理論誤差率代乃。

優(yōu)點(diǎn):

理論成熟旬牲,思想簡(jiǎn)單仿粹,既可以用來(lái)做分類也可以用來(lái)做回歸搁吓;

可用于非線性分類原茅;

訓(xùn)練時(shí)間復(fù)雜度為O(n)O(n);

對(duì)數(shù)據(jù)沒(méi)有假設(shè)堕仔,準(zhǔn)確度高擂橘,對(duì)outlier不敏感;

缺點(diǎn):

計(jì)算量大摩骨;

樣本不平衡問(wèn)題(即有些類別的樣本數(shù)量很多通贞,而其它樣本的數(shù)量很少)恼五;

需要大量的內(nèi)存灾馒。

5. 決策樹(shù) Decision Tree

易于解釋。它可以毫無(wú)壓力地處理特征間的交互關(guān)系并且是非參數(shù)化的轨功,因此你不必?fù)?dān)心異常值或者數(shù)據(jù)是否線性可分(舉個(gè)例子容达,決策樹(shù)能輕松處理好類別A在某個(gè)特征維度x的末端花盐,類別B在中間,然后類別A又出現(xiàn)在特征維度x前端的情況)啄栓。它的缺點(diǎn)之一就是不支持在線學(xué)習(xí)也祠,于是在新樣本到來(lái)后诈嘿,決策樹(shù)需要全部重建。另一個(gè)缺點(diǎn)就是容易出現(xiàn)過(guò)擬合淳梦,但這也就是諸如隨機(jī)森林RF(或提升樹(shù)Boosted Tree)之類的集成方法的切入點(diǎn)爆袍。另外,隨機(jī)森林經(jīng)常是很多分類問(wèn)題的贏家(通常比支持向量機(jī)好上那么一丁點(diǎn))陨囊,它訓(xùn)練快速并且可調(diào),同時(shí)你無(wú)須擔(dān)心要像支持向量機(jī)那樣調(diào)一大堆參數(shù)胁塞,所以在以前都一直很受歡迎啸罢。

決策樹(shù)中很重要的一點(diǎn)就是選擇一個(gè)屬性進(jìn)行分枝胎食,因此要注意一下信息增益的計(jì)算公式厕怜,并深入理解它。

優(yōu)點(diǎn):

計(jì)算簡(jiǎn)單舵揭,易于理解躁锡,可解釋性強(qiáng)映之;

比較適合處理有缺失屬性的樣本;

能夠處理不相關(guān)的特征赎败;

在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果蠢甲。

缺點(diǎn):

容易發(fā)生過(guò)擬合(隨機(jī)森林可以很大程度上減少過(guò)擬合)鹦牛;

忽略了數(shù)據(jù)之間的相關(guān)性;

對(duì)于那些各類別樣本數(shù)量不一致的數(shù)據(jù)窍仰,在決策樹(shù)當(dāng)中,信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征(只要是使用了信息增益驹吮,都有這個(gè)缺點(diǎn),如RF)碟狞。

需要了解人工智能的,需要人工智能資料的可以加我 ? ?QQ:2218111634

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末射亏,一起剝皮案震驚了整個(gè)濱河市竭业,隨后出現(xiàn)的幾起案子未辆,更是在濱河造成了極大的恐慌,老刑警劉巖咐柜,帶你破解...
    沈念sama閱讀 222,104評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拙友,死亡現(xiàn)場(chǎng)離奇詭異歼郭,居然都是意外死亡病曾,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門鲫竞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)从绘,“玉大人是牢,你說(shuō)我怎么就攤上這事【匝兀” “怎么了渊季?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,697評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)却汉。 經(jīng)常有香客問(wèn)我合砂,道長(zhǎng),這世上最難降的妖魔是什么微猖? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,836評(píng)論 1 298
  • 正文 為了忘掉前任凛剥,我火速辦了婚禮轻姿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘犁享。我一直安慰自己豹休,他們只是感情好涝缝,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布医窿。 她就那樣靜靜地躺著,像睡著了一般卷要。 火紅的嫁衣襯著肌膚如雪独榴。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,441評(píng)論 1 310
  • 那天瓶堕,我揣著相機(jī)與錄音郎笆,去河邊找鬼谭梗。 笑死激捏,一個(gè)胖子當(dāng)著我的面吹牛远舅,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播图柏,決...
    沈念sama閱讀 40,992評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼爆办,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼课梳!你這毒婦竟也來(lái)了余佃?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,899評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎步势,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體盅抚,經(jīng)...
    沈念sama閱讀 46,457評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡妄均,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評(píng)論 3 341
  • 正文 我和宋清朗相戀三年丰包,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了壤巷。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片胧华。...
    茶點(diǎn)故事閱讀 40,664評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖瘸爽,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情灵汪,我是刑警寧澤享言,帶...
    沈念sama閱讀 36,346評(píng)論 5 350
  • 正文 年R本政府宣布览露,位于F島的核電站譬胎,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏偏化。R本人自食惡果不足惜镐侯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評(píng)論 3 334
  • 文/蒙蒙 一苟翻、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧沈条,春花似錦、人聲如沸邓尤。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,511評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)景鼠。三九已至铛漓,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間浓恶,已是汗流浹背包晰。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,611評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工伐憾, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蒸矛。 一個(gè)月前我還...
    沈念sama閱讀 49,081評(píng)論 3 377
  • 正文 我出身青樓胸嘴,卻偏偏與公主長(zhǎng)得像雏掠,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子筛谚,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容