記錄一波監(jiān)督學(xué)習(xí)算法的應(yīng)用場景和優(yōu)缺點(diǎn)。
-
高斯樸素貝葉斯
- 場景:該模型常用于性別分類,即通過一些測量的特征郑口,包括身高遥椿、體重、腳的尺寸知牌,判定一個(gè)人是男性還是女性。
- 優(yōu)點(diǎn):這個(gè)模型的優(yōu)勢是處理連續(xù)數(shù)據(jù),特別當(dāng)數(shù)據(jù)是高斯分布時(shí)凡傅,有一個(gè)很好的表現(xiàn)。處理連續(xù)數(shù)據(jù)數(shù)值問題的另一種常用技術(shù)是通過離散化連續(xù)數(shù)值的方法肠缔。通常夏跷,當(dāng)訓(xùn)練樣本數(shù)量較少或者是精確的分布已知時(shí),通過概率分布的方法是一種更好的選擇明未。在大量樣本的情形下離散化的方法表現(xiàn)最優(yōu)槽华,因?yàn)榇罅康臉颖究梢詫W(xué)習(xí)到數(shù)據(jù)的分布。
- 缺點(diǎn):由于高斯樸素貝葉斯使用的是概率分布估計(jì)的方法趟妥,不合適在大數(shù)據(jù)集上應(yīng)用猫态,因?yàn)槿菀壮霈F(xiàn)欠擬合,在數(shù)據(jù)分布不準(zhǔn)確時(shí)或數(shù)據(jù)樣本很大時(shí)披摄,表現(xiàn)很差亲雪。
-
決策樹
- 場景:百度到一個(gè)相親用決策樹的應(yīng)用,每個(gè)節(jié)點(diǎn)是一個(gè)評判標(biāo)準(zhǔn)疚膊,最后決定是否要嫁/娶义辕。
- 優(yōu)點(diǎn):決策過程接近人的思維習(xí)慣,模型容易理解寓盗。
- **缺點(diǎn):決策樹學(xué)習(xí)方法的準(zhǔn)確率不如其他模型灌砖,不支持在線學(xué)習(xí)璧函,有新樣本來的時(shí)候需要重建決策樹,容易產(chǎn)生過擬合現(xiàn)象基显。(http://m.blog.csdn.net/article/details?id=47616255) **
-
KNN
- 場景:KNN的應(yīng)用有分類未知案例的項(xiàng)目(摘自百度百科)蘸吓。
- 優(yōu)點(diǎn):無需估計(jì)參數(shù),簡單续镇,易于理解美澳。特別適合于多分類問題(multi-modal,對象具有多個(gè)類別標(biāo)簽), KNN比SVM的表現(xiàn)要好(svm更適合二分類)摸航。
- 缺點(diǎn):當(dāng)有偏斜類的情況下制跟,由于算法只計(jì)算最近的k個(gè)樣本,假設(shè)小樣本總數(shù)小于k/2酱虎,即使都很近雨膨,也會(huì)分錯(cuò)。該方法的另一個(gè)不足之處是計(jì)算量較大读串,因?yàn)閷γ恳粋€(gè)待分類的文本都要計(jì)算它到全體已知樣本的距離聊记,才能求得它的K個(gè)最近鄰點(diǎn)。
-
集成學(xué)習(xí)之AdaBoost
- 場景:人臉檢測恢暖,AdaBoost以弱學(xué)習(xí)器作為基分類器排监,并且輸入數(shù)據(jù),使其通過權(quán)重向量進(jìn)行加權(quán)杰捂,第一次迭代時(shí)所有數(shù)據(jù)等權(quán)重舆床,在后續(xù)迭代中,前次迭代分錯(cuò)的數(shù)據(jù)權(quán)重會(huì)增大嫁佳。
- 優(yōu)點(diǎn):它有錯(cuò)誤調(diào)節(jié)能力挨队,分類精度高;在Adaboost的框架下可以使用各種回歸分類模型來構(gòu)建弱學(xué)習(xí)器蒿往,非常靈活盛垦;作為簡單的二元分類器時(shí),構(gòu)造簡單瓤漏,結(jié)果可理解腾夯;不容易發(fā)生過擬合。
- 缺點(diǎn):對異常樣本敏感蔬充,異常樣本在迭代中可能會(huì)獲得較高的權(quán)重俯在,影響最終的強(qiáng)學(xué)習(xí)器的預(yù)測準(zhǔn)確性。
-
SVM
- 場景:進(jìn)行文本的分類
- 優(yōu)點(diǎn):在解決小樣本娃惯、非線性以及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢,對于非線性的分類問題肥败,可以通過核函數(shù)把原來低維的空間中線性不可分的問題映射到高維趾浅,變成線性可分的問題進(jìn)而得以解決愕提。同樣,也可以采用SMO的方式皿哨,將分解的思維推向極致浅侨,用SVM來處理多分類的問題。
- 缺點(diǎn):在處理數(shù)據(jù)上面的時(shí)間較慢证膨,復(fù)雜度較高如输,在處理多分類的問題上面存在著不足,還需要在二分類的基礎(chǔ)上自己構(gòu)造多分類相關(guān)的算法央勒,代價(jià)比較大不见。
-
隨機(jī)梯度下降分類器 (SGDC)
- 場景:圖片分類。
- 優(yōu)點(diǎn):普通的梯度下降算法在更新回歸系數(shù)時(shí)要遍歷整個(gè)數(shù)據(jù)集崔步,是一種批處理方法稳吮,這樣訓(xùn)練數(shù)據(jù)特別忙龐大時(shí),可能出現(xiàn)收斂過程可能非常慢井濒、不能保證找到全局最小值這樣的問題灶似。而隨機(jī)梯度下降分類器能夠更好地處理上述問題,更能避免進(jìn)入局部極小值中瑞你。SGDC處理大規(guī)模問題表現(xiàn)比較好酪惭。
- 缺點(diǎn):不太適合用于高精度問題,當(dāng)處理高精度問題時(shí)它的表現(xiàn)很差者甲。
-
Logistic回歸
- 場景:主要用于危險(xiǎn)因素探索(摘自百度百科)
- 優(yōu)點(diǎn):分類時(shí)計(jì)算量非常小春感,速度很快,易于理解和實(shí)現(xiàn)过牙。他是一個(gè)單調(diào)上升的函數(shù)甥厦,具有良好的連續(xù)性,不存在不連續(xù)點(diǎn)
- 缺點(diǎn):當(dāng)特征空間很大時(shí)寇钉,邏輯回歸的性能不是很好刀疙;容易欠擬合,一般準(zhǔn)確度不太高扫倡;不能很好地處理大量多類特征或變量谦秧;對于非線性特征,需要進(jìn)行轉(zhuǎn)換撵溃;只能處理兩分類問題(在此基礎(chǔ)上衍生出來的softmax可以用于多分類)疚鲤,且必須線性可分;
以上內(nèi)容來自822實(shí)驗(yàn)室2017年5月21日19:30第四次知識(shí)分享活動(dòng):捐贈(zèng)者尋找
我們的822缘挑,我們的青春
歡迎所有熱愛知識(shí)熱愛生活的朋友和822實(shí)驗(yàn)室一起成長集歇,吃喝玩樂,享受知識(shí)语淘。