常見的分類聚類模型及模型評價

只是為了幫助自己理解經(jīng)典算法轴猎，

常見的分類算法模型

KNN

找出距離目標點最近的幾個樣本點钉迷，用樣本點的標注投票，視作目標點的標注。
距離：
- 歐氏距離 p=2
  - (|x1 - x2|^2 + |y1 - y2|^2) ^(1/2)
  - 平方和再開根號
- 曼哈頓距離 p=1
  - 各個特征的絕對差的和
- 閔可夫斯基距離
  - 各個特征的絕對差的N次方求和再開N次根
KNeighborsClassifier() 常用參數(shù)
- n_neighbors 選擇幾個樣本點
- p 幾階距離

樸素貝葉斯

樸素：即認為特征之間是相互獨立的
基于聯(lián)合概率分布
- AB同時發(fā)生：P(A)* P(B|A) = P(B)*P(A|B)
- P(B|A) = P(B)*P(A|B)/P(A)
高斯貝葉斯 GaussianNB
- 特征是高斯分布 (正態(tài)分布)
伯努利貝葉斯 BernoulliNB
- 特征是伯努利分布 (0-1分布)

決策樹

在每次決策時，都優(yōu)先找出最能區(qū)分這些樣本點的要素熬词，用這個要素進行樣本的區(qū)分，并重復此步驟，直到所有點都決策完成笤妙，或者在決策最大深度，進行樣本點投票噪裕，多數(shù)點的標注即為此樣本類別的標注蹲盘。
怎么找：
- Gini系數(shù)
- 信息熵增益
- 信息熵增益率
DecisionTreeClassifier 常用參數(shù)
- criterion 怎么找：Gini/entropy
- max_depth 最大深度
- min_samples_split 最小樣本拆分
- min_samples_leaf 最小葉節(jié)點樣本數(shù)

支持向量機

試圖用一條線將樣本點分為兩類，如果不能分膳音，可以通過核函數(shù)向高維空間映射召衔，或者找到最優(yōu)的解，求錯誤歸類的程度最小祭陷。
SVC 參數(shù)
- C 錯誤歸類點的懲罰值用來調(diào)整精度
- kernel 核函數(shù)
- max_iter 最大迭代次數(shù)
- tol 運算終止的閾值
- decision_function_shape 分類比較方法
  - ovo one vs one
  - ovr one vs rest

集成方法

隨機森林
- 用多棵樹進行并聯(lián)的決策模型苍凛，每棵樹選取若干特征，然后均值投票兵志。
- 默認 10*squart(n)模型即 10棵樹每一棵根號n個特征醇蝴，然后投票。
- 參數(shù)
  - n_estimators 決策樹個數(shù)
  - criterion 分叉判別方式
  - max_feature 每棵樹最大特征(12個/ 80% /函數(shù)個/全部)
  - max_depth min_samples_split
  - min_samples_leaf 葉節(jié)點的最小樣本數(shù)想罕，
  - bootstrap=True 放回采樣 oob_score 在放回采樣中用未采樣點進行決策樹評估
Adaboost
- 用多個若分類器的串聯(lián)進行模擬悠栓，這一次模擬中分類錯的點在下一次模擬中會增加權(quán)重，滿足閾值要求后按价，將各個模擬器進行分權(quán)投票惭适，得到最終的模型結(jié)果。
- 參數(shù)
  - base_estimator 規(guī)則默認決策樹
  - n_estimators 分類器個數(shù)
  - learning_rate (0-1) 分類器權(quán)值的衰減
  - algorithm
    - SAMME.R：用對樣本集分類的預測概率大小作為弱學習器權(quán)重 (默認)
    - SAMME：用對樣本集分類效果作為弱學習器權(quán)重

邏輯回歸

廣義的線性回歸在線性可分時表現(xiàn)較好
LogisticRegression 參數(shù)
- penalty "l1" 一范式均值或者 "L2"二范式均方差正則化
- tol 算法停止的閾值
- C c越大正則化就越弱
- solver
  - 小數(shù)據(jù)集 libliner
  - sag 隨機梯度下降
- max_iter 最大迭代次數(shù)

梯度提升樹

對連續(xù)數(shù)值的決策分類楼镐，依據(jù)不再是Gini系數(shù)癞志，而是“方差最小化”
用一階差分值作為下一棵樹的分類樣本

常見的聚類算法

Kmeans

基于切割的聚類
算法
- 1.隨機選擇 n 個樣本點作為聚類中心，求各個點到這些聚類中心的距離鸠蚪，按照距離遠近分類今阳。
- 2.此時將樣本分成n類，求這n個聚類的聚類中心茅信，然后按照這三個聚類中心再一次將樣本點分成n類盾舌，會得到新的n個聚類和聚類中心，循環(huán)往復蘸鲸，直到某兩次聚類的聚類中心變化不大妖谴。認為聚類完成。
受異常點的影響較為明顯。

DBSCAN

基于密度的聚類
- 1.指定的E鄰域內(nèi)膝舅，樣本點書大于等于閾值的點稱為核心對象嗡载，這些E鄰域內(nèi)的點與核心對象直接密度可達。
- 2.核心點- 核心點 - 核心點 - 點仍稀，樣本點與核心點密度可達洼滚。
- 3.點- 核心點- 核心點 - 點點與點之間密度相連
所有密度相連的點歸為一類。
離群點不明顯
參數(shù)
- min_samples 最小點數(shù)
- eps E鄰域范圍

層次聚類

1.先把距離很近的點歸為一類
2.再向上靠攏技潘，把新生成的樣本類視作分類對象遥巴，逐層減少分類的個數(shù)。
簇間距離的算法：
- 最短聚類
- 最長距離
- 平均距離
- Ward 平方殘差和享幽，在簇合并前后铲掐，平方殘差和增加的越小，證明簇與簇之間越應該合并值桩。
- 聚類靈活但是容易受離群點影響摆霉。

模型評價

模型泛化結(jié)果

混淆矩陣
- 繪制預測結(jié)果與實際分類的矩陣
- 混淆矩陣.png
- TP 正確地識別為正圖中共104個樣本
- TN 正確地識別為負圖中共881個樣本
- FP 錯誤地識別為正（樣本點實際屬于負類）圖中共12個樣本
- FN 錯誤地識別為負圖中共3個樣本
指標
- 正確率 Accuracy
  - 所有識別正確的比例
- 召回率 Recall
  - 所有實際為正類的樣本中，識別為正類的比例奔坟。
- 精準率 Precision 也叫TPR
  - 所有識別為正類的樣本中携栋，識別正確的比例。
- 錯誤接收率 FPR
  - 所有識別為負類的樣本中咳秉，識別錯誤的比例刻两。
- F分數(shù)
  - F分數(shù).png
  - β=1 時即F1分數(shù)，precision 和 Recall 同樣重要滴某，無論哪個數(shù)值很小都會使得F1分數(shù)變小。F分數(shù)評價避免了樣本不均滋迈，即樣本中正類負類比例相差很大時霎奢，準確率高，但模型泛化能力依然較差的情況饼灿。
ROC曲線受試者工作模式曲線幕侠。
- 橫軸為TPR，縱軸為FPR碍彭。
- 曲線越接近左上角晤硕，曲線下方的面積 AUC 越大，模型的泛化能力越好庇忌。
- 虛線為完全隨機的二分類預測舞箍，虛線附近、虛線右下側(cè)對應的模型沒有實際應用意義皆疹。
- ROC曲線.png

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末疏橄，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌捎迫，老刑警劉巖晃酒，帶你破解...
沈念sama閱讀 223,126評論 6贊 520
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異窄绒，居然都是意外死亡贝次，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,421評論 3贊 400
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門彰导，熙熙樓的掌柜王于貴愁眉苦臉地迎上來蛔翅，“玉大人，你說我怎么就攤上這事螺戳「楸觯” “怎么了？”我有些...
開封第一講書人閱讀 169,941評論 0贊 366
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵倔幼，是天一觀的道長盖腿。經(jīng)常有香客問我，道長损同，這世上最難降的妖魔是什么翩腐？我笑而不...
開封第一講書人閱讀 60,294評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮膏燃，結(jié)果婚禮上茂卦，老公的妹妹穿的比我還像新娘。我一直安慰自己组哩，他們只是感情好等龙，可當我...
茶點故事閱讀 69,295評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著伶贰，像睡著了一般蛛砰。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上黍衙，一...
開封第一講書人閱讀 52,874評論 1贊 314
城市分裂傳說
那天泥畅，我揣著相機與錄音，去河邊找鬼琅翻。笑死位仁，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的方椎。我是一名探鬼主播聂抢，決...
沈念sama閱讀 41,285評論 3贊 424
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼辩尊！你這毒婦竟也來了涛浙？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 40,249評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎轿亮，沒想到半個月后疮薇，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,760評論 1贊 321
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡我注，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,840評論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年按咒，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片但骨。...
茶點故事閱讀 40,973評論 1贊 354
活死人
序言：一個原本活蹦亂跳的男人離奇死亡励七，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出奔缠，到底是詐尸還是另有隱情掠抬，我是刑警寧澤，帶...
沈念sama閱讀 36,631評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布校哎，位于F島的核電站两波，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏闷哆。R本人自食惡果不足惜腰奋，卻給世界環(huán)境...
茶點故事閱讀 42,315評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望抱怔。院中可真熱鬧劣坊，春花似錦、人聲如沸屈留。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,797評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽灌危。三九已至锐想，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間乍狐，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,926評論 1贊 275
情欲美人皮
我被黑心中介騙來泰國打工固逗，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留浅蚪，地道東北人。一個月前我還...
沈念sama閱讀 49,431評論 3贊 379
代替公主和親
正文我出身青樓烫罩，卻偏偏與公主長得像惜傲，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子贝攒，可洞房花燭夜當晚...
茶點故事閱讀 45,982評論 2贊 361

常見的分類 聚類模型及模型評價

常見的分類算法模型

KNN

樸素貝葉斯

決策樹

支持向量機

集成方法

邏輯回歸

梯度提升樹

常見的聚類算法

Kmeans

DBSCAN

層次聚類

模型評價

模型泛化結(jié)果

推薦閱讀更多精彩內(nèi)容

常見的分類聚類模型及模型評價