常見的分類 聚類模型及模型評價

只是為了幫助自己理解經(jīng)典算法轴猎,

常見的分類算法模型

KNN
  • 找出距離目標點最近的幾個樣本點钉迷,用樣本點的標注投票,視作目標點的標注。
  • 距離:
    • 歐氏距離 p=2
      - (|x1 - x2|^2 + |y1 - y2|^2) ^(1/2)
      - 平方和 再 開根號
    • 曼哈頓距離 p=1
      - 各個特征的絕對差的和
    • 閔可夫斯基距離
      - 各個特征的絕對差的N次方 求和 再開N次根
  • KNeighborsClassifier() 常用參數(shù)
    • n_neighbors 選擇幾個樣本點
    • p 幾階距離
樸素貝葉斯
  • 樸素:即認為特征之間是相互獨立的
  • 基于聯(lián)合概率分布
    • AB同時發(fā)生:P(A)* P(B|A) = P(B)*P(A|B)
    • P(B|A) = P(B)*P(A|B)/P(A)
  • 高斯貝葉斯 GaussianNB
    • 特征是高斯分布 (正態(tài)分布)
  • 伯努利貝葉斯 BernoulliNB
    • 特征是伯努利分布 (0-1分布)
決策樹
  • 在每次決策時,都優(yōu)先找出最能區(qū)分這些樣本點的要素熬词,用這個要素進行樣本的區(qū)分,并重復此步驟,直到所有點都決策完成笤妙,或者在決策最大深度,進行樣本點投票噪裕,多數(shù)點的標注即為此樣本類別的標注蹲盘。
  • 怎么找:
    • Gini系數(shù)
    • 信息熵增益
    • 信息熵增益率
  • DecisionTreeClassifier 常用參數(shù)
    • criterion 怎么找:Gini/entropy
    • max_depth 最大深度
    • min_samples_split 最小樣本拆分
    • min_samples_leaf 最小葉節(jié)點樣本數(shù)
支持向量機
  • 試圖用一條線將樣本點分為兩類, 如果不能分膳音,可以通過核函數(shù)向高維空間映射召衔,或者找到最優(yōu)的解,求錯誤歸類的程度最小祭陷。
  • SVC 參數(shù)
    • C 錯誤歸類點的懲罰值 用來調(diào)整精度
    • kernel 核函數(shù)
    • max_iter 最大迭代次數(shù)
    • tol 運算終止的閾值
    • decision_function_shape 分類比較方法
      • ovo one vs one
      • ovr one vs rest
集成方法
  • 隨機森林
    • 用多棵樹進行并聯(lián)的決策模型苍凛,每棵樹選取若干特征, 然后均值投票兵志。
    • 默認 10*squart(n)模型 即 10棵樹每一棵根號n個特征醇蝴,然后投票。
    • 參數(shù)
      • n_estimators 決策樹個數(shù)
      • criterion 分叉判別方式
      • max_feature 每棵樹最大特征(12個/ 80% /函數(shù)個/全部)
      • max_depth min_samples_split
      • min_samples_leaf 葉節(jié)點的最小樣本數(shù)想罕,
      • bootstrap=True 放回采樣 oob_score 在放回采樣中 用未采樣點進行決策樹評估
  • Adaboost
    • 用多個若分類器的串聯(lián)進行模擬悠栓,這一次模擬中分類錯的點在下一次模擬中會增加權(quán)重,滿足閾值要求后按价,將各個模擬器進行分權(quán)投票惭适,得到最終的模型結(jié)果。
    • 參數(shù)
      • base_estimator 規(guī)則 默認決策樹
      • n_estimators 分類器個數(shù)
      • learning_rate (0-1) 分類器權(quán)值的衰減
      • algorithm
        • SAMME.R:用對樣本集分類的預測概率大小作為弱學習器權(quán)重 (默認)
        • SAMME:用對樣本集分類效果作為弱學習器權(quán)重
邏輯回歸
  • 廣義的線性回歸 在線性可分時 表現(xiàn)較好
  • LogisticRegression 參數(shù)
    • penalty "l1" 一范式均值 或者 "L2"二范式 均方差 正則化
    • tol 算法停止的閾值
    • C c越大 正則化就越弱
    • solver
      • 小數(shù)據(jù)集 libliner
      • sag 隨機梯度下降
    • max_iter 最大迭代次數(shù)
梯度提升樹
  • 對連續(xù)數(shù)值的決策分類楼镐,依據(jù)不再是Gini系數(shù)癞志,而是“方差最小化”
  • 用一階差分值作為下一棵樹的分類樣本

常見的聚類算法

Kmeans
  • 基于切割的聚類

  • 算法

    • 1.隨機選擇 n 個樣本點作為聚類中心,求各個點到這些聚類中心的距離鸠蚪,按照距離遠近分類今阳。
    • 2.此時將樣本分成n類,求這n個聚類的聚類中心茅信,然后按照這三個聚類中心再一次將樣本點分成n類盾舌,會得到新的n個聚類和聚類中心,循環(huán)往復蘸鲸,直到某兩次聚類的聚類中心變化不大妖谴。認為聚類完成。
  • 受異常點的影響較為明顯。

DBSCAN
  • 基于密度的聚類
    • 1.指定的E鄰域內(nèi)膝舅,樣本點書大于等于閾值的點 稱為核心對象嗡载,這些E鄰域內(nèi)的點與核心對象直接密度可達。
    • 2.核心點- 核心點 - 核心點 - 點 仍稀,樣本點與核心點 密度可達洼滚。
    • 3.點- 核心點- 核心點 - 點 點與點之間密度相連
  • 所有密度相連的點歸為一類。
  • 離群點不明顯
  • 參數(shù)
    • min_samples 最小點數(shù)
    • eps E鄰域范圍
層次聚類
  • 1.先把距離很近的點歸為一類
  • 2.再向上靠攏技潘,把新生成的樣本類視作分類對象遥巴,逐層減少分類的個數(shù)。
  • 簇間距離的算法:
    • 最短聚類
    • 最長距離
    • 平均距離
    • Ward 平方殘差和享幽, 在簇合并前后铲掐,平方殘差和增加的越小,證明簇與簇之間越應該合并值桩。
    • 聚類靈活 但是容易受離群點影響摆霉。

模型評價

模型泛化結(jié)果
  • 混淆矩陣

    • 繪制 預測結(jié)果與實際分類的矩陣

    • 混淆矩陣.png
    • TP 正確地 識別為正 圖中共104個樣本

    • TN 正確地 識別為負 圖中共881個樣本

    • FP 錯誤地 識別為正(樣本點實際屬于負類)圖中共12個樣本

    • FN 錯誤地 識別為負 圖中共3個樣本

  • 指標

    • 正確率 Accuracy
      • 所有識別正確的比例
    • 召回率 Recall
      • 所有實際為正類的樣本中,識別為正類的比例奔坟。
    • 精準率 Precision 也叫TPR
      • 所有識別為正類的樣本中携栋,識別正確的比例。
    • 錯誤接收率 FPR
      • 所有識別為負類的樣本中咳秉,識別錯誤的比例刻两。
    • F分數(shù)
      • F分數(shù).png
      • β=1 時 即F1分數(shù),precision 和 Recall 同樣重要滴某,無論哪個數(shù)值很小都會使得F1分數(shù)變小。F分數(shù)評價避免了樣本不均滋迈,即樣本中正類負類比例相差很大時霎奢,準確率高,但模型泛化能力依然較差的情況饼灿。

  • ROC曲線 受試者工作模式曲線幕侠。

    • 橫軸為TPR,縱軸為FPR碍彭。
    • 曲線越接近左上角晤硕,曲線下方的面積 AUC 越大, 模型的泛化能力越好庇忌。
    • 虛線為完全隨機的二分類預測舞箍,虛線附近、虛線右下側(cè)對應的模型沒有實際應用意義皆疹。
    • ROC曲線.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末疏橄,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌捎迫,老刑警劉巖晃酒,帶你破解...
    沈念sama閱讀 223,126評論 6 520
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異窄绒,居然都是意外死亡贝次,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,421評論 3 400
  • 文/潘曉璐 我一進店門彰导,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蛔翅,“玉大人,你說我怎么就攤上這事螺戳「楸觯” “怎么了?”我有些...
    開封第一講書人閱讀 169,941評論 0 366
  • 文/不壞的土叔 我叫張陵倔幼,是天一觀的道長盖腿。 經(jīng)常有香客問我,道長损同,這世上最難降的妖魔是什么翩腐? 我笑而不...
    開封第一講書人閱讀 60,294評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮膏燃,結(jié)果婚禮上茂卦,老公的妹妹穿的比我還像新娘。我一直安慰自己组哩,他們只是感情好等龙,可當我...
    茶點故事閱讀 69,295評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著伶贰,像睡著了一般蛛砰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上黍衙,一...
    開封第一講書人閱讀 52,874評論 1 314
  • 那天泥畅,我揣著相機與錄音,去河邊找鬼琅翻。 笑死位仁,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的方椎。 我是一名探鬼主播聂抢,決...
    沈念sama閱讀 41,285評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼辩尊!你這毒婦竟也來了涛浙?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,249評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎轿亮,沒想到半個月后疮薇,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,760評論 1 321
  • 正文 獨居荒郊野嶺守林人離奇死亡我注,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,840評論 3 343
  • 正文 我和宋清朗相戀三年按咒,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片但骨。...
    茶點故事閱讀 40,973評論 1 354
  • 序言:一個原本活蹦亂跳的男人離奇死亡励七,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出奔缠,到底是詐尸還是另有隱情掠抬,我是刑警寧澤,帶...
    沈念sama閱讀 36,631評論 5 351
  • 正文 年R本政府宣布校哎,位于F島的核電站两波,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏闷哆。R本人自食惡果不足惜腰奋,卻給世界環(huán)境...
    茶點故事閱讀 42,315評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望抱怔。 院中可真熱鬧劣坊,春花似錦、人聲如沸屈留。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,797評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽灌危。三九已至锐想,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間乍狐,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,926評論 1 275
  • 我被黑心中介騙來泰國打工固逗, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留浅蚪,地道東北人。 一個月前我還...
    沈念sama閱讀 49,431評論 3 379
  • 正文 我出身青樓烫罩,卻偏偏與公主長得像惜傲,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子贝攒,可洞房花燭夜當晚...
    茶點故事閱讀 45,982評論 2 361

推薦閱讀更多精彩內(nèi)容