Kmeans原理

1、kmeans:k均值
原理:給定訓(xùn)練樣本D,假設(shè)將這個樣本劃分成k個類硬爆,那么就有k個簇,用C表示擎鸠。算法的均方誤差為:


其中:u表示第i個簇的均值


E從某種程度上刻畫了簇內(nèi)樣本圍繞著簇均值向量的緊密程度缀磕,E越小表示簇內(nèi)的樣本相似性越高。

算法流程偽代碼如下:


2劣光、舉例
我們看一下西瓜書上的例子袜蚕,就能對上面的理論基本理解了~~~
我們現(xiàn)在有30個訓(xùn)練樣本,每個樣本含有兩個屬性绢涡。由于聚類算法屬于無監(jiān)督學(xué)習(xí)牲剃,所以這里我們不需要label。

(1)假設(shè)聚類簇數(shù)為3垂寥,算法的開始我們要隨機的選3個樣本作為初始的均值向量颠黎,即:

(2)首先考察第一個樣本x1=(0.697另锋,0.460),它與上面三個均值向量的距離分別是:0.369狭归,0.506夭坪,0.166,因此將x1劃分為第三個簇过椎。類似的室梅,將剩下的數(shù)據(jù)集一次考察,得到三個簇為:


(3)于是疚宇,求這三個簇新的均值向量亡鼠,可以得到:


(4)重復(fù)上述的步驟(2)和(3),直到迭代的結(jié)果相同敷待,也就是求到的均值不再發(fā)生變化间涵。

最后得到的結(jié)果圖:

3、kmeans優(yōu)缺點
優(yōu)點:
(1)計算時間短榜揖,速度快
(2)容易解釋和理解
(3)聚類效果不錯
缺點:
(1)對異常值敏感
(2)需要提前確定k值
(3)需要樣本存在均值

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末勾哩,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子举哟,更是在濱河造成了極大的恐慌思劳,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件妨猩,死亡現(xiàn)場離奇詭異潜叛,居然都是意外死亡,警方通過查閱死者的電腦和手機壶硅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進店門威兜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人森瘪,你說我怎么就攤上這事牡属∑倍拢” “怎么了扼睬?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長悴势。 經(jīng)常有香客問我窗宇,道長,這世上最難降的妖魔是什么特纤? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任军俊,我火速辦了婚禮,結(jié)果婚禮上捧存,老公的妹妹穿的比我還像新娘粪躬。我一直安慰自己担败,他們只是感情好,可當我...
    茶點故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布镰官。 她就那樣靜靜地躺著提前,像睡著了一般。 火紅的嫁衣襯著肌膚如雪泳唠。 梳的紋絲不亂的頭發(fā)上狈网,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天,我揣著相機與錄音笨腥,去河邊找鬼拓哺。 笑死,一個胖子當著我的面吹牛脖母,可吹牛的內(nèi)容都是我干的士鸥。 我是一名探鬼主播,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼谆级,長吁一口氣:“原來是場噩夢啊……” “哼础淤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起哨苛,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤鸽凶,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后建峭,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體玻侥,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年亿蒸,在試婚紗的時候發(fā)現(xiàn)自己被綠了凑兰。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡边锁,死狀恐怖姑食,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情茅坛,我是刑警寧澤音半,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站贡蓖,受9級特大地震影響曹鸠,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜斥铺,卻給世界環(huán)境...
    茶點故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一彻桃、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧晾蜘,春花似錦邻眷、人聲如沸眠屎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽组力。三九已至,卻和暖如春抖拴,著一層夾襖步出監(jiān)牢的瞬間燎字,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工阿宅, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留候衍,地道東北人。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓洒放,卻偏偏與公主長得像蛉鹿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子往湿,可洞房花燭夜當晚...
    茶點故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 寫在之前 因簡書導(dǎo)入公式很麻煩妖异,如果想獲得更好的觀看體驗請移步https://www.zybuluo.com/ha...
    hainingwyx閱讀 6,835評論 2 13
  • 考試說明 注重基礎(chǔ)知識和概念的理解,因此解題中的計算過程不會很復(fù)雜领追,但是會有推公式的過程他膳。本課程的重點知識包括:貝...
    藝術(shù)叔閱讀 2,842評論 0 3
  • 1. 章節(jié)主要內(nèi)容 “聚類”(clustering)算法是“無監(jiān)督學(xué)習(xí)”算法中研究最多、應(yīng)用最廣的算法绒窑,它試圖將數(shù)...
    閃電隨筆閱讀 5,038評論 1 24
  • 來源: http://www.douban.com/group/topic/14820131/ 調(diào)整變量格式: f...
    MC1229閱讀 6,919評論 0 5
  • (轉(zhuǎn)自http://www.douban.com/group/topic/14820131/棕孙,轉(zhuǎn)自人大論壇) 調(diào)整...
    f382b3d9bdb3閱讀 10,458評論 0 8