機器學習算法學習-Kmeans

1. 算法

Kmeans應該算是最經(jīng)典最易懂的機器學習算法之一鹊汛。其基本數(shù)學思想是期望最大化(EM)旷痕,簡單概況就是物以類聚亚兄,以特征空間中不同樣本之間的“距離”遠近作為劃分的依據(jù)哎垦。


2. 優(yōu)缺點特點

2.1 優(yōu)點

容易理解囱嫩,聚類效果不錯,雖然是局部最優(yōu)漏设,但往往局部最優(yōu)就夠了墨闲;

處理大數(shù)據(jù)集的時候,該算法可以保證較好的伸縮性郑口;

當簇近似高斯分布的時候鸳碧,效果非常不錯;

算法復雜度低犬性。

2.2 缺點

K 值需要人為設(shè)定瞻离,不同 K 值得到的結(jié)果不一樣;

對初始的簇中心敏感乒裆,不同選取方式會得到不同結(jié)果套利;

對異常值敏感;

樣本只能歸為一類,不適合多分類任務肉迫;

不適合太離散的分類验辞、樣本類別不平衡的分類、非凸形狀的分類喊衫。


3. 算法調(diào)優(yōu)與改進

3.1 數(shù)據(jù)預處理

K-means 的本質(zhì)是基于歐式距離的數(shù)據(jù)劃分算法跌造,均值和方差大的維度將對數(shù)據(jù)的聚類產(chǎn)生決定性影響。所以未做歸一化處理和統(tǒng)一單位的數(shù)據(jù)是無法直接參與運算和比較的族购。常見的數(shù)據(jù)預處理方式有:數(shù)據(jù)歸一化壳贪,數(shù)據(jù)標準化

此外寝杖,離群點或者噪聲數(shù)據(jù)會對均值產(chǎn)生較大的影響违施,導致中心偏移,因此我們還需要對數(shù)據(jù)進行異常點檢測瑟幕。


3.2 合理選擇 K

K 值的選取對 K-means 影響很大醉拓,這也是K-means 最大的缺點,常見的選取 K 值的方法有:手肘法收苏、Gap statistic 方法。


3.3 采用核函數(shù)

基于歐式距離的 K-means 假設(shè)了了各個數(shù)據(jù)簇的數(shù)據(jù)具有一樣的的先驗概率并呈現(xiàn)球形分布愤兵,但這種分布在實際生活中并不常見鹿霸。面對非凸的數(shù)據(jù)分布形狀時我們可以引入核函數(shù)來優(yōu)化,這時算法又稱為核 K-means 算法秆乳,是核聚類方法的一種懦鼠。核聚類方法的主要思想是通過一個非線性映射,將輸入空間中的數(shù)據(jù)點映射到高位的特征空間中屹堰,并在新的特征空間中進行聚類肛冶。非線性映射增加了數(shù)據(jù)點線性可分的概率,從而在經(jīng)典的聚類算法失效的情況下扯键,通過引入核函數(shù)可以達到更為準確的聚類結(jié)果睦袖。


3.4 K-means++

我們知道初始值的選取對結(jié)果的影響很大,對初始值選擇的改進是很重要的一部分荣刑。在所有的改進算法中馅笙,K-means++ 最有名。


3.5 ISODATA

ISODATA 的全稱是迭代自組織數(shù)據(jù)分析法厉亏。它解決了 K的值需要預先人為的確定這一缺點董习。而當遇到高維度、海量的數(shù)據(jù)集時爱只,人們往往很難準確地估計出 K 的大小皿淋。ISODATA 就是針對這個問題進行了改進,它的思想也很直觀:當屬于某個類別的樣本數(shù)過少時把這個類別去除,當屬于某個類別的樣本數(shù)過多窝趣、分散程度較大時把這個類別分為兩個子類別疯暑。



4. 相關(guān)鏈接:

K均值原理及實現(xiàn)(K-Means)

http://www.reibang.com/p/e4d5a0fbcefe

從最大似然到EM算法淺解

https://blog.csdn.net/zouxy09/article/details/8537620

【機器學習】K-means(非常詳細)

https://zhuanlan.zhihu.com/p/78798251

【機器學習】EM——期望最大(非常詳細)

https://zhuanlan.zhihu.com/p/78311644

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市高帖,隨后出現(xiàn)的幾起案子缰儿,更是在濱河造成了極大的恐慌,老刑警劉巖散址,帶你破解...
    沈念sama閱讀 222,252評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件乖阵,死亡現(xiàn)場離奇詭異,居然都是意外死亡预麸,警方通過查閱死者的電腦和手機瞪浸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來吏祸,“玉大人对蒲,你說我怎么就攤上這事」鼻蹋” “怎么了蹈矮?”我有些...
    開封第一講書人閱讀 168,814評論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長鸣驱。 經(jīng)常有香客問我泛鸟,道長,這世上最難降的妖魔是什么踊东? 我笑而不...
    開封第一講書人閱讀 59,869評論 1 299
  • 正文 為了忘掉前任北滥,我火速辦了婚禮,結(jié)果婚禮上闸翅,老公的妹妹穿的比我還像新娘再芋。我一直安慰自己,他們只是感情好坚冀,可當我...
    茶點故事閱讀 68,888評論 6 398
  • 文/花漫 我一把揭開白布济赎。 她就那樣靜靜地躺著,像睡著了一般记某。 火紅的嫁衣襯著肌膚如雪联喘。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,475評論 1 312
  • 那天辙纬,我揣著相機與錄音豁遭,去河邊找鬼。 笑死贺拣,一個胖子當著我的面吹牛蓖谢,可吹牛的內(nèi)容都是我干的捂蕴。 我是一名探鬼主播,決...
    沈念sama閱讀 41,010評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼闪幽,長吁一口氣:“原來是場噩夢啊……” “哼啥辨!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起盯腌,我...
    開封第一講書人閱讀 39,924評論 0 277
  • 序言:老撾萬榮一對情侶失蹤溉知,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后腕够,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體级乍,經(jīng)...
    沈念sama閱讀 46,469評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,552評論 3 342
  • 正文 我和宋清朗相戀三年帚湘,在試婚紗的時候發(fā)現(xiàn)自己被綠了玫荣。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,680評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡大诸,死狀恐怖捅厂,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情资柔,我是刑警寧澤焙贷,帶...
    沈念sama閱讀 36,362評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站贿堰,受9級特大地震影響盈厘,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜官边,卻給世界環(huán)境...
    茶點故事閱讀 42,037評論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望外遇。 院中可真熱鬧注簿,春花似錦、人聲如沸跳仿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽菲语。三九已至妄辩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間山上,已是汗流浹背眼耀。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留佩憾,地道東北人哮伟。 一個月前我還...
    沈念sama閱讀 49,099評論 3 378
  • 正文 我出身青樓干花,卻偏偏與公主長得像,于是被迫代替她去往敵國和親楞黄。 傳聞我的和親對象是個殘疾皇子池凄,可洞房花燭夜當晚...
    茶點故事閱讀 45,691評論 2 361

推薦閱讀更多精彩內(nèi)容