《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》讀書筆記10

K-均值算法概述

回顧前面總結(jié)的分類和回歸算法傲醉,它們都有預(yù)期的目標(biāo)變量柬甥,即:“對(duì)于輸入數(shù)據(jù)x能預(yù)測(cè)y”浪慌,也因此這類算法統(tǒng)稱為監(jiān)督學(xué)習(xí)算法洛心。而無(wú)監(jiān)督學(xué)習(xí)算法尋求解決的問(wèn)題是“從數(shù)據(jù)x中能發(fā)現(xiàn)什么?”葬毫,并且無(wú)監(jiān)督學(xué)習(xí)算法最好還能夠解釋“被發(fā)現(xiàn)的是合理的”镇辉。

聚類(Clustering)是一種無(wú)監(jiān)督的學(xué)習(xí),它將相似的對(duì)象歸到同一個(gè)簇中贴捡,有點(diǎn)像對(duì)數(shù)據(jù)進(jìn)行全自動(dòng)分類忽肛,這里的全自動(dòng)真是“全自動(dòng)”,因?yàn)檫B類別都是自動(dòng)構(gòu)建的烂斋,而不是像分類算法那樣事先給出的屹逛。

K-均值(K-means)算法又是聚類算法之一,之所以稱之為K-均值是因?yàn)樗梢园l(fā)現(xiàn)k個(gè)不同的簇汛骂,且每個(gè)簇的中心采用簇中所有數(shù)據(jù)的均值計(jì)算生成罕模。

優(yōu)點(diǎn):容易實(shí)現(xiàn)。
缺點(diǎn):可能收斂到局部最小值帘瞭,在大規(guī)模數(shù)據(jù)集上收斂較慢淑掌。
適用數(shù)據(jù)類型:數(shù)值型數(shù)據(jù)。

入門案例

為便于理解K-均值算法是什么及其原理蝶念,首先構(gòu)建了模擬數(shù)據(jù)抛腕,然后用圖形展示效果(就不講解代碼是怎么實(shí)現(xiàn)的了)芋绸,請(qǐng)看下圖。

人類更容易理解直觀的圖形化數(shù)據(jù)担敌,如上圖摔敛,我們能夠感覺(jué)出某些數(shù)據(jù)點(diǎn)考得比較近,因此可以聚合為一個(gè)類別(簇)全封。如果數(shù)據(jù)量都像上圖那么少马昙,那我們可以很自信的說(shuō):就分4類了,比較合理刹悴,而且我們能夠準(zhǔn)確地指出那個(gè)點(diǎn)應(yīng)該屬于那個(gè)簇(類別)行楞。但你要知道,現(xiàn)實(shí)生活中的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大與此示例颂跨、且可能是多維的數(shù)據(jù)敢伸,人類脫離計(jì)算機(jī)是無(wú)法處理的。
上圖是使用K-均值算法得到的聚類效果恒削,這里k=4池颈,所以為我們分成了四類不同的數(shù)據(jù)。上圖中的紅色十字表示的是:這簇?cái)?shù)據(jù)的質(zhì)心(可以理解為中心)钓丰,離開(kāi)質(zhì)心越遠(yuǎn)的點(diǎn)躯砰,說(shuō)明其聚類后的偏差就越大。
上圖仍然采用K-均值算法携丁,這次k=6琢歇,也就是聚類成6個(gè)簇。從效果看還蠻不錯(cuò)的梦鉴,不是嗎李茫?但其實(shí)K-均值算法是有缺陷的,請(qǐng)往下看肥橙。
我們換一套數(shù)據(jù)魄宏,肉眼直觀看,上圖的數(shù)據(jù)應(yīng)該聚合為3類存筏。的確宠互,數(shù)據(jù)量少的時(shí)候,人類可能比計(jì)算機(jī)更加高效椭坚。
但我們?yōu)榱藢W(xué)習(xí)予跌,仍然調(diào)用K-均值算法來(lái)試試,k=3善茎,運(yùn)行后...傻眼了吧券册,這不符合最佳的聚類效果啊!V印略吨!計(jì)算機(jī)難道是傻子嗎?
好吧考阱,我在運(yùn)行一次...這結(jié)果又是什么鬼?>瞎丁乞榨?!其實(shí)仔細(xì)觀察当娱,但就某一個(gè)簇(類別)來(lái)說(shuō)吃既,其質(zhì)心是完全正確的,計(jì)算機(jī)沒(méi)毛病跨细。毛病出現(xiàn)在K-均值算法在第一次執(zhí)行時(shí)鹦倚,會(huì)隨機(jī)選擇k個(gè)質(zhì)心,然后再優(yōu)化該質(zhì)心(可參見(jiàn)下面的工作原理)冀惭。既然是隨機(jī)選擇震叙,那初始簇質(zhì)心的位置就很重要、也會(huì)帶來(lái)很大的影響散休。因?yàn)榇嬖谌缟系娜毕菝铰ィ虼艘獙?duì)基礎(chǔ)的K-均值算法做優(yōu)化喘蟆。
采用更優(yōu)的二分K-均值聚類算法营密,這次終于得到了最佳的聚類效果。該算法消除了隨機(jī)選擇帶來(lái)的不確定性掖桦。


工作原理

使用K-均值聚類算法限府,必須指定要?jiǎng)?chuàng)建的簇的數(shù)目k(就是最終分類的數(shù)量夺颤,個(gè)人理解,如果該值是人工指定的胁勺,那么是否是最好的世澜,就需要根據(jù)結(jié)果來(lái)評(píng)判,必要時(shí)調(diào)整再算)姻几。

K-均值算法首先從數(shù)據(jù)集中隨機(jī)選擇k個(gè)作為質(zhì)心宜狐。算法會(huì)計(jì)算每個(gè)點(diǎn)到質(zhì)心的距離。每個(gè)點(diǎn)會(huì)被分配到距其最近的簇質(zhì)心蛇捌,然后緊接著基于新分配到簇的點(diǎn)更新簇質(zhì)心抚恒。以上過(guò)程重復(fù)數(shù)次,直到簇質(zhì)心不再改變络拌。

上述算法簡(jiǎn)單有效俭驮,但是容易受到初始(隨機(jī)選擇的)簇質(zhì)心的影響。為了獲得更好的聚類效果,可以使用更優(yōu)的二分K-均值聚類算法混萝。該算法首先將所有的點(diǎn)作為一個(gè)簇遗遵,然后使用K-均值算法(k=2)對(duì)其劃分。下一次迭代時(shí)逸嘀,選擇有最大誤差的簇進(jìn)行劃分车要。該過(guò)程重復(fù)直到k個(gè)簇創(chuàng)建成功為止。

K-均值算法以及其變種算法并非僅有的聚類算法崭倘,另外稱為層次聚類的方法也被廣泛使用翼岁。

一般流程

1.收集數(shù)據(jù):使用任意方法。
2.準(zhǔn)備數(shù)據(jù):需要數(shù)值型數(shù)據(jù)來(lái)計(jì)算距離司光,也可以將標(biāo)稱型數(shù)據(jù)映射為二值型數(shù)據(jù)再用于距離計(jì)算琅坡。
3.分析數(shù)據(jù):使用任意方法。
4.訓(xùn)練算法:不適用于無(wú)監(jiān)督學(xué)習(xí)残家,即無(wú)監(jiān)督學(xué)習(xí)沒(méi)有訓(xùn)練過(guò)程榆俺。
5.測(cè)試算法:應(yīng)用聚類算法、觀察結(jié)果坞淮≤罱可以使用量化的誤差指標(biāo)如誤差平方和來(lái)評(píng)價(jià)算法的結(jié)果。
6.使用算法:可以用于所希望的任何應(yīng)用碾盐。通常情況下簇質(zhì)心可以代表整個(gè)簇的數(shù)據(jù)來(lái)做出決策晃跺。

可使用場(chǎng)景

1.根據(jù)客戶特征進(jìn)行聚類
2.根據(jù)地理位置(經(jīng)緯度)進(jìn)行聚類
......

同類筆記可點(diǎn)擊這里查閱

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市毫玖,隨后出現(xiàn)的幾起案子掀虎,更是在濱河造成了極大的恐慌,老刑警劉巖付枫,帶你破解...
    沈念sama閱讀 222,681評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件烹玉,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡阐滩,警方通過(guò)查閱死者的電腦和手機(jī)二打,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,205評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)掂榔,“玉大人继效,你說(shuō)我怎么就攤上這事∽盎瘢” “怎么了瑞信?”我有些...
    開(kāi)封第一講書人閱讀 169,421評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)穴豫。 經(jīng)常有香客問(wèn)我凡简,道長(zhǎng)逼友,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 60,114評(píng)論 1 300
  • 正文 為了忘掉前任秤涩,我火速辦了婚禮帜乞,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘筐眷。我一直安慰自己黎烈,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,116評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布浊竟。 她就那樣靜靜地躺著怨喘,像睡著了一般。 火紅的嫁衣襯著肌膚如雪振定。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 52,713評(píng)論 1 312
  • 那天肉拓,我揣著相機(jī)與錄音后频,去河邊找鬼。 笑死暖途,一個(gè)胖子當(dāng)著我的面吹牛卑惜,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播驻售,決...
    沈念sama閱讀 41,170評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼露久,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了欺栗?” 一聲冷哼從身側(cè)響起毫痕,我...
    開(kāi)封第一講書人閱讀 40,116評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎迟几,沒(méi)想到半個(gè)月后消请,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,651評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡类腮,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,714評(píng)論 3 342
  • 正文 我和宋清朗相戀三年臊泰,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蚜枢。...
    茶點(diǎn)故事閱讀 40,865評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡缸逃,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出厂抽,到底是詐尸還是另有隱情需频,我是刑警寧澤,帶...
    沈念sama閱讀 36,527評(píng)論 5 351
  • 正文 年R本政府宣布修肠,位于F島的核電站贺辰,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜饲化,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,211評(píng)論 3 336
  • 文/蒙蒙 一莽鸭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧吃靠,春花似錦硫眨、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,699評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至族奢,卻和暖如春姥闭,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背越走。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,814評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工棚品, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人廊敌。 一個(gè)月前我還...
    沈念sama閱讀 49,299評(píng)論 3 379
  • 正文 我出身青樓铜跑,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親骡澈。 傳聞我的和親對(duì)象是個(gè)殘疾皇子锅纺,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,870評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容