機(jī)器學(xué)習(xí)筆記 - 17. 聚類(下)(講師:鄒博)

本次目標(biāo)

2018-06-24 17_14_56-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

密度聚類

2018-06-26 19_26_05-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

DBSCAN算法

2018-06-26 19_31_40-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-26 19_34_29-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-26 19_40_26-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

噪聲:特征還包括不能被其他樣本密度可達(dá)

課堂問答

問: 每個p都必須是核心對象么?
答:是的复颈,如果p1 -> p2 -> p3->...->pn -> q绩聘,所有p都是核心對象沥割,最后一個是不是不清楚。

問:核心對象怎么確定凿菩?
答:給定ε机杜,給定一個m值,只要樣本周邊的樣本個數(shù)>M值衅谷,這個樣本是核心對象椒拗。或者說一個樣本周邊有足夠樣本获黔,就是核心對象蚀苛,否則不是。

2018-06-26 19_48_56-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

1.確定核心對象

  1. 確定密度可達(dá)的樣本集合玷氏,即在ε范圍堵未,確定集合
  2. UNION - FIND - SET
    即并查集,這個是用于實(shí)現(xiàn)集合交的方式簡單盏触,速度較快的方法
    從而實(shí)現(xiàn)聚類

課堂問答

問:如果密度可達(dá)渗蟹,就是密度相連的吧?
答:是的

問:一般的閾值如何確定耻陕?
答:需要調(diào)參

問:m和ε也是調(diào)參么拙徽?
答:是的刨沦,是調(diào)參

如果存在某個核心對象诗宣,能夠被兩個簇的中心樣本密度可達(dá),這兩個簇想诅,往往也能連在一起召庞。即可以合并簇

問:感覺半徑r的設(shè)定,對結(jié)果影響很大来破?
答:是的

問:密度相連的兩個點(diǎn)篮灼,路徑不唯一?
答:是的

問:epoch能否再講解一遍徘禁?
答:線性回歸中的概念诅诱。如果對x1, x2, x3, ..., xn, 我們總是會用某種方式,下降其維度送朱,如果把所有樣本遍歷一遍娘荡,下降完了,這個叫做一個epoch驶沼。但我們往往會取若干個樣本炮沐,其個數(shù),遠(yuǎn)遠(yuǎn)小于總樣本個數(shù)回怜,這稱之為mini-batch大年。如1000個樣本,我們的batch選擇50(個樣本),則完成20個mini-batch翔试,對1000個樣本完成一次epoch轻要。

問:1->2->3->4,1和4超出半徑r,還是一個簇么垦缅?
答:是一個簇伦腐,因為都是密度可達(dá)的。

問:這個算法對數(shù)據(jù)分布有要求么失都?
答:沒有

問:1和3是核心對象柏蘑,1->2, 3->2,123是一個簇么粹庞?
答:是不確定的咳焚。因為無法判斷123一定是一個簇,共同指向一個東西很難說庞溜,但反過來革半,1->2, 1->3,則123是一個簇流码。

問:如果123不是一個簇又官,2歸誰呢?
答:1與3不一定如何漫试,2歸1或2歸3都有道理六敬。

問:在DBSCAN中,指向不是相互的么驾荣?即1->2外构,等同于2->1么?
答:不是的播掷。不確定的审编。

問:并查集是什么?
答:并查集是在做基本數(shù)據(jù)結(jié)構(gòu)歧匈,總會要用的一個東西垒酬。
比如往往做最小生成樹,如Kruskal算法
附圖:


2018-06-26 20_12_06-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

問:異常值怎么判斷件炉?
答:如果一個樣本不是核心對象勘究,并且沒有被其他核心對象密度可達(dá),即可以判定為異常值妻率。
異常值被參數(shù)半徑:r與鄰域樣本數(shù)量參數(shù)影響乱顾。
如:


2018-06-26 20_13_20-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

有可能需要做后處理。

問:如果2是核心對象宫静,那123是一個簇走净;如果2不是核心對象券时,是不是可以分為兩簇?
答:有可能伏伯,其實(shí)是待定的橘洞。可以通過雙向并查集嘗試说搅。

問:密度的定義是否可以處理多維數(shù)據(jù)炸枣?
答:可以。我們只是定義了ε鄰域弄唧,并沒有定義什么是ε鄰域适肠。

問:m值就是最小的簇元素的個數(shù)么?
答:如果周邊的樣本大于m個候引,則就是核心對象侯养。但是理論上最小的簇元素的個數(shù)就是m個

密度最大值聚類

2018-06-26 20_19_27-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-27 17_11_49-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-27 17_16_41-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-27 17_22_28-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

課堂問答

問:高局部密度距離的兩個密度可以相等么?
答:

問:都小是不是表示邊界澄干?
答:都小逛揩,是噪聲的噪聲。其實(shí)ρ很小麸俘,δ很大的時候辩稽,一般是在邊界上。

2018-06-27 17_26_24-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

舉例說明


2018-06-27 17_30_17-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-27 17_33_31-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-27 17_36_35-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

通過密度聚類从媚,一定程度上可以看出簇的邊在什么位置逞泄,會給出是否屬于該簇的權(quán)值。通過EM算法静檬,能夠算出到底一個樣本炭懊,(x,y)屬于這個簇的概率

2018-06-27 17_39_51-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

課堂問答

問:多大算大,多大算蟹鏖荨踱侣?
答:這個需要調(diào)參槽奕,如下圖
左下角聚類明顯不合理,因為m值太小覆致,所以需要將ε調(diào)的小一些
或者保持ε值愈涩,但需要將m值調(diào)大
ε比較大望抽,可以將更多的樣本納入到簇里面
反之ε比較小,m值又比較小履婉,有些樣本納入不到簇里面
如果發(fā)現(xiàn)噪聲較多煤篙,可以將ε與m值同時調(diào)大,則噪聲判斷就變得嚴(yán)格了毁腿。

2018-06-27 17_46_09-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-27 18_13_52-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

相似度傳遞
通過矩陣計算辑奈,得出的兩個結(jié)論
通過吸引程度與依賴程度苛茂,二者之間在一起形成的相似度


2018-06-27 18_14_31-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

推薦使用所有樣本相似度的中位數(shù)(1.0),作為初值鸠窗,進(jìn)行迭代妓羊。
但是實(shí)踐發(fā)現(xiàn)使用中位數(shù)不一定好,如果用若干倍可能好一些稍计。
相似度越大躁绸,說明越想做聚類中心
相似度越小,說明越不想做聚類中心
該算法的時間復(fù)雜度太高臣嚣,為n2净刮,不見得合適。
數(shù)據(jù)只能是中小規(guī)模

2018-06-27 18_18_57-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

課堂問答

問:怎么知道參數(shù)調(diào)好了呢硅则?
答:唯一的方案庭瑰,就是噪聲驗證。

問:為什么用歐式距離相反數(shù)抢埋?
答:應(yīng)都是有道理弹灭。用歐式距離倒數(shù)也可以

譜聚類

2018-06-29 16_56_48-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

如果一個矩陣是對稱陣,并且是實(shí)數(shù)組成的揪垄,那么它的特征值一定是實(shí)數(shù)穷吮。


2018-06-29 16_59_06-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-29 16_59_55-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

如果某個算法是基于譜的,往往就是求特征值或者特征向量饥努。
譜聚類捡鱼,即通過對樣本數(shù)據(jù)的拉普拉斯矩陣的特征向量進(jìn)行聚類


2018-06-29 17_03_12-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-29 17_40_12-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

拉普拉斯矩陣(Lnxn) = 相似度的對角陣(D) - 相似度的對稱陣(W)
是從小到大排
L = 特征向量x特征值

2018-06-29 19_00_54-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-29 19_01_52-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-29 19_03_25-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-29 19_04_00-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-29 17_55_15-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

如圖,對K維數(shù)據(jù)做聚類酷愧,可以選擇K-Means算法驾诈,喂給K維的K均值聚類,則最終結(jié)果就是我們想要的譜聚類的結(jié)果溶浴。

課堂問答

問:DW是什么乍迄?
答:D是我們的度矩陣,W是我們的權(quán)值矩陣士败,任何兩個樣本求相似度

問:不是從小到大么闯两?
答:是從小到大排列

問:奇異值分解?
答:確實(shí)非常像奇異值分解谅将,也像PCA(主成分分析)漾狼。
如圖,可以說明如何從n維降維到k維


2018-06-29 18_02_49-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

問:前k大饥臂,這個k個維度選多少合適呢逊躁?
答:如果選擇性別,則分為男性隅熙,女性稽煤,未知核芽,三個即可。
如果選擇年齡段念脯,就麻煩很多狞洋。
在譜聚類中有從小到大排列的n個樣本,記為:
λ1绿店,λ2吉懊,...,λn
則δi = λi+1 - λi假勿,則能算出:
δ1借嗽,δ2, ...转培,δn-1
這n個值恶导,誰大,我們就認(rèn)為其后者-前者差值最大浸须,大的位置上惨寿,前面的i個應(yīng)該是一個部分,后面則是另外一部分删窒。則將k取i的值即可

問:W-D的理論基礎(chǔ)裂垦?
答:譜聚類應(yīng)該是切割圖推導(dǎo)的一個結(jié)論。
如圖肌索,對權(quán)值進(jìn)行簇的劃分蕉拢,需要使得樣本被切斷,且兩個簇的樣本個數(shù)不要差別太大诚亚。
左邊記為A晕换,右邊記為A',則左邊簇的邊記為i站宗,右邊簇的邊記為j闸准。
對于Wij/|A| + Wij/|A'|,使得分割結(jié)果不會過分差異過大份乒。
如此繼續(xù)推恕汇,得到L = D - W

2018-06-29 18_16_40-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

2018-06-29 18_36_58-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

可以繼續(xù)推論:
D-1·L = D-1 (D - W) = I - D-1·W
此時是從小到大排

問:K_means和譜聚類要給k值,DBSCAN和密度聚類不需要是么或辖?
答:是的

額外講解


2018-06-29 18_49_44-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

2018-06-29 18_51_42-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-29 18_52_45-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
2018-06-29 18_55_09-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

切割圖是了解譜聚類的一把鑰匙。


2018-06-29 19_08_42-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

2018-06-29 19_09_56-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

2018-06-29 19_10_48-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

2018-06-29 19_11_15-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

這三個拉普拉斯矩陣枣接,使用最多的是隨機(jī)游走拉普拉斯矩陣颂暇。

2018-06-29 19_17_08-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

下圖是通過譜聚類實(shí)現(xiàn)的,但是K-Means算法搞不定


2018-06-29 19_21_01-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

說明當(dāng)nxn更改為nxk之后但惶,丟掉一部分樣本耳鸯,降維之后效果反而還更好了湿蛔。從這個意義理解,PCA(主成分分析)干的是這個事情县爬,譜聚類也是干的這個事情阳啥。

2018-06-29 19_25_36-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

2018-06-29 19_26_25-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png

課堂問答

問:在拉普拉斯矩陣的特征向量上做k-means,那么有沒有在拉普拉斯矩陣的特征值上做密度聚類的情況呢财喳?
答:本質(zhì)上做k-均值聚類察迟,本來求的拉普拉斯矩陣,應(yīng)該求在整數(shù)域上的解耳高,那才叫做聚類扎瓶。因為一個樣本,屬于且只屬于一個類別泌枪。我們先把整數(shù)域上的結(jié)論概荷,放在實(shí)數(shù)域的情況中去做,然后將它強(qiáng)制轉(zhuǎn)換為整數(shù)域上去做碌燕。
建議先應(yīng)用误证,再去推理論

2018-06-29 19_36_05-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七)png.png

往往是利用實(shí)際數(shù)據(jù),求相似度修壕,然后將標(biāo)簽傳遞下去愈捅。

2018-06-29 19_42_45-【鄒博_chinahadoop】機(jī)器學(xué)習(xí)升級版VII(七).png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市叠殷,隨后出現(xiàn)的幾起案子改鲫,更是在濱河造成了極大的恐慌,老刑警劉巖林束,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件像棘,死亡現(xiàn)場離奇詭異,居然都是意外死亡壶冒,警方通過查閱死者的電腦和手機(jī)缕题,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來胖腾,“玉大人烟零,你說我怎么就攤上這事∠套鳎” “怎么了锨阿?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長记罚。 經(jīng)常有香客問我墅诡,道長,這世上最難降的妖魔是什么桐智? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任末早,我火速辦了婚禮烟馅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘然磷。我一直安慰自己郑趁,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布姿搜。 她就那樣靜靜地躺著寡润,像睡著了一般。 火紅的嫁衣襯著肌膚如雪痪欲。 梳的紋絲不亂的頭發(fā)上悦穿,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天,我揣著相機(jī)與錄音业踢,去河邊找鬼栗柒。 笑死,一個胖子當(dāng)著我的面吹牛知举,可吹牛的內(nèi)容都是我干的瞬沦。 我是一名探鬼主播,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼雇锡,長吁一口氣:“原來是場噩夢啊……” “哼逛钻!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起锰提,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤曙痘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后立肘,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體边坤,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年谅年,在試婚紗的時候發(fā)現(xiàn)自己被綠了茧痒。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡融蹂,死狀恐怖旺订,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情超燃,我是刑警寧澤区拳,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站意乓,受9級特大地震影響劳闹,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜洽瞬,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一本涕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧伙窃,春花似錦菩颖、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至鳍怨,卻和暖如春呻右,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背鞋喇。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工声滥, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人侦香。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓落塑,卻偏偏與公主長得像,于是被迫代替她去往敵國和親罐韩。 傳聞我的和親對象是個殘疾皇子憾赁,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內(nèi)容