聚類中的性能度量

聚類

在無監(jiān)督學(xué)習(xí)中,訓(xùn)練樣本的標(biāo)記是沒有指定的,通過對(duì)無標(biāo)記樣本的訓(xùn)練來探索數(shù)據(jù)之間的規(guī)律屈溉。其中應(yīng)用最廣的便是聚類贱迟,聚類試圖把一群未標(biāo)記數(shù)據(jù)劃分為一堆不相交的子集姐扮,每個(gè)子集叫做”簇“,每個(gè)簇可能對(duì)應(yīng)于一個(gè)類別標(biāo)簽衣吠,但值得注意的是茶敏,這個(gè)標(biāo)簽僅僅是我們?nèi)藶橹付◤?qiáng)加的,并不是數(shù)據(jù)本身就存在這樣的標(biāo)簽缚俏。例如音樂軟件對(duì)音樂的曲分或者流派進(jìn)行聚類惊搏,可以劃分為傷感贮乳,輕快等一系列標(biāo)簽,但是這個(gè)曲分只是人為加上的恬惯,音樂本身并不知道自己被分為了什么曲分向拆。

那聚類該如何做性能度量呢?在機(jī)器學(xué)習(xí)中我們都需要對(duì)任務(wù)進(jìn)行評(píng)價(jià)以便于進(jìn)行下一步的優(yōu)化酪耳。分類和回歸都有自己的評(píng)估準(zhǔn)則浓恳,包括準(zhǔn)確率,精確度葡兑,召回率等奖蔓,聚類中的性能度量也同樣有這樣的指標(biāo)來評(píng)價(jià)聚類的性能。

考慮聚類的任務(wù)的目的讹堤,容易想到就是”物以類聚“吆鹤,即達(dá)到”簇內(nèi)相似度高“,”簇間相似度低“的性能效果洲守。具體的性能度量有兩類疑务,一類是外部指標(biāo),與某個(gè)專家給定的參考模型進(jìn)行比對(duì)梗醇,另一類是內(nèi)部指標(biāo)知允,只考慮自己聚類之后的結(jié)果。

外部指標(biāo)

外部指標(biāo)需要一個(gè)參考模型叙谨,這個(gè)參考模型通常是由專家給定的温鸽,或者是公認(rèn)的參考模型比如公開數(shù)據(jù)集。對(duì)于聚類的結(jié)果所形成的簇集合(這里叫做簇C)手负,對(duì)于參考模型的簇集合(這里叫做D)涤垫,對(duì)這兩個(gè)模型結(jié)果的樣本進(jìn)行兩兩配對(duì)比較,可得到如下顯而易見的數(shù)據(jù)竟终。

a = 在C中屬于相同簇且在D中屬于相同簇的樣本對(duì)的數(shù)量蝠猬。
b = 在C中屬于相同簇且在D中屬于不同簇的樣本對(duì)的數(shù)量。
c = 在C中屬于不同簇且在D中屬于相同簇的樣本對(duì)的數(shù)量统捶。
d = 在C中屬于不同簇且在D中屬于不同簇的樣本對(duì)的數(shù)量榆芦。

對(duì)這里的abcd,不考慮一個(gè)樣本屬于多個(gè)簇的情況喘鸟,因此每個(gè)樣本都只能出現(xiàn)在一個(gè)集合中匆绣,所以a+b+c+d=m(m-1)/2。(m為樣本總數(shù))

由此可以導(dǎo)出幾個(gè)常見的外部性能指標(biāo)迷守,Jaccard系數(shù)犬绒,F(xiàn)M指數(shù),Rand指數(shù)兑凿。

Jaccard指數(shù)(簡稱JC)常用來表示集合之間的相似性和差異性凯力,常常被定義為集合交集大小與集合并集大小的比值茵瘾,因此也常被叫做并交比。其公式為
Jaccard index

FM指數(shù)(簡稱FMI)
FMI

Rand指數(shù)(Rand Index咐鹤,簡稱RI)
RI

RI和Jaccard系數(shù)十分相似拗秘,只是所比較的范圍不同而已。這里每個(gè)指標(biāo)的值均在0-1之間祈惶,顯然值越大說明聚類效果越好雕旨。

內(nèi)部指標(biāo)

內(nèi)部指標(biāo)則只考慮聚類之后這些簇之間的效果,通常用距離來度量捧请。

avg(C):簇C樣本間的平均距離
diam(C):簇C樣本間的最遠(yuǎn)距離
dmin(ci,cj):簇間最近樣本間的距離
dcen(ci,jc):簇間中心點(diǎn)之間的距離

使用這些簇間的距離指標(biāo)也可以導(dǎo)出幾個(gè)常見的性能度量內(nèi)部指標(biāo)凡涩,DB指數(shù),Dunn指數(shù)疹蛉。

DB指數(shù)(簡稱DBI)
DBI

Dunn指數(shù)(簡稱DI)
Dunn指數(shù)

顯然活箕,DBI的值越小越好,而DI的值越大越好可款。

距離度量

計(jì)算簇之間的相似性和差異性時(shí)常常要使用距離來進(jìn)行度量育韩,內(nèi)部指標(biāo)也都是以距離度量為基礎(chǔ)的。

距離常常分為度量距離和非度量距離闺鲸,其中度量距離滿足非負(fù)性筋讨,對(duì)稱性,直遞性(三角不等式)摸恍,而非度量距離往往不滿足直遞性悉罕。舉個(gè)例子,人馬和人很像立镶,人馬也和馬和像蛮粮,但是人和馬的差距非常大,即不滿足三角不等式谜慌,所以這個(gè)距離為非距離度量。

而對(duì)于屬性可以分為連續(xù)屬性和離散屬性莺奔,但這個(gè)分類法對(duì)距離度量沒有多大意義欣范。在考慮距離的時(shí)候,屬性更多的是考慮有序性令哟,例如高恼琼,中,矮是有序的屏富,即高>中>矮晴竞。但是金魚,鯉魚狠半,草魚這些便是沒有順序的噩死,無法對(duì)這些魚的品種來比較順序颤难。

對(duì)于有序?qū)傩裕覀冏畛J褂玫氖情h科夫斯基距離

閔科夫斯基距離

而當(dāng)p取不同值的時(shí)候已维,便可得到實(shí)際使用的距離度量行嗤。
當(dāng)p=1時(shí),為曼哈頓距離
曼哈頓距離

當(dāng)p=2時(shí)垛耳,為歐式距離
歐式距離

當(dāng)p=無窮大時(shí)栅屏,為切比雪夫距離
切比雪夫距離

對(duì)于無序?qū)傩裕褂肰DM(Value Difference Metric)來表示堂鲜,令m_{u,a}表示在屬性u(píng)上取值為a的樣本數(shù)栈雳,m_{u,a,i}表示在第i個(gè)樣本簇中在屬性u(píng)上取值為a的樣本數(shù),k為樣本簇?cái)?shù)缔莲,則屬性u(píng)上兩個(gè)離散值a,b的VDN距離為:
VDM_{p}=\sum_{i=1}^{k}\left | \frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}} \right |

對(duì)于包含有序?qū)傩院蜔o序?qū)傩缘幕旌蠈傩詠碚f哥纫,只需要把閔科夫斯基距離和VDM聯(lián)合起來就行了
混合距離

而對(duì)于多個(gè)具有不同重要性的屬性來說,只需要使用加權(quán)距離就可以了


加權(quán)距離

以上的距離都是事先就計(jì)算好的酌予,有的距離的度量方法需要通過學(xué)習(xí)數(shù)據(jù)中的特征來獲得距離磺箕,這就屬于”距離度量學(xué)習(xí)“的范疇了。

歡迎大家關(guān)注公眾號(hào)“計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)”


計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末抛虫,一起剝皮案震驚了整個(gè)濱河市松靡,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌建椰,老刑警劉巖雕欺,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異棉姐,居然都是意外死亡屠列,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門伞矩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來笛洛,“玉大人,你說我怎么就攤上這事乃坤】寥茫” “怎么了?”我有些...
    開封第一講書人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵湿诊,是天一觀的道長狱杰。 經(jīng)常有香客問我,道長厅须,這世上最難降的妖魔是什么仿畸? 我笑而不...
    開封第一講書人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上错沽,老公的妹妹穿的比我還像新娘簿晓。我一直安慰自己,他們只是感情好甥捺,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開白布抢蚀。 她就那樣靜靜地躺著,像睡著了一般镰禾。 火紅的嫁衣襯著肌膚如雪皿曲。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,246評(píng)論 1 308
  • 那天吴侦,我揣著相機(jī)與錄音屋休,去河邊找鬼。 笑死备韧,一個(gè)胖子當(dāng)著我的面吹牛劫樟,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播织堂,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼叠艳,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了易阳?” 一聲冷哼從身側(cè)響起附较,我...
    開封第一講書人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎潦俺,沒想到半個(gè)月后拒课,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡事示,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年早像,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肖爵。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡卢鹦,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出劝堪,到底是詐尸還是另有隱情法挨,我是刑警寧澤,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布幅聘,位于F島的核電站,受9級(jí)特大地震影響窃植,放射性物質(zhì)發(fā)生泄漏帝蒿。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一巷怜、第九天 我趴在偏房一處隱蔽的房頂上張望葛超。 院中可真熱鬧暴氏,春花似錦、人聲如沸绣张。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽侥涵。三九已至沼撕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間芜飘,已是汗流浹背务豺。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留嗦明,地道東北人笼沥。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像娶牌,于是被迫代替她去往敵國和親奔浅。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 1. 章節(jié)主要內(nèi)容 “聚類”(clustering)算法是“無監(jiān)督學(xué)習(xí)”算法中研究最多诗良、應(yīng)用最廣的算法汹桦,它試圖將數(shù)...
    閃電隨筆閱讀 5,049評(píng)論 1 24
  • 一、關(guān)鍵詞:人流累榜。 昨天分享了一篇關(guān)于性教育的文章营勤,通過文章可以看出,及時(shí)的性教育對(duì)于孩子的未來健康成長是有至關(guān)重...
    上成讀書閱讀 478評(píng)論 0 2
  • 應(yīng)原長順中街大部分鄰居的要求壹罚,大家計(jì)劃在冬天到來之前再聚一聚葛作。群主鐘四哥與大家協(xié)商,決定將地點(diǎn)定在長順中街附近猖凛,時(shí)...
    晚晴_fe62閱讀 255評(píng)論 0 0
  • 識(shí)有種學(xué)識(shí)叫聲望有種知識(shí)叫價(jià)值德才兼?zhèn)涫侨宋餆o知無識(shí)則平庸圖片發(fā)自簡書App 偽用虛榮掩蓋無知用虛偽披掛外衣以珠寶...
    豫視西影閱讀 427評(píng)論 2 3
  • 前沿 我們應(yīng)該知道赂蠢,區(qū)塊鏈的本質(zhì)是一個(gè)去中心化的分布式記賬系統(tǒng)。而共識(shí)機(jī)制就是解決如何在去中心化辨泳、分布式的前提下來...
    嘮嗑008閱讀 275評(píng)論 0 1