機(jī)器學(xué)習(xí)day18聚類算法評(píng)價(jià)

聚類算法評(píng)估

假設(shè)沒有外部標(biāo)簽數(shù)據(jù),我們怎么評(píng)價(jià)不同聚類算法的優(yōu)劣?

非監(jiān)督學(xué)習(xí)往往沒有標(biāo)注數(shù)據(jù)顺献,這是模型,算法的設(shè)計(jì)直接影響最終的輸出和模型的性能薪伏。為了評(píng)估不同的聚類算法滚澜,我們可以從簇下手粗仓。

  • 以中心定義的數(shù)據(jù)簇嫁怀,這類數(shù)據(jù)集體傾向于球形分布,中心往往被定義為質(zhì)心借浊,即此數(shù)據(jù)簇所有點(diǎn)的平均值塘淑。集合中數(shù)據(jù)到中心的距離相比到其他簇中心的距離更近。
  • 以密度定義的數(shù)據(jù)簇蚂斤,這類數(shù)據(jù)集合呈現(xiàn)和周圍數(shù)據(jù)簇明顯不同的密度存捺,或稠密,也可能稀疏曙蒸。當(dāng)數(shù)據(jù)簇不規(guī)則或者相互盤繞捌治,由噪聲,離群點(diǎn)纽窟,這是一般使用密度的簇定義肖油。
  • 以連通定義的簇,這類數(shù)據(jù)集合中的數(shù)據(jù)點(diǎn)和數(shù)據(jù)點(diǎn)之間有連接關(guān)系臂港,整個(gè)數(shù)據(jù)簇表現(xiàn)為圖結(jié)構(gòu)森枪,該定義對(duì)不規(guī)則的形狀或者纏繞的數(shù)據(jù)簇有效
  • 以概念定義的數(shù)據(jù)簇,這類數(shù)據(jù)集合中的所有數(shù)據(jù)點(diǎn)具有某種共同的性質(zhì)审孽。

每種情況都需要不同的評(píng)估方法县袱,比如K均值聚類可以使用平方誤差和來評(píng)估。
聚類評(píng)估的認(rèn)識(shí)是估計(jì)在數(shù)據(jù)集上進(jìn)行聚類的可行性佑力,以及聚類方法產(chǎn)生結(jié)果的質(zhì)量式散,這一過程又分為三個(gè)子任務(wù)。

  1. 估計(jì)聚類趨勢
    這一步是檢測數(shù)據(jù)分布中是否存在非隨機(jī)的簇結(jié)構(gòu)打颤,如果數(shù)據(jù)根據(jù)就是隨機(jī)的暴拄,那么聚類的結(jié)果毫無意義。我們可以通過增加聚類類別的數(shù)量瘸洛,如果數(shù)據(jù)是基本隨機(jī)的揍移,即不存在合適的簇結(jié)構(gòu),那么聚類誤差隨聚類類別數(shù)量增加而變化的幅度不大反肋,也就找不到一個(gè)合適的K對(duì)應(yīng)數(shù)據(jù)的真實(shí)簇?cái)?shù)那伐。

  2. 判定數(shù)據(jù)簇?cái)?shù)
    確定聚類趨勢之后,我們需要找到與真實(shí)數(shù)據(jù)分布最吻合的簇?cái)?shù),據(jù)此判定聚類結(jié)果的質(zhì)量罕邀。

  3. 測定聚類質(zhì)量
    給定預(yù)設(shè)的簇?cái)?shù)畅形,不同的聚類算法將其輸出不同的結(jié)果,我們需要判定聚類結(jié)果的質(zhì)量诉探。一般采用下面的指標(biāo)日熬。

    • 輪廓系數(shù),給定一個(gè)點(diǎn)p肾胯,該點(diǎn)的輪廓系數(shù)定義為
      s(p)=\frac {b(p)-a(p)}{max\{a(p),b(p)\}}
      其中a(p)是點(diǎn)p與同一簇的其他點(diǎn)之間的平均距離竖席,b(p)是點(diǎn)p與另一個(gè)不同簇的點(diǎn)之間的最小平均距離。a(p)反應(yīng)了所屬簇的數(shù)據(jù)緊湊程度敬肚,b(p)反應(yīng)的是該簇與其他臨近簇的分離程度毕荐。b(p)越大,a(p)越小艳馒,對(duì)應(yīng)的聚類質(zhì)量越好憎亚,因此我們將所有點(diǎn)對(duì)應(yīng)的輪廓系數(shù)s(p)求平均值來度量聚類結(jié)果的質(zhì)量。
    • 均方差標(biāo)準(zhǔn)偏差弄慰,用來衡量聚類結(jié)果的緊湊程度第美,定義如下
      RMSSTD=\{\frac{\sum_i\sum_{x \in C_i }||x-c_i||^2}{P\sum_i(n_i-1)}\}^2
      其中C_i代表第i個(gè)簇,c_i是該簇的中心陆爽,x \in C_i代表屬于第i簇的一個(gè)樣本點(diǎn)什往,n_i為第i個(gè)簇的樣本數(shù)量,P為樣本點(diǎn)對(duì)應(yīng)的向量維數(shù)墓陈。RMSSTD可以看成一個(gè)歸一化的標(biāo)準(zhǔn)差恶守。\sum_i(n_i-1)=n-NC,通常NC\ll n贡必,因此\sum_i(n_i-1)是一個(gè)接近點(diǎn)的總數(shù)的數(shù)兔港,可以看成常數(shù)。
    • R方仔拟,略
    • 改進(jìn)Hubert\Gamma統(tǒng)計(jì)衫樊,略
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市利花,隨后出現(xiàn)的幾起案子科侈,更是在濱河造成了極大的恐慌,老刑警劉巖炒事,帶你破解...
    沈念sama閱讀 218,755評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件臀栈,死亡現(xiàn)場離奇詭異,居然都是意外死亡挠乳,警方通過查閱死者的電腦和手機(jī)权薯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門姑躲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人盟蚣,你說我怎么就攤上這事黍析。” “怎么了屎开?”我有些...
    開封第一講書人閱讀 165,138評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵阐枣,是天一觀的道長。 經(jīng)常有香客問我奄抽,道長蔼两,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,791評(píng)論 1 295
  • 正文 為了忘掉前任如孝,我火速辦了婚禮宪哩,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘第晰。我一直安慰自己,他們只是感情好彬祖,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評(píng)論 6 392
  • 文/花漫 我一把揭開白布茁瘦。 她就那樣靜靜地躺著,像睡著了一般储笑。 火紅的嫁衣襯著肌膚如雪甜熔。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,631評(píng)論 1 305
  • 那天突倍,我揣著相機(jī)與錄音腔稀,去河邊找鬼。 笑死羽历,一個(gè)胖子當(dāng)著我的面吹牛焊虏,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播秕磷,決...
    沈念sama閱讀 40,362評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼诵闭,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了澎嚣?” 一聲冷哼從身側(cè)響起疏尿,我...
    開封第一講書人閱讀 39,264評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎易桃,沒想到半個(gè)月后褥琐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,724評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡晤郑,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年敌呈,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了嚼鹉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,040評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡驱富,死狀恐怖锚赤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情褐鸥,我是刑警寧澤线脚,帶...
    沈念sama閱讀 35,742評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站叫榕,受9級(jí)特大地震影響浑侥,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜晰绎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評(píng)論 3 330
  • 文/蒙蒙 一寓落、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧荞下,春花似錦伶选、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至抽诉,卻和暖如春陨簇,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背迹淌。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評(píng)論 1 270
  • 我被黑心中介騙來泰國打工河绽, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人唉窃。 一個(gè)月前我還...
    沈念sama閱讀 48,247評(píng)論 3 371
  • 正文 我出身青樓耙饰,卻偏偏與公主長得像,于是被迫代替她去往敵國和親句携。 傳聞我的和親對(duì)象是個(gè)殘疾皇子榔幸,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評(píng)論 2 355