凡事架不住親自跑一把——聚類算法篇

最近在看機器學習疗杉。想著這那的機器學習算法不就是一個個分類判別算法嗎?蚕礼!但它們大多沒能描述清楚內(nèi)在的結構烟具。就想著,從描述內(nèi)在結構的角度能不能搞出套算法來奠蹬。拿二維坐標上的點集分類練練手吧朝聋。

首先,看到一堆點集囤躁,人是怎么分類的呢玖翅?人看到的并不是各個點的坐標,而是它們之間的相互關系(遠近)割以。一個理想的分類算法結束的時候,內(nèi)部應該有一個結構對應這種關系应媚。

理想的劃分至少應該滿足這兩個條件吧:

  • 群落之間的距離應該盡可能大严沥;
  • 群落內(nèi)部的距離應該盡可能小中姜;

那么消玄,我們?nèi)绾味x這些個距離呢?「群落之間的距離」可以定義為:分屬不同群落的結點的最短距離丢胚。

而「群落內(nèi)部的距離」暫且先定義為:

我們先只考慮二分的情況翩瓜,一組劃分的得分可以這么定義:

得分越高,應該越接近人的直覺携龟。

但這個問題存在一個問題:當某個集合只有一個點時兔跌,根據(jù)d_in(S)的定義,其值為零峡蟋,則V()的值為坟桅。這里先略過吧


我們先隨機生成 10 個點測試一下:

num. x y
0 0.7250072248113352 0.6918674556852833
1 0.8848755951652081 0.46103430800321377
2 0.25686934593051614 0.3654236509121931
3 0.14727023823421648 0.6484006308621074
4 0.7204948792044977 0.17961644632138496
5 0.8945877982332864 0.4176191979853947
6 0.20413783912899097 0.3999350169560174
7 0.013751428920831588 0.2286960623435942
8 0.9593664284715295 0.5913802576287239
9 0.19519850392723048 0.7646584504057086
測試點集

反正我一眼看上去覺得應該是從中間剖開:(0, 1, 4, 5, 8)一組华望,(2, 3, 6, 7, 9)一組。

然后我就把這 10 個點所有二分的情況算了一遍仅乓,MB! 前五結果如下:

排名 | 得分 | 分組1 | 分組2
-----|----------------------|------------------------
1 | 1.3655563661214813 | 2, 6 | 0, 1, 3, 4, 5, 7, 8, 9
2 | 1.041780761128343 | 1, 5 | 0, 2, 3, 4, 6, 7, 8, 9
3 | 0.9991390772630108 | 0, 1, 4, 5, 8 | 2, 3, 6, 7, 9
4 | 0.8654202725096181 | 3, 9 | 0, 1, 2, 4, 5, 6, 7, 8
5 | 0.6481575237761811 | 1, 5, 8 | 0, 2, 3, 4, 6, 7, 9

你知道我的內(nèi)心有多么崩潰嗎赖舟?!?溟埂宾抓!

然后,我又試了下用「各點到質(zhì)心的距離之和」來替代「群落內(nèi)部的距離」豫喧。結果一個球樣

我什么也不想說了……


我怎么會告訴大家之前「想用最小生成樹來組織石洗,切掉最遠的邊」,結果失敗了這種事情嘿棘。

我怎么會告訴大家我連「羅列所有的二分可能」都想了好久劲腿,還復習了好一會排列組合這種事情。

我怎么會告訴大家 Ruby 語法忘得干干鸟妙,各種百度這種事情焦人。

……

手好生啊~~

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市重父,隨后出現(xiàn)的幾起案子花椭,更是在濱河造成了極大的恐慌,老刑警劉巖房午,帶你破解...
    沈念sama閱讀 218,386評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件矿辽,死亡現(xiàn)場離奇詭異,居然都是意外死亡郭厌,警方通過查閱死者的電腦和手機袋倔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來折柠,“玉大人宾娜,你說我怎么就攤上這事∩仁郏” “怎么了前塔?”我有些...
    開封第一講書人閱讀 164,704評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長承冰。 經(jīng)常有香客問我华弓,道長,這世上最難降的妖魔是什么困乒? 我笑而不...
    開封第一講書人閱讀 58,702評論 1 294
  • 正文 為了忘掉前任寂屏,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘凑保。我一直安慰自己冈爹,他們只是感情好,可當我...
    茶點故事閱讀 67,716評論 6 392
  • 文/花漫 我一把揭開白布欧引。 她就那樣靜靜地躺著频伤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪芝此。 梳的紋絲不亂的頭發(fā)上憋肖,一...
    開封第一講書人閱讀 51,573評論 1 305
  • 那天,我揣著相機與錄音婚苹,去河邊找鬼岸更。 笑死,一個胖子當著我的面吹牛膊升,可吹牛的內(nèi)容都是我干的怎炊。 我是一名探鬼主播,決...
    沈念sama閱讀 40,314評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼廓译,長吁一口氣:“原來是場噩夢啊……” “哼评肆!你這毒婦竟也來了?” 一聲冷哼從身側響起非区,我...
    開封第一講書人閱讀 39,230評論 0 276
  • 序言:老撾萬榮一對情侶失蹤瓜挽,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后征绸,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體久橙,經(jīng)...
    沈念sama閱讀 45,680評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,873評論 3 336
  • 正文 我和宋清朗相戀三年管怠,在試婚紗的時候發(fā)現(xiàn)自己被綠了淆衷。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,991評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡渤弛,死狀恐怖吭敢,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情暮芭,我是刑警寧澤,帶...
    沈念sama閱讀 35,706評論 5 346
  • 正文 年R本政府宣布欲低,位于F島的核電站辕宏,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏砾莱。R本人自食惡果不足惜瑞筐,卻給世界環(huán)境...
    茶點故事閱讀 41,329評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望腊瑟。 院中可真熱鬧聚假,春花似錦块蚌、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至瘪贱,卻和暖如春纱控,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背菜秦。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評論 1 270
  • 我被黑心中介騙來泰國打工甜害, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人球昨。 一個月前我還...
    沈念sama閱讀 48,158評論 3 370
  • 正文 我出身青樓尔店,卻偏偏與公主長得像,于是被迫代替她去往敵國和親主慰。 傳聞我的和親對象是個殘疾皇子嚣州,可洞房花燭夜當晚...
    茶點故事閱讀 44,941評論 2 355

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,139評論 25 707
  • 1. 章節(jié)主要內(nèi)容 “聚類”(clustering)算法是“無監(jiān)督學習”算法中研究最多、應用最廣的算法河哑,它試圖將數(shù)...
    閃電隨筆閱讀 5,040評論 1 24
  • 其實這篇文章幾天前就應該發(fā)出來的避诽。沒辦法啊,我太懶了璃谨,這一懶就懶沒了生命里的前二十一個春秋沙庐。 是的,我二十一歲了佳吞,...
    R先森airy閱讀 1,420評論 25 36
  • 【工具拱雏,馬可油性彩鉛7100,炭筆底扳,橡皮铸抑,2B鉛筆,簽字筆衷模∪笛矗】 推著畫。有步驟阱冶。 老規(guī)矩刁憋。放一張完整圖。 ①從頭開...
    木衛(wèi)十閱讀 959評論 16 37
  • 10.1.2 自定義PHP的錯誤報告處理方式 自定義錯誤報告的處理方式木蹬,可以完全繞過標準的PHP錯誤處理函數(shù)至耻,這樣...
    曹淵說創(chuàng)業(yè)閱讀 390評論 0 0