Hierarchical 聚類原理

層次聚類(hierarchical clustering)通常和熱圖(heatmap)密切相關(guān)。

繪制熱圖前榄鉴,通常需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理财著。

關(guān)于數(shù)據(jù)標(biāo)準(zhǔn)化處理的內(nèi)容诵冒,改天再補(bǔ)充耕皮。

層次聚類過程

假設(shè)我們現(xiàn)在有一個(gè)4×3的表達(dá)矩陣境蜕,希望對不同Gene進(jìn)行聚類分析。

第一步凌停,找出哪個(gè)Gene同Gene 1最相似汽摹;

通過顏色(表達(dá)值)很容易判斷出Gene 1和Gene 2不相似,Gene 1和Gene 3/4相似苦锨,并且Gene 1和Gene 3的相似度是最大的

第二步,判斷出Gene 2和Gene 4最為相似(然后依次判斷Gene3/4的最似Gene)

第三步,在上述那些最似組合中舟舒,判斷出哪兩個(gè)Gene相似度最高拉庶,并將它們合并為一簇

在這里,Gene 1/3之間的相似度最高

第四步秃励,重復(fù)第一至三步氏仗,只是現(xiàn)在需要將Cluster 1看作一個(gè)單位;通過比較發(fā)現(xiàn)Cluster 1同Gene 4最似

之后夺鲜,我們依次獲得皆尔,Gene 2 同Gene 4最似,Gene 4同Gene 2最似币励;其中Gene 2和Gene 4的相似度最高慷蠕,合并為一簇

第五步,由于只剩下兩個(gè)Cluster食呻,所以我們將Cluster 1/2合并為Cluster 3

系統(tǒng)樹構(gòu)建

層次聚類結(jié)果通常伴隨系統(tǒng)樹一起展示流炕,系統(tǒng)樹不僅可以表現(xiàn)變量之間的相似性,也可以表明cluster形成順序仅胞。

圖片上把cluster1 2 3 標(biāo)記來

上圖中每辟,Cluster 1分枝最短,表明其最先形成干旧,它包含的兩個(gè)變量相似度最大渠欺;Cluster 2分枝次短,它是第二個(gè)形成的椎眯,它包含的兩個(gè)變量形似度也是第二相似挠将;Cluster 3包含所有變量,分枝最長盅视,是最后一個(gè)形成的捐名。

相似性計(jì)算原理

歐式距離

假設(shè)現(xiàn)在有一個(gè)2×2的表達(dá)矩陣

Gene 1/2的歐氏距離(Euclidean distance)為

\sqrt{(1.6-(-0.5))^2+(0.5-(-1.9))^2},最終計(jì)算得出數(shù)值為3.2闹击。

如果有3個(gè)樣本的話镶蹋,只需要延長公式即可

其他可用來度量距離的方法有曼哈頓距離(manhattan distance)

二者的計(jì)算結(jié)果存在些許差異,沒有絕對意義上誰優(yōu)勝于誰赏半,可以根據(jù)自己的需求來選擇(哪種方法得到的結(jié)果好就選哪個(gè))

cluster比較

前面說到贺归,通過比較發(fā)現(xiàn)Gene 1/3之間相似性最大,然后將二者合并為Cluster 1,之后會(huì)用culster 1同其他基因繼續(xù)比較断箫。那么如何在cluter之間進(jìn)行比較呢拂酣?

假設(shè)現(xiàn)在已經(jīng)有兩個(gè)cluster,綠色和橘色仲义,現(xiàn)在需要判斷灰色點(diǎn)屬于哪一個(gè)cluster婶熬。

1.重心法(centroid) :比較灰色點(diǎn)同每個(gè)cluster的中心距離

2.最短距離法(single-linkage) :比較灰色點(diǎn)同每個(gè)cluster最臨近點(diǎn)的距離

3.最長距離法(complete-linkage) :比較灰色點(diǎn)同每個(gè)cluster最遠(yuǎn)處點(diǎn)的距離

R語言中hclust函數(shù)的默認(rèn)方法為complete-linkage

不同方法比較出來的cluster也存在些許區(qū)別剑勾,一般不用過多關(guān)注,選擇層次聚類軟件的默認(rèn)設(shè)置就可以了赵颅。

Reference

https://www.youtube.com/watch?v=oMtDyOn2TCc

申明

本文是根據(jù)StatQuest系列視頻整理而來
已獲得Josh Starmer授權(quán)說明
感謝久久瓊殷不辭辛苦將視頻轉(zhuǎn)載至B站

Permmsion

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末虽另,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子饺谬,更是在濱河造成了極大的恐慌捂刺,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,639評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件募寨,死亡現(xiàn)場離奇詭異族展,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)拔鹰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門仪缸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人格郁,你說我怎么就攤上這事腹殿。” “怎么了例书?”我有些...
    開封第一講書人閱讀 157,221評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵锣尉,是天一觀的道長。 經(jīng)常有香客問我决采,道長自沧,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,474評(píng)論 1 283
  • 正文 為了忘掉前任树瞭,我火速辦了婚禮拇厢,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘晒喷。我一直安慰自己孝偎,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評(píng)論 6 386
  • 文/花漫 我一把揭開白布凉敲。 她就那樣靜靜地躺著衣盾,像睡著了一般。 火紅的嫁衣襯著肌膚如雪爷抓。 梳的紋絲不亂的頭發(fā)上势决,一...
    開封第一講書人閱讀 49,816評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音蓝撇,去河邊找鬼果复。 笑死,一個(gè)胖子當(dāng)著我的面吹牛渤昌,可吹牛的內(nèi)容都是我干的虽抄。 我是一名探鬼主播走搁,決...
    沈念sama閱讀 38,957評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼迈窟!你這毒婦竟也來了朱盐?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,718評(píng)論 0 266
  • 序言:老撾萬榮一對情侶失蹤菠隆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后狂秘,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體骇径,經(jīng)...
    沈念sama閱讀 44,176評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評(píng)論 2 327
  • 正文 我和宋清朗相戀三年者春,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了破衔。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,646評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡钱烟,死狀恐怖晰筛,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情拴袭,我是刑警寧澤读第,帶...
    沈念sama閱讀 34,322評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站拥刻,受9級(jí)特大地震影響怜瞒,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜般哼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評(píng)論 3 313
  • 文/蒙蒙 一吴汪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蒸眠,春花似錦漾橙、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至臀晃,卻和暖如春觉渴,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背徽惋。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評(píng)論 1 266
  • 我被黑心中介騙來泰國打工案淋, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人险绘。 一個(gè)月前我還...
    沈念sama閱讀 46,358評(píng)論 2 360
  • 正文 我出身青樓踢京,卻偏偏與公主長得像誉碴,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子瓣距,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評(píng)論 2 348