層次聚類(hierarchical clustering)通常和熱圖(heatmap)密切相關(guān)。
繪制熱圖前榄鉴,通常需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理财著。
關(guān)于數(shù)據(jù)標(biāo)準(zhǔn)化處理的內(nèi)容诵冒,改天再補(bǔ)充耕皮。
層次聚類過程
假設(shè)我們現(xiàn)在有一個(gè)4×3的表達(dá)矩陣境蜕,希望對不同Gene進(jìn)行聚類分析。
第一步凌停,找出哪個(gè)Gene同Gene 1最相似汽摹;
通過顏色(表達(dá)值)很容易判斷出Gene 1和Gene 2不相似,Gene 1和Gene 3/4相似苦锨,并且Gene 1和Gene 3的相似度是最大的
第二步,判斷出Gene 2和Gene 4最為相似(然后依次判斷Gene3/4的最似Gene)
第三步,在上述那些最似組合中舟舒,判斷出哪兩個(gè)Gene相似度最高拉庶,并將它們合并為一簇
在這里,Gene 1/3之間的相似度最高
第四步秃励,重復(fù)第一至三步氏仗,只是現(xiàn)在需要將Cluster 1看作一個(gè)單位;通過比較發(fā)現(xiàn)Cluster 1同Gene 4最似
之后夺鲜,我們依次獲得皆尔,Gene 2 同Gene 4最似,Gene 4同Gene 2最似币励;其中Gene 2和Gene 4的相似度最高慷蠕,合并為一簇
第五步,由于只剩下兩個(gè)Cluster食呻,所以我們將Cluster 1/2合并為Cluster 3
系統(tǒng)樹構(gòu)建
層次聚類結(jié)果通常伴隨系統(tǒng)樹一起展示流炕,系統(tǒng)樹不僅可以表現(xiàn)變量之間的相似性,也可以表明cluster形成順序仅胞。
圖片上把cluster1 2 3 標(biāo)記來
上圖中每辟,Cluster 1分枝最短,表明其最先形成干旧,它包含的兩個(gè)變量相似度最大渠欺;Cluster 2分枝次短,它是第二個(gè)形成的椎眯,它包含的兩個(gè)變量形似度也是第二相似挠将;Cluster 3包含所有變量,分枝最長盅视,是最后一個(gè)形成的捐名。
相似性計(jì)算原理
歐式距離
假設(shè)現(xiàn)在有一個(gè)2×2的表達(dá)矩陣
Gene 1/2的歐氏距離(Euclidean distance)為
即,最終計(jì)算得出數(shù)值為3.2闹击。
如果有3個(gè)樣本的話镶蹋,只需要延長公式即可
其他可用來度量距離的方法有曼哈頓距離(manhattan distance)
二者的計(jì)算結(jié)果存在些許差異,沒有絕對意義上誰優(yōu)勝于誰赏半,可以根據(jù)自己的需求來選擇(哪種方法得到的結(jié)果好就選哪個(gè))
cluster比較
前面說到贺归,通過比較發(fā)現(xiàn)Gene 1/3之間相似性最大,然后將二者合并為Cluster 1,之后會(huì)用culster 1同其他基因繼續(xù)比較断箫。那么如何在cluter之間進(jìn)行比較呢拂酣?
假設(shè)現(xiàn)在已經(jīng)有兩個(gè)cluster,綠色和橘色仲义,現(xiàn)在需要判斷灰色點(diǎn)屬于哪一個(gè)cluster婶熬。
1.重心法(centroid) :比較灰色點(diǎn)同每個(gè)cluster的中心距離
2.最短距離法(single-linkage) :比較灰色點(diǎn)同每個(gè)cluster最臨近點(diǎn)的距離
3.最長距離法(complete-linkage) :比較灰色點(diǎn)同每個(gè)cluster最遠(yuǎn)處點(diǎn)的距離
R語言中
hclust
函數(shù)的默認(rèn)方法為complete-linkage
不同方法比較出來的cluster也存在些許區(qū)別剑勾,一般不用過多關(guān)注,選擇層次聚類軟件的默認(rèn)設(shè)置就可以了赵颅。
Reference
https://www.youtube.com/watch?v=oMtDyOn2TCc
申明
本文是根據(jù)StatQuest系列視頻整理而來
已獲得Josh Starmer授權(quán)說明
感謝久久瓊殷不辭辛苦將視頻轉(zhuǎn)載至B站