文章簡(jiǎn)介
摘要
- 功能富集分析是生信分析基礎(chǔ)的方法鲸睛,對(duì)揭示感興趣基因參與的生物進(jìn)程至關(guān)重要颠猴,但是富集結(jié)果又長(zhǎng)又冗余 很難總結(jié)
- 目前簡(jiǎn)化富集分析結(jié)果的方法是通過(guò)聚類关划,但是在不同cluster之間仍有冗余,cluster內(nèi)部不能保留一致
-
作者提出了二分法聚類翘瓮,cluster內(nèi)一致性較好贮折,cluster間互斥。這種二分法聚類 如果依據(jù)詞義相似性結(jié)果較好资盅,如果基于 gene overlap表現(xiàn)出較差的一致性
背景介紹
- 現(xiàn)有針對(duì)富集結(jié)果進(jìn)行聚類方法大體有三種:1. 基于overlap gene 2. 基于terms之間詞義相似性 3. 對(duì)于GO結(jié)果调榄,綜合考慮有向無(wú)環(huán)圖和詞義相似性
- 基礎(chǔ)的方法是基于gene overlap,更先進(jìn)方法 會(huì)考慮基因集相似性來(lái) 進(jìn)行對(duì)富集結(jié)果進(jìn)行聚類,聚類的方法多樣
- 基于基因集相似性聚類會(huì)有一些問(wèn)題例如:
- 對(duì)GO富集結(jié)果進(jìn)行聚類律姨,由于GO結(jié)果是有層級(jí)關(guān)系的振峻,不同層級(jí)terms詞義相似性差異比較大,可能會(huì)導(dǎo)致大類趨向于有更小的相似性分?jǐn)?shù)择份,小類有更高的相似性分?jǐn)?shù)(GO結(jié)果中層級(jí)關(guān)系靠下的詞義相似性更高)
- 不同層級(jí)的terms聚類時(shí)扣孟,可能混在一起,A的子類可能會(huì)跟B聚在一起
- 基于基因集相似性聚類會(huì)有一些問(wèn)題例如:
-
對(duì)于一些聚類方法荣赶,會(huì)提取聚類結(jié)果中子集來(lái) 減少terms
simplifyEnrichment原理簡(jiǎn)介
- 使用binary cut進(jìn)行聚類凤价,在兩組間利用PAM進(jìn)行兩組劃分,并且每次迭代前分配一個(gè)分組/閾值來(lái)決定是否還需要?jiǎng)澐?選擇兩個(gè)數(shù)據(jù)點(diǎn)作為初始的中心點(diǎn)拔创,根據(jù)詞語(yǔ)相似性的值利诺,將各個(gè)數(shù)據(jù)點(diǎn)分配到兩個(gè)中心點(diǎn)中,?分成兩類剩燥,循環(huán)該步驟慢逾,設(shè)定閾值組間相似性閾值 退出循環(huán)立倍,得到聚類結(jié)果
- 該方法與其他方法進(jìn)行比較,cluster中比較相似侣滩,cluster間比較互斥
-
基于 ovlap gene做聚類 穩(wěn)定性不好
simplifyEnrichment可以實(shí)現(xiàn)
- 以詞云的方式對(duì)聚類結(jié)果可視化?方便用戶找到聚類中共享的生物功能
- 可以導(dǎo)出相關(guān)結(jié)果
-
可以自定義聚類算法 口注,利用該軟件進(jìn)行可視化
simplifyEnriment聚類過(guò)程
- 使用二分法根據(jù) functional terms 詞義相似性矩陣(默認(rèn)使用GOSemSim) 進(jìn)行聚類,分為兩步:
- 第一階段:利用分割聚類并生成樹(shù)形圖君珠,首先利用相似性矩陣寝志,使用PAM將數(shù)據(jù)(行和列)分成兩類,得到四個(gè)部分策添,在計(jì)算每部分的score==>計(jì)算代表 cluster間相似性與cluster內(nèi)部相似性的值標(biāo)注為s==>循環(huán)該聚類步驟,保存樹(shù)狀圖
-
第二階段:根據(jù)s的閾值來(lái)決定是否需要繼續(xù)聚類
具體方法可參考原文
simplifyEnrichment 聚類效果圖(摘自文獻(xiàn))
自用simplifyEnrichment小總結(jié)
- 使用詞義相似性聚類 結(jié)果比較符合預(yù)期
- 畫圖與聚類同時(shí)進(jìn)行材部,該過(guò)程稍慢
- 如果聚類結(jié)果 比較多,也可以從結(jié)果中篩選一部分關(guān)注的進(jìn)行畫圖
- 此種聚類方法為硬聚類唯竹,每個(gè)GO term只歸屬到一個(gè)cluster中
- 還有其他方法也可以實(shí)現(xiàn)類似功能乐导,eg:GOSemSim