內(nèi)容包括
A.使用ToppFun進行基因列表富集分析
B.使用ToppGene基于訓(xùn)練集基因的功能相似性進行疾病基因優(yōu)先排序
C.使用ToppNet基于PPIN的拓撲性質(zhì)對疾病基因進行優(yōu)先排序
D.使用ToppGenet基于PPIN對種子基因或訓(xùn)練集中的基因進行識別并優(yōu)先級排序
E.ToppCluster(重點介紹涧偷,包括作者文章解讀)
----------------------------------------
ToppGene Suite相關(guān)論文
2007.12:Improved human disease candidate gene prioritization using mouse phenotype
2008.2:Disease candidate gene identification and prioritization using protein interaction networks
2009.9:ToppGene Suite for gene list enrichment analysis and candidate gene prioritization
2010.2:ToppCluster: a multiple gene list feature analyzer for comparative enrichment clustering and network-based dissection of biological systems
一站式分析:基于功能注釋和蛋白相互作用網(wǎng)絡(luò)的基因列表富集分析添吗,候選基因優(yōu)先化。
ToppGene是一站式門戶工具(網(wǎng)站),可以
- Gene列表功能富集分析
- 使用功能注釋或網(wǎng)絡(luò)分析或兩者同時使用進行候選基因優(yōu)先排序
- 識別和優(yōu)先化排序novel疾病候選gene(在interactome)
基于疾病候選基因的優(yōu)先化功能注釋使用fuzzy-based相似性方法來計算基于語義注釋的任何兩個基因之間的相似性寂呛。使用統(tǒng)計元分析將來自個體特征的相似性分數(shù)組合成總分坯汤。測試基因的每個注釋的p值是通過從整個基因組隨機抽樣得到的。 基于蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPIN)的疾病候選基因優(yōu)先化使用社會和網(wǎng)絡(luò)分析算法(PageRank和HITS算法的擴展版本善延,以及K-Step馬爾科夫方法)少态。
- 識別和優(yōu)先化排序novel疾病候選gene(在interactome)
ToppGene Suite應(yīng)用程序中工作流程和方法的示意圖(A)基于其屬性或當前基因注釋(與疾病,表型易遣,通路彼妻,轉(zhuǎn)錄因子或GO術(shù)語相關(guān)的基因)來選擇訓(xùn)練集中的基因。 (B)測試集基因來源可以是來自連鎖分析研究的候選基因或在特定疾病或表型中差異表達的基因或來自相互作用組的基因豆茫。 (C)ToppFun - 基因注釋和序列特征的富集terms侨歉,即GO:分子功能,GO:生物學過程揩魂,小鼠表型幽邓,通路,蛋白質(zhì)相互作用肤京,蛋白質(zhì)結(jié)構(gòu)域颊艳,轉(zhuǎn)錄因子結(jié)合位點,miRNA-靶基因忘分,基因疾病相關(guān)性棋枕,藥物 - 基因相互作用和基因表達(Gene Expression),并且還用于構(gòu)建訓(xùn)練集基因譜妒峦。 (C和D)ToppGene - 通過與訓(xùn)練集中的富集terms進行比較重斑,為每個測試基因的每個注釋生成相似性分數(shù)。然后基于十四個相似性分數(shù)的總計值計算最終的優(yōu)先化基因列表肯骇。 (E和F)ToppNet - 訓(xùn)練和測試集基因被映射到蛋白質(zhì) - 蛋白質(zhì)相互作用網(wǎng)絡(luò)窥浪。在PPIN中使用全局網(wǎng)絡(luò)距離測量方法,基于相對于所有訓(xùn)練集基因的相對位置對測試集基因進行得分和排序笛丙。
以下是ToppGene Suite應(yīng)用程序列表以及使用它們的分步說明指南漾脂。
A.使用ToppFun對基因列表進行富集分析
B.使用ToppGene對疾病基因優(yōu)先性排序(基于訓(xùn)練集基因的功能相似性)
C.使用ToppNet對疾病基因優(yōu)先性排序(基于PPIN拓撲性質(zhì))
D.使用ToppGenet確定PPIN中“種子”或訓(xùn)練集的相鄰基因并對其進行優(yōu)先排序
--------------------------------------------------------------------
A 使用ToppFun進行基因列表富集分析
問題:對肝再生相關(guān)基因進行基因列表富集分析
1.主頁點擊第一個鏈接,ToppFun胚鸯。骨稿。。。坦冠。
-
2.按提示輸入(有example)形耗,可以輸入很多類型,提交
-
3.提交后有下面界面辙浑,其中correction和p-value部分都可以進行設(shè)置激涤。
4.如果輸入的基因列表包含同義詞或別名而不是系統(tǒng)支持的人類基因symbol,會有一個列表出現(xiàn)判呕,可以選擇支持的symbol倦踢。點擊start
5.稍等一會就會出現(xiàn)result界面。包括GO:MF,BP,CC,人類表型侠草,小鼠表型硼一,domain,通路梦抢,pubmed,interaction愧哟,cytoband奥吩,TFBP,gene家族蕊梧,共表達霞赫,共表達的atlas,computational肥矢,microRNA端衰,藥物,疾病等共計18個種類甘改。
B.使用ToppGene基于訓(xùn)練集基因的功能相似性進行疾病基因優(yōu)先排序
問題:通過和訓(xùn)練集相似的功能注釋對測試集基因列表進行優(yōu)先級排序
現(xiàn)在旅东,我們用來自NCBI的OMIM和Entrez Gene已知的和肝再生相關(guān)的基因作為訓(xùn)練集。測試集是我的55434masigpro DEGs十艾。這個case中抵代,NCOR1基因作為候選基因。測試集通過增加在染色體上和NCOR1最近的99個鄰居基因產(chǎn)生(99+1=100個測試基因)忘嫉。
- 1.主頁點擊第二個鏈接荤牍,ToppGene。訓(xùn)練集輸入一開始的肝再生相關(guān)基因庆冕,測試集輸入我的比對過的大鼠的人類同源基因康吵。提交。
-
2.提交后访递,稍等晦嵌,會出現(xiàn)一個界面。可以進行參數(shù)設(shè)置等耍铜。
可以選擇合適的統(tǒng)計學參數(shù)邑闺。“random sampling size”選項是從計算p-value值的基因組中選擇背景基因集棕兼《妇耍’min.feature count’代表需要考慮進行優(yōu)先排序的基因數(shù)目。默認選擇是基因組中的6%(或者總共25000個基因中選擇1500個)進行隨機樣本大小或feature計數(shù)為2.和前面第一部分描述的一樣伴挚,如果基因list包含別名或重復(fù)的靶衍,他們就會被忽略或給你一個選項自己來解決。另外茎芋,如果在訓(xùn)練集和測試集中有共有基因(也就是測試集中的基因在訓(xùn)練集中也出現(xiàn)了)颅眶,他們會在測試集中被移除,并且不會被排序田弥。選擇合適的統(tǒng)計學參數(shù)后(訓(xùn)練集和測試集)涛酗,點擊start,即可
- 一旦分析完成偷厦。結(jié)果的第一部分和富集分析的第一部分相似商叹,只是輸入的參數(shù)部分多了測試集的。下半部分顯示測試集基因的優(yōu)先列表只泼,這是根據(jù)他們的p-value排序的剖笙。每一列顯示的是計算訓(xùn)練集和測試集之間相似性的特征。
C.使用ToppNet基于PPIN的拓撲性質(zhì)對疾病基因進行優(yōu)先排序
問題:基于PPIN的拓撲性質(zhì)對測試集基因列表進行優(yōu)先排序
訓(xùn)練集還是使用剛才已經(jīng)獲得的肝再生相關(guān)基因请唱。測試集也還用剛才那個弥咪。
無論測試集還是訓(xùn)練集都匹配到全局性PPIN,然后測試集中的基因基于他們距離訓(xùn)練集中的基因有多近來對他們進行得分十绑。步驟如下
- 1.主頁點擊第三個鏈接ToppNet聚至。。孽惰。
- 2.和上面一樣晚岭,輸入訓(xùn)練集和測試集,提交
-
3.選擇網(wǎng)絡(luò)優(yōu)先級參數(shù)勋功。有3個選項可以選擇坦报。分別是1)K step markov(默認);2)HITS with Priors狂鞋;3)Page Rank with Priors片择。也可以選擇訓(xùn)練集鄰居亞網(wǎng)絡(luò)可視化參數(shù)(默認lever是1),然后點擊開始
- 4.接下來骚揍,測試集會根據(jù)得分進行排序字管。訓(xùn)練集子網(wǎng)絡(luò)可以以cytoscape兼容的文件被導(dǎo)出啰挪。可選擇的嘲叔,訓(xùn)練集子網(wǎng)絡(luò)的圖形代表也會顯示出來亡呵。
D.使用ToppGenet基于PPIN對種子基因或訓(xùn)練集中的基因進行識別并優(yōu)先排序
問題:使用功能相似性(ToppGene)或PPIN分析(ToppNet)對訓(xùn)練集基因的相互作用組中的基因列表進行排序或優(yōu)先排列。
繼續(xù)使用已知的肝再生相關(guān)基因列表作為訓(xùn)練集硫戈。這次的測試集是和訓(xùn)練集的基因相互作用的genes(level 1=immediate interactants)步驟如下
- 1.主頁锰什,點擊第四個鏈接ToppGenet
-
2.輸入基因名,選擇你想考慮的interactome空間丁逝,選擇你對相互作用基因排序的類型那個汁胆,功能相似(ToppGene)還是網(wǎng)絡(luò)(ToppNet)。如果你選擇distance to seeds為1 的話霜幼,這以為著測試集包含所有的與訓(xùn)練集中的基因直接相互作用的基因嫩码。所有在訓(xùn)練集和測試集中重疊或共有的基因都會在測試集中被忽略,不參與排序罪既。提交
- 3.這個例子中铸题,擴展相互作用組到level1,抓取了376個基因作為測試集(移除了共有基因琢感,也就是在訓(xùn)練集中也出現(xiàn)的基因)回挽,最終的測試集一共包含333(376-43)個基因。第一個面板顯示了通過PPIN分析得到的優(yōu)先級(ToppNet)猩谊,下面的面板顯示的基于ToppGene的功能相似性的優(yōu)先級。
- 4.以前是兩個結(jié)果同時出現(xiàn)祭刚,現(xiàn)在做兩次
-----------------------------------------------
E: ToppCluster
作者文章(Y大寬翻譯總結(jié))
分析像基因表達譜這樣大規(guī)模生物數(shù)據(jù)的最根本的一個問題是:解釋鑒定出的基因clusters的功能意義的相對穩(wěn)定性牌捷。不同的gene groups中的和個體基因及共有基因相關(guān)的功能注釋和分子特征對生物狀態(tài),過程或應(yīng)激等關(guān)鍵的生物特性的識別很有幫助涡驮,而這可以提供有用的生物學視角暗甥。典型的注釋包括GO,生物過程,蛋白-蛋白相互作用捉捅,蛋白質(zhì)結(jié)構(gòu)域信息撤防,有時還有基因-疾病的相關(guān)性。很多工具可以對提供的單一基因列表進行富集分析棒口,比如DAVID,FatiGO,g:Profiler等寄月。參考文獻4對這些工具做了很詳細的描述 。作者下面說了GSEA的成功无牵。然而漾肮,隨著日益增長的分子和生物學知識,我們鑒定和生物學現(xiàn)象相關(guān)的復(fù)雜性的提高茎毁,一個關(guān)鍵的事情是克懊,我們也需要提高我們的能力來識別和系統(tǒng)功能及調(diào)節(jié)機制有關(guān)的組分忱辅,活動和相互作用,比如WGCNA,ARACNE這些應(yīng)用所做的谭溉。同樣的墙懂,針對當前的知識的有效且高效的數(shù)據(jù)可視化對新理論也有關(guān)鍵的促進作用。
現(xiàn)在扮念, 我們提出一個直觀有效的工具损搬,它可以分析和可視化任何數(shù)目的基因集所共有和特有的特征。我們提供一個流程和工具套件,可以對多個基因列表進行協(xié)同分析扔亥。以這種方式场躯,可以保存兩個基因列表之間的關(guān)系,同時還提供對多個基因列表中共有的和特有的基因功能和特征進行二次分析的數(shù)據(jù)文件及聚類旅挤。比如踢关,可以比較時間系列基因表達譜實驗中不同時間的功能富集分析的差異,也可以是反應(yīng)不同組織或細胞類型的差異粘茄。目前签舞,還沒有工具可以進行多個基因列表的分析并提供包括豐富的注釋set的功能模塊圖。這方面的進展在High-Throughput GoMiner (9) andGOEAST中有所體現(xiàn)柒瓣。然而儒搭,這些工具目前僅僅可以做基于GO的富集分析,并且對調(diào)節(jié)機制芙贫,PPI搂鲫,表型,疾病磺平,小分子和其他類型的分析不敏感魂仍。pageMan是個有 創(chuàng)新的應(yīng)用,它可以同時分析多個微陣列表達譜拣挪,并且可以基于五種特意進行熱圖可視化擦酌。
大多數(shù)的基因集富集分析工具使用的是超幾何檢驗分布作為統(tǒng)計模型來獲取功能term在基因列表中出現(xiàn)的可能性。這里菠劝,ToppCluster使用ToppGene中使用的方法評估多個基因列表中的顯著性特征赊舶。下一步,我們利用熱圖或網(wǎng)絡(luò)赶诊,兩個都是基因組學中比較好的可視化工具產(chǎn)生基因cluster的富集地圖笼平。熱圖非常借助顏色密度值很好的展示數(shù)據(jù)集。熱圖中通過用顏色深淺代表富集條目的重要性舔痪,我們展示了一個特別簡單但有效的方法來一次性可視化生物功能題目(幾個基因set中有的出吹。)。另外辙喂,我們也提供了可以繼續(xù)用cytoscape或treeview進行可視化的結(jié)果捶牢。
為了展示使用方法鸠珠,我們使用來自Tissue-specific gene expression and regulation(TiGER)數(shù)據(jù)庫中的數(shù)據(jù)作為輸入,產(chǎn)生組織特異和兩個組織間共有的功能圖秋麸。我們顯示渐排,ToppCluster可以識別出器官特異性表型關(guān)聯(lián)分析,生物過程灸蟆,microRNAs的靶Mrna, 誰的啟動子包含已知的轉(zhuǎn)錄因子的cis-elements(也就是已知的轉(zhuǎn)錄因子的啟動子順勢作用元件富集分析)驯耻。我們的目標是為研究者提供來自大數(shù)據(jù)集的整合不同知識的basis,以這種方式幫助他們獲取一個更深的能力炒考,那就是可缚,對和系統(tǒng)功能有關(guān)的通路和機制建模,同時闡明他們的數(shù)據(jù)和高維度人類基因相關(guān)的只是的關(guān)系斋枢。
ToppCluster典型的例子是時間系列微陣列實驗帘靡。它最主要的有時在于協(xié)同分析多個基因列表的能力,并以促進比較和對比的方式描繪結(jié)果瓤帚。下面這個圖是示意圖描姚。
Toppcluster有17個注釋類型,包括GOBP,MF,CC,小鼠表型戈次,人類表型轩勘,通路,轉(zhuǎn)錄因子結(jié)合位點怯邪,預(yù)測的microRNAs靶標绊寻,pubmed co-citations,protein domains悬秉,PPI,cytoband榛斯,gene coexpression,expression correlation(‘computational’)搂捧,drug/chemical,disease。這些信息都可以在toppgene下的database info中找到懂缕。用的是超幾何檢驗的方法允跑。最原始的輸出是一個矩陣結(jié)果,列和每個輸入的基因列表有關(guān)(比如組織搪柑,時間點)聋丝,rows代表每一個基因列表的富集特征。每個基因列表命名的每一列是其顯著性值工碾,它是p-value的負對數(shù)弱睦。
如果一個給定的特征和多個基因列表有顯著性聯(lián)系,有一種可能是有同樣的顯著性得分渊额,但是有和這個特征有關(guān)的完全不同的基因列表况木。結(jié)果功能富集矩陣可以被等級聚類可視化垒拢,也可以熱圖,也可以輸出為cytoscape支持的XGMML網(wǎng)絡(luò)格式火惊。如果產(chǎn)生熱圖的選項被選擇求类,功能富集矩陣就是二維等級聚類,先是行然后是列被重新排序屹耐,根據(jù)相似性得分尸疆。在表格格式,對重要性有貢獻的特定的基因列表會以鄰接表被提供惶岭。
這里寿弱,我們使用新的方法代表基因列表中富集條目的顯著性。我們采取對應(yīng)于這個條目的p值的負對數(shù)(-log10)按灶,這樣得到的顯著性得分都大于0症革。超過10的任何數(shù)值我們都當作10。因此兆衅,對應(yīng)于基因列表的有顯著性得分的功能條目都在0和10之間地沮。如果選擇了熱圖,矩陣使用euclidean距離方法進行計算羡亩,生成二維等級聚類摩疑,通過R鏈接。
ToppCluster是一個對大規(guī)模數(shù)據(jù)(多時間點微陣列數(shù)據(jù)畏铆,細胞類型雷袋,組織類型等)進行多聚類基因功能富集分析的工具。ToppCluster可以對多個genes列表進行協(xié)同分析co-analysis辞居,產(chǎn)生豐富的功能地圖輸出結(jié)果楷怒,來顯示共有的和列表特異的功能特征。結(jié)果可以以列表瓦灶,熱圖和網(wǎng)絡(luò)格式可視化鸠删,這些工具要么嵌入工具中要么可以被第三方軟件支持。T oppCluster使用超幾何檢驗來獲得通過ToppGene中可用的基因列表富集分析選項獲得的功能富集贼陶。
ToppCluster支持一下兩種類型輸入
1. 作為可以連續(xù)添加和標記的分離的基因簇
2.可選擇性的刃泡,作為基因的兩列,第一列是基因碉怔,第二列是基因cluster標簽烘贴。
檢驗的方法很多選擇,比如p-value撮胧,cutoff桨踪,多種矯正檢驗方法。一個或多個注釋可以在結(jié)果中出現(xiàn)芹啥,多達17種不同的注釋類型锻离。結(jié)果也可以通過在注釋中出現(xiàn)的最少和最大基因進行過濾铺峭。結(jié)果可以是表格形式,也可以是逗號隔開的txt纳账,html逛薇,excel等。另外也有三種可視化的結(jié)果展現(xiàn)方式疏虫,用R得到的pdf格式的標注熱圖永罚,treeview熱圖或cytoscape支持的網(wǎng)絡(luò)格式。
Sections
1. The ToppCluster Interface簡單介紹
界面友好卧秘,選項簡單肝断,可以執(zhí)行可比較富集分析颁井。這里我輸入liver regeneration和hcc的名字進行比較分析延塑。各自輸入大鼠同源genes和人類基因逞敷。大概就是,選擇輸入的基因類型是ID 還是symbol蚯涮,輸入cluster名字治专,輸入基因,添加第二個cluster遭顶,命名张峰,加基因,提交
2.使用ToppCluster
- 2.1 選擇想輸入的gene身份類型棒旗,包括HGNC symbol(official)喘批,HGNC symbol and symonyms,entrez ID, Ensembl ID, uniprot铣揉。給cluster取名饶深,第一個我取名liverregeneration
- 2.2 粘貼第一個gene cluster列表基因
- 2.3 添加第二個cluster,同上
- 2.4 點擊next提交列表基因逛拱,進行下一步敌厘。
- 2.5 選擇各種條件,選擇如下選項朽合。
默認是所有的選項都被選擇俱两。你可以選擇你想包含在輸出文件中每個注釋的及每個注釋的矯正方法,p-value值和genes limits(允許注釋的最大和最小genes數(shù)目)旁舰。可選擇的矯正方法包括:
Bonferroni - Sets the significance cutoff to the P-value cutoff divided by the number of tests. For example, if the P-value cutoff is 0.05 and there are 100 tests, the significance cutoff would be set to 0.0005. The Bonferroni correction may be quite conservative, sometimes yielding a high false negative rate.
FDR- Controlling the False Discovery Rate (FDR), or the expected proportion of false positives among the significant results, is another approach used frequently. FDR correction is less stringent than Bonferroni; it may yield more false positives but much less false negatives.
- 2.6 輸出格式選擇嗡官。Interactive和Batch箭窜。前者的結(jié)果會在屏幕上顯示,或者一旦執(zhí)行完成就可以被直接下載衍腥。后者會把結(jié)果發(fā)到你的email磺樱,包括一些在interacitve中不包含的纳猫。
Interactive
- Comma Separated Values - Output data in a CSV file using commas to separate columns.
- Tab Separated Values - Output data in a file using tabs to separate columns.
- HTML Table - Output data in HTML tables to be displayed in a web browser. See section on HTML Table Output Results.
- Network Generator - Output data in an interactive html table where results can be selected and exported to a Cytoscape importable XGMML network file or a static PNG image.
Batch- Comma Separated Values - Output data in a CSV file using commas to separate columns.
- Tab Separated Values - Output data in a file using tabs to separate columns.
- Microsoft Excel Format - Output data to be opened in Excel spreadsheet format.
- Clustered Data (Zipped) - Output data in TreeView importable format in a compressed zip file.
- PDF Heatmap - Output data exported to a PDF file with a heatmap.
- 2.7 run
4.Network Generator Output
最初的Network generator output屏幕顯示的是多列和行的列表,比如有分類竹捉,ID,Title(or Source)芜辕,verbose ID,還有很多其他列块差。
Navigate導(dǎo)航
Navigate下拉菜單顯示了你的擴展的HTML中所有的可獲得的注釋類型侵续。選擇你想跳轉(zhuǎn)的類型,系統(tǒng)會自動定位到你選擇的類型憨闰。
Links
這個links區(qū)域提供兩種選擇
.back to start-回到原始的ToppCluster界面
.shareable link-稍后獲取結(jié)果或和同時分享結(jié)果状蜗。和link相關(guān)的結(jié)果會在產(chǎn)生時刻算起保存30天。
Highlighting
這部分提供選擇來高亮gene set欄的基因鹉动。If p-value被選擇的話轧坎,所有和pvalue相關(guān)的genes會在整個結(jié)果界面高亮。如果想高亮泽示,得選中這個框缸血。
Select all
Title旁邊的這個復(fù)選框,會選擇這個頁面所有的復(fù)選框
Network Generator
選擇了你想輸出的結(jié)果后械筛,點擊Next
NEXT后捎泻,出現(xiàn)保存界面
Summary:顯示你前面界面選擇的boxes的數(shù)目”湟蹋可以回到前面瀏覽器選擇更多的boxes
Method:可以產(chǎn)生2種類型的網(wǎng)絡(luò)
(1)gene level-這是完整網(wǎng)絡(luò)包括輸入的gene list names族扰,富集的特征和相對應(yīng)的genes
(2)Abstracted-這是一個抽象的試圖,將基因排除在網(wǎng)絡(luò)之外定欧,只保留與輸入基因列表名稱相關(guān)的富集特征渔呵,這些特征是通過顯著性分數(shù)加權(quán)的邊來實現(xiàn)。
Layout:五種輸出方式供選擇
- Kamada-Kawai - JUNG implementation of the Kamada-Kawai algorithm.
- Fruchterman-Reingold - JUNG implementation of the Fruchterman-Reingold algorithm.
- Spring - JUNG implementation of the Spring layout.
- Circle - Lay all nodes in a circle (JUNG implementation).
- Meyer's Self-Organizing - JUNG implementation of Meyer's "Self Organizing Map" layout.
File format:3種格式可供選擇 - XGMML - XGMML is an XML based graph representation format - compatible with Cytoscape.
- PNG - Network in PNG image format.
- Text - Network data in a simple text format.
Preview:預(yù)覽
Using XGMML in cytoscape - 打開cytoscape
File-import-network(multiple file types)-import network-select-import
Treeview clusted Data output
ToppCluster的實際應(yīng)用
我們使用簡單的例子來說明toppcluster的有效性砍鸠。這是一個組織特異性基因列表數(shù)據(jù)集扩氢。從TiGER數(shù)據(jù)庫下載組織特異性基因列表。選擇的是在心臟爷辱,肌肉录豺,肝臟,腎臟和胰腺中高表達的genes饭弓。從這些數(shù)據(jù)双饥,我們想基于它們共享的和特異的疾病表型和潛在的調(diào)節(jié)基質(zhì)聯(lián)系來識別和分離組織特異性基因列表。格式化并且做好標簽的lists提交到ToppCluster弟断,設(shè)定pvalue閾值0.05咏花,F(xiàn)DR矯正方法。我們選擇的特征是小鼠表型,micorRNA和轉(zhuǎn)錄因子結(jié)合位點昏翰。重要的是苍匆,microRNA沒有應(yīng)用false discovery correction方法,因為它作用的理論不是基于全基因組相關(guān)性富集分析棚菊,而是關(guān)于這個miRNA是否表達和它可能靶向哪些基因的布林真假問題浸踩。首先,Abstracted網(wǎng)絡(luò)選擇用來產(chǎn)生cytoscape兼容的網(wǎng)絡(luò)文件统求,這包含所有的富集條目關(guān)系检碗。下面這個圖FIG2A顯示了輸出的數(shù)據(jù)在cytoscape使用spring embedded layout和significance-based edge weights功能的結(jié)果。共有的和特異表型球订,micorRNA后裸,和富集的轉(zhuǎn)錄因子在圖中被標注展示。
從上面這個抽象的網(wǎng)絡(luò)試圖冒滩,可以看出明確的功能分區(qū)微驶。值得注意的是,liver基因列表顯示了高度顯著性富集以下基因集:異常肝膽形態(tài)开睡,下降的血液膽固醇和異常凝血因苹。心臟和骨骼肌共有心機收縮和形態(tài)表型,但是在包括異常impulse conducting system篇恒,不規(guī)則心跳和心臟心房增大扶檐,異常肌肉發(fā)育和肌肉衰弱的都不同。在兩者之間還有共表達的轉(zhuǎn)錄因子MEF-2胁艰,血清反應(yīng)因子不一樣款筑,但是mir-29a,b,c和mir-100靶向的基因顯著富集了。和這個一致腾么,mir-29已經(jīng)顯示是一個重要的心肌纖維化抑制因子奈梳。腎臟顯示了大量的和腎臟結(jié)構(gòu)和功能異常相關(guān)的富集,比如轉(zhuǎn)運相關(guān)的特異功能比如分泌和離子運輸解虱。轉(zhuǎn)錄因子pou3f3攘须,結(jié)合在OCT類型轉(zhuǎn)錄因子結(jié)合位點,在腎臟中過表達殴泰。腎臟基因列表也在啟動子轉(zhuǎn)錄因子結(jié)合位點PBX1富集于宙,這個也是調(diào)節(jié)腎臟發(fā)生的。和已有的知識相符悍汛,肝細胞核因子HNF1和HNF4也在肝臟和腎臟基因列表中共有捞魁。肝臟特異性基因富集在雞卵清蛋白上游啟動子轉(zhuǎn)錄因子COUP-TF。這個TF,雖然廣泛表達尤其發(fā)育中离咐,但是也發(fā)現(xiàn)它和HNF-4的結(jié)合位點相似谱俭。COUP-TF在大多數(shù)組織中的表達和它作為肝臟特異性基因orinthine transcarbamylase(OTC)得出這個可能性,它或許在其他組織中作為肝特異基因的抑制因子。胰腺顯示了諸如去組織化的胰腺胰島細胞表型旺上,異常的胰腺發(fā)育和胰島素分泌。腎基因和肝共有循環(huán)氨基酸糖埋,膽固醇宣吱,脂類和礦物質(zhì)水平表型。胰腺特有的基因顯示了轉(zhuǎn)錄因子GATA1的富集瞳别,這是一個已知的在多種內(nèi)分泌器官包括胰腺在內(nèi)的涉及細胞特異性調(diào)節(jié)的基因征候。還有一個有趣的是micorRNA miR-190,是胰腺特異的,mir-190已經(jīng)發(fā)現(xiàn)在胰腺癌組織和細胞系中顯著上調(diào)表達祟敛。
為了提供一些條目的詳細的基因水平的view疤坝,我們選擇在肝臟和腎臟基因列表中的表型和轉(zhuǎn)錄因子。使用Gene Level 網(wǎng)絡(luò)選項馆铁,生成cytoscape兼容的網(wǎng)絡(luò)跑揉,只顯示兩個set中共有的genes,表型和轉(zhuǎn)錄因子埠巨,fig2b历谍。ToppCluster允許用戶選擇感興趣的條目包括到網(wǎng)絡(luò)中。當你想進一步探索output中其中一部分富集條目的時候辣垒,這非常有用望侈。這個特征被用于產(chǎn)生fig3,多個categories中富集的條目被選擇勋桶,基因水平的網(wǎng)絡(luò)生成了脱衙。
以上的應(yīng)用示例,概括了已有的知識例驹,展示了ToppCluster的能力來梳理多個基因cluster中共有和特異功能和調(diào)控元件
含有輸入的基因列表的excel文件捐韩,cytoscape兼容的文件和網(wǎng)絡(luò)數(shù)據(jù)在toppcluster主頁的supplementary section可以獲取。對應(yīng)于fig2a的熱圖view也可以獲得眠饮。
Figure 3. Gene-level network showing user-selected enriched terms from Gene Ontology, Mouse Phenotype, Co-expression, microRNAs and transcription factors for the kidney and liver-specific gene lists
作者最后結(jié)論部分說
在我們看來奥帘,跨越多個基因列表的功能關(guān)系的可視化的能力,提供了新的機會仪召,以形成關(guān)于負責確定生物學狀態(tài)(包括發(fā)育寨蹋,穩(wěn)態(tài)和疾病病理學)的潛在生物學機制的角色和相互作用的新假設(shè)。
下面這張圖是我自己的數(shù)據(jù)做的圖扔茅,先跑的WGCNA已旧,再做的圖
------------------補充----------------------
Improved human disease candidate gene prioritization using mouse phenotype
基于假說:引起疾病的大多數(shù)基因功能上都是相互聯(lián)系的。
ToppGene(Transcriptome Ontology Pathway Pubmed based prioritization of Genes)
作者第一次召娜,作者把小鼠表型數(shù)據(jù)作為一個獨立于GO,pathways运褪,biomedical literature,protein domains,protein interactions參數(shù)特征,對人類疾病候選基因進行優(yōu)先排序并顯示其應(yīng)用。
作者提取和每一個MP term相關(guān)的小鼠基因,并提取相應(yīng)的人類同源基因秸讹。當前MPO版本中檀咙,有4280個terms和4329個unique entrez小鼠genes相關(guān)(外推到4329個人類同源基因)。我們沒有檢查是否小鼠gene的人類同源genes會否引起相似的表型璃诀。相反弧可,我們假定,同源genes引起同源表型劣欢。
Protein domain:
結(jié)構(gòu)域的概念由Wetlaufer于1973年首次提出棕诵,他定義結(jié)構(gòu)域為可以自動折疊的穩(wěn)定的蛋白質(zhì)結(jié)構(gòu)單位。過去凿将,結(jié)構(gòu)域被描述為校套,折疊單位,致密結(jié)構(gòu)單位牧抵,功能和進化單位笛匙。每個定義都是有效的并且經(jīng)常重疊。緊密結(jié)構(gòu)單位結(jié)構(gòu)域在很多不同的蛋白質(zhì)中被發(fā)現(xiàn)犀变,它在結(jié)構(gòu)環(huán)境內(nèi)容易獨立折疊膳算。自然界經(jīng)常把幾個domains結(jié)合在一起形成多結(jié)構(gòu)域和多功能蛋白質(zhì)。在一個多結(jié)構(gòu)域蛋白質(zhì)中弛作,每一個結(jié)構(gòu)域可以獨立行使它自己的功能涕蜂,或者和它的臨近蛋白協(xié)調(diào)一致的方式行駛。Domains既可以作為模塊構(gòu)建大的復(fù)合體像病毒顆劣沉眨或肌纖維机隙,也可以提供特定的催化或結(jié)合位點,這些都在酶或調(diào)節(jié)蛋白中被發(fā)現(xiàn)萨西。
Motif和domain的區(qū)別
完全不同的兩個概念有鹿,但有時還有聯(lián)系。
Motif:在生物學中是一個基于數(shù)據(jù)的數(shù)學統(tǒng)計模型谎脯,典型的是一段sequence也可以是一個結(jié)構(gòu)葱跋,是特定的group的序列預(yù)測,例如一個DNA sequence可以定義為轉(zhuǎn)錄因子結(jié)合位點源梭,也就是序列傾向于被這種factor結(jié)合娱俺。對蛋白質(zhì)來說,sequence motifs可以被定義為蛋白質(zhì)(蛋白質(zhì)序列)屬于一個給定的蛋白質(zhì)家族废麻。一個簡單的motif可以是荠卷,例如,一個模式pattern烛愧,而這個模式被這個group中的所有成員共享油宜。例如WTRXEKXXY(這里掂碱,X代表任何氨基酸)。當然也有更復(fù)雜的motif模型慎冤。Motif有時和特定的功能聯(lián)系一起疼燥。
Protein domains:是一種結(jié)構(gòu)實體,通常代表蛋白質(zhì)結(jié)構(gòu)中獨立折疊和行駛功能的一部分蚁堤。因此悴了,蛋白質(zhì)經(jīng)常是這些結(jié)構(gòu)域的不同的組合構(gòu)建起來的。
那违寿,motif和domains之間有什么聯(lián)系?當你考慮蛋白質(zhì)家族的時候熟空,不僅要看整個序列藤巢,還有關(guān)注單獨結(jié)構(gòu)域。因為息罗,它們是一個基本的功能結(jié)構(gòu)單位掂咒,因此找到單個結(jié)構(gòu)域domain的序列motif是很有意義的。因此迈喉,你經(jīng)常會發(fā)現(xiàn)一個蛋白質(zhì)包含多個結(jié)構(gòu)域绍刮,每個結(jié)構(gòu)域都有一個與它所屬的家族motif匹配的序列。
最主要的區(qū)別是挨摸,domain是獨立的穩(wěn)定的孩革,motif不是。
2008.2:Disease candidate gene identification and prioritization using protein interaction networks