很高興今天給大家介紹DAVID數(shù)據(jù)庫,因為DAVID不僅是個生物數(shù)據(jù)庫拷姿,也是一款在線分析軟件惭载。可以用來做基因的差異分析响巢,也可用于通路的富集描滔。他可以將輸入列表中的基因,關聯(lián)到生物注釋上踪古。依舊第一步含长,介紹DAVID網(wǎng)址:https://david.ncifcrf.gov?其實利用百度引擎也能快速檢索到。在頁面主頁上伏穆,有該數(shù)據(jù)庫的概要及其DAVID工具能夠行使什么功能拘泞。具體如下圖,有列表
1)Identify enriched biological themes, particularly GO terms
?????2)Discover enriched functional-related gene groups
?????3)Cluster redundant annotation terms
?????4)Visualize genes on BioCarta & KEGG pathway maps
?????5)Display related many-genes-to-many-terms on 2-D view.
?????6)Search for other functionally related genes not in the list?
????7)List interacting proteins
?????8)Explore gene names in batch?
?????9)Link gene-disease associations?
?????10)Highlight protein functional domains and motifs?
?????11)Redirect to related literatures?
?????12)Convert gene identifiers from one type to another.
And more?
鼠標移至“Shortcut to DAVID Tools”,下拉菜單中有四個主要功能1)Functional Annotation(功能注釋)a)Functional Annotation Clustering:使用模糊聚類方法枕扫,對被注釋上的?Terms?做聚 類陪腌,即?Terms?被分成多組,并將給出聚類的分值。分值越高诗鸭,代表該組內(nèi)的基因在基因列表中越重要商叹。?b)Functional Annotation Chart:進行?GO?功能富集分析和?KEGG?
pathway?富集分析。C)Functional Annotation Table:該工具實現(xiàn)了基因的功能注釋只泼,將輸入列表中每個基因在選定數(shù)據(jù)庫中的注釋以表格形式呈現(xiàn)剖笙。2)Gene?Functional Classification(基因功能聚類),通常將功能相關的基因聚集在一個單元请唱,分值越高弥咪,代表該基因重要性越高。3)Gene ID Conversion:對基因不同表示方法進行轉(zhuǎn)換十绑。4)Gene Name Batch Viewer:顯示基因名稱聚至,ID,所屬物種及相關基因本橙。
接下來我們用示例來介紹它的功能注釋扳躬,以PDCD1,CTLA4甚亭,LAG3贷币,TNFRSF18,CD80?亏狰,F(xiàn)OXP3?為例役纹。首先我們選擇“Shortcut to DAVID Tools”,再點擊“Functional Annotation”暇唾。在左上角Upload中輸入多基因列表促脉,可以每行一個基因或者用逗號隔開。在選擇相應物種策州,如人選擇human瘸味,在選擇identifier,如果是基因ID則選擇GENE?ID,這里我們是用了基因名稱够挂,選擇了official-gene-symbol旁仿。下一步點擊USE。在右側(cè)跳出注釋概要信息下硕,點擊“Disease”丁逝,我們可以看到這些基因和哪些疾病有關聯(lián)∷笮眨“Functional_Categories”功能類別霜幼,點擊右側(cè)長條可以顯示這些基因參與了哪些功能,如凋亡,3D結(jié)構等誉尖。
繼續(xù)下拉罪既,有“Gene_Ontology”,主要包括三個方面,BP(生物學過程琢感,biological process),CC(細胞組分丢间,cellular component), MF(分子功能,Molecular Function)驹针。通過GO富集分析烘挫,可以查閱這些基因生物學功能,定位和生物過程柬甥。
我們可以選擇這三個TERM一起分析饮六,如果需要單獨分析,點擊你想要分析的TERM苛蒲,下拉菜單卤橄,點擊“Function Annotation Chart”進行富集分析。在跳出來的結(jié)果中臂外,我們發(fā)現(xiàn)有9個chart records窟扑,表格中右側(cè)“count”則顯示該TERM對應你的幾個基因,點擊上側(cè)“options”漏健,我們可以把FDR選擇上(注:FDR:DAVID中的FDR要求自適應線性升壓調(diào)整p值嚎货,以近似控制錯誤發(fā)現(xiàn)率,如Benjamini和Hochberg(2000)中所討論的漾肮。使用最小斜率法估計真零假設的數(shù))厂抖。右擊“?DownloadFile”,鏈接保存txt格式后克懊,用EXCEL打開該數(shù)據(jù)。
在打開的excel文檔中七蜘,我們挑選GO-term, Count谭溉,?p?值和?FDR?值。增加一列橡卤,對p值進行-LOG()轉(zhuǎn)換扮念,保存為文本格式。利用MID函數(shù)(字符串碧库,起始位置柜与,保留字符的個數(shù))將TERM波浪號以及之前的內(nèi)容刪除,利用新的term和count進行作圖嵌灰,利用EXCEl的插入圖形按鈕弄匕,點擊“二維條形圖”進行繪制。這里我覺得WPS的表格比OFFICE好用的太多了沽瞭。然后我們通過升序排列整齊迁匠。按自己的需求編輯表格格式。同樣我們也可以粘貼為三線表格式。
前面介紹了利用DAVID在線分析工具進行GO注釋城丧,接下來介紹利用DAVID進行KEGG富集分析延曙,操作如前,我們在LIST輸入我們的多個基因亡哄,在功能注釋界面枝缔,我們選擇“Pathways”,同樣我們以PDCD1,CTLA4蚊惯,LAG3愿卸,TNFRSF18,CD80?拣挪,F(xiàn)OXP3?為例擦酌。我們點擊右上角“clear all”,選擇“KEGG?Pathway”,點擊“Function?Annotation Chart”菠劝,我們可以看到我們檢索的基因有4個records赊舶。點擊TERM,可以查到富集的信號通路赶诊,今天很意外的是我沒有打開笼平,可能服務器出現(xiàn)了問題,顯示service unavailable舔痪≡⒌鳎可能換個時間段就可以了。
另外我們常用功能就是對其GENE?ID轉(zhuǎn)換锄码,如official symbols和?GENE?ID間轉(zhuǎn)換夺英,這里就不一一演示了。
今天就簡單介紹這里滋捶,咱們后期再見痛悯。