非原創(chuàng)
參考資料:
一文掌握GO和pathway分析 - 生物信息學(xué)討論版 -丁香園論壇
http://www.dxy.cn/bbs/thread/34904124#34904124
一. GO富集
GO是Gene ontology的縮寫舌厨,GO數(shù)據(jù)庫分別從功能载慈、參與的生物途徑及細(xì)胞中的定位對(duì)基因產(chǎn)物進(jìn)行了標(biāo)準(zhǔn)化描述赊级,即對(duì)基因產(chǎn)物進(jìn)行簡(jiǎn)單注釋漱挚,通過GO富集分析可以粗略了解差異基因富集在哪些生物學(xué)功能蜕提、途徑或者細(xì)胞定位。
二. Pathway
Pathway指代謝通路历恐,對(duì)差異基因進(jìn)行pathway分析角寸,可以了解實(shí)驗(yàn)條件下顯著改變的代謝通路,在機(jī)制研究中顯得尤為重要死相。
GO分析好比是將基因分門別類放入一個(gè)個(gè)功能類群的籃子融求,而pathway則是將基因一個(gè)個(gè)具體放到代謝網(wǎng)絡(luò)中的指定位置。
三. 文章案例
Identification of a novel biomarker, SEMA5A, for non-small celllung carcinoma in nonsmoking women
相關(guān)基因:SEMA5A
相關(guān)疾菜愦椤:Carcinoma,Non-Small-Cell Lung;Lung Neoplasms
PMID: 20802022 影響因子3.622 GEO 相關(guān)樣本:120
文章作者使用AffymetrixU133plus2.0芯片1檢測(cè)了臺(tái)灣地區(qū)非吸煙肺癌女性患者60對(duì)癌癥和癌旁肺組織樣本生宛,利用配對(duì)T檢驗(yàn)篩選了腫瘤組織中687個(gè)差異表達(dá)基因2施掏,并且利用逆轉(zhuǎn)錄PCR和免疫組化進(jìn)行了驗(yàn)證。如何將687個(gè)縮小范圍呢?因此我們需要判斷差異基因在肺癌細(xì)胞中主要富集在哪些功能類群和代謝通路茅糜。
文章作者利用IPA(IngenuityPathway Analysis)軟件對(duì)差異基因進(jìn)行了功能分析,篩選出了16條顯著性代謝通路3素挽。在最顯著改變的三條通路中蔑赘,其中兩條都和軸突導(dǎo)向信號(hào)通路(axonguidance)相關(guān),作者很意外预明,于是就選定了軸突導(dǎo)向信號(hào)通路缩赛,并在其中挑選了差異表達(dá)倍數(shù)最高的SEMA5A基因作為后續(xù)的研究對(duì)象。
作者最后利用kaplan-Meier生存分析證明了SEMA5A基因的低表達(dá)和非吸煙女性肺癌的低生存率有關(guān)聯(lián)撰糠,其可能成為非小細(xì)胞肺癌預(yù)后的一個(gè)有效的生物標(biāo)志物酥馍,也可能代表臺(tái)灣地區(qū)病人的性別特異性。
四.文章思路:
1.找到差異表達(dá)基因阅酪;
2.通過功能分析進(jìn)一步縮小差異基因范圍旨袒;
3.有針對(duì)性的挑選基因;
1.目的:找到差異表達(dá)基因术辐。
方法:基因差異表達(dá)分析流程
2.目的:縮小差異基因范圍砚尽。
方法:功能分析(GO、KEGG分析等)
3.目的:有針對(duì)性的選基因辉词。
方法:找最顯著必孤、最常出現(xiàn)、差異最顯著的基因瑞躺,kaplan-meie生存分析敷搪。
五.文章分析結(jié)果
小編利用上述案例中的數(shù)據(jù)GSE19804在GCBI在線實(shí)驗(yàn)室首先進(jìn)行差異分析(|foldchange|>2, P值<0.001Q值<0.05),得到了2202個(gè)差異基因幢哨。
將差異基因分別進(jìn)行GO(P值<0.01赡勘,F(xiàn)DR<0.01)和pathway分析(P值<0.05),富集得到351個(gè)GO term和110條pathway嘱么。
結(jié)果如下圖所示狮含,表一和表二分別為部分GO富集結(jié)果和最顯著的15條pathway分析結(jié)果。
GO和pathway分析結(jié)果中都得到了文章中選定的axonguidance這個(gè)結(jié)果(紅框)曼振。
六.結(jié)果怎么看呢****?
表頭各個(gè)參數(shù)的解釋如下几迄,其中,重點(diǎn)看三個(gè)指標(biāo)冰评,enrichment score映胁、p值和FDR。
Pathway分析主要看P值和FDR值甲雅,兩者越小越好解孙。
GO分析還可看enrichmentscore坑填,數(shù)值越大表示某個(gè)GOterm越容易受到實(shí)驗(yàn)因素的影響。
七. 如何定位到基因呢****?
將axonguidance中的差異表達(dá)基因全部挑選出來弛姜,列表如下脐瑰。
作者在文中挑選了顯著性最高的SEMA5A作為后續(xù)的研究對(duì)象。
在我們的分析中廷臼,當(dāng)p值小于10^-6時(shí)默認(rèn)為0苍在,按照表達(dá)倍數(shù)排列SEMA5A也排在前列,和作者的結(jié)果較吻合荠商。
Ps:因參數(shù)設(shè)置和文章中不同寂恬,結(jié)果僅供參考。
八 教程 GO 和 pathway分析
目前有許多GO和pathway分析軟件莱没,GO分析軟件有Avadis(商業(yè)軟件)初肉、BiNGO(開源java)、DAVID(基于web的工具)等饰躲,pathway分析有IPA和MetaCore(商業(yè)軟件)等牙咏。
但這些軟件學(xué)習(xí)成本高,且許多都是商業(yè)軟件嘹裂。有沒有一種分析方法無門檻眠寿,直接上手就可以搞定的呢?
GCBI平臺(tái),伸手黨的福音焦蘑,生信分析方法直接加載了模塊盯拱,你需要做的只是創(chuàng)建方案,拖動(dòng)模塊例嘱,單擊運(yùn)行即可狡逢。小編用樣本GSE19804演示一下,倒數(shù)10min拼卵,GO富集分析奢浑,pathway分析全搞定。
1腋腮、進(jìn)入GCBI網(wǎng)站的在線實(shí)驗(yàn)室https://www.gcbi.com.cn(需注冊(cè)才能使用)
2雀彼、建立項(xiàng)目——方案,在方案界面即寡,拖動(dòng)模塊徊哑,修改名字和參數(shù),并用連接線將模塊連接成一個(gè)方案聪富,小編建立了如下差異分析和GO和pathway分析方案莺丑。
3、選擇樣本數(shù)據(jù)。
樣本數(shù)據(jù)GSE19804直接來自于GCBI樣本庫梢莽,將樣本發(fā)送到在線實(shí)驗(yàn)室萧豆。點(diǎn)擊方案中樣本模塊,在樣本分組管理中選擇配對(duì)樣本昏名,選擇好相應(yīng)的對(duì)照組和實(shí)驗(yàn)組樣涮雷。Lungnormal **N為對(duì)照組,Lungcancer **T為實(shí)驗(yàn)組轻局。
4份殿、設(shè)置各模塊參數(shù)
差異分析 |fold change|>1.2 P值<0.05 , Q值<0.05
GO分析 分析類型生物功能分析p值<0.01 嗽交,F(xiàn)DR<0.01
Pathway分析 p值<0.05
5、運(yùn)行方案
附錄:
文獻(xiàn)技術(shù)及參數(shù):
1颂斜、檢測(cè)手段:GeneChip Human Genome U133 Plus 2.0 expression arrays (Affymetrix, Inc.)
2夫壁、差異篩選:配對(duì)t 檢驗(yàn) (P <10^-16)和Bonferroni 校正P值
3、pathway分析:IPA軟件費(fèi)希爾精確檢驗(yàn)(fisher’s exact test) P<0.5