原文鏈接:原文鏈接
在做轉(zhuǎn)錄組分析的時(shí)候,如何從眾多差異基因中篩選出目標(biāo)基因呢?
下面就以一篇文章為例,來(lái)看看用什么方法可以縮小差異基因范圍,使目標(biāo)基因挑選更有針對(duì)性凝颇。
文章案例
Identification of a novel biomarker, SEMA5A, for non-small celllung carcinoma in nonsmoking women
相關(guān)基因:SEMA5A
相關(guān)疾病:Carcinoma,Non-Small-Cell Lung;Lung Neoplasms
PMID: 20802022?影響因子3.622 ? ? ? ?GEO?相關(guān)樣本:120
文章作者使用AffymetrixU133plus2.0芯片1檢測(cè)了臺(tái)灣地區(qū)非吸煙肺癌女性患者60對(duì)癌癥和癌旁肺組織樣本疹鳄,利用配對(duì)T檢驗(yàn)篩選了腫瘤組織中687個(gè)差異表達(dá)基因2拧略,并且利用逆轉(zhuǎn)錄PCR和免疫組化進(jìn)行了驗(yàn)證。如何將687個(gè)縮小范圍呢?因此我們需要判斷差異基因在肺癌細(xì)胞中主要富集在哪些功能類群和代謝通路瘪弓。文章作者利用IPA(IngenuityPathway Analysis)軟件對(duì)差異基因進(jìn)行了功能分析垫蛆,篩選出了16條顯著性代謝通路3。在最顯著改變的三條通路中腺怯,其中兩條都和軸突導(dǎo)向信號(hào)通路(axonguidance)相關(guān)袱饭,作者很意外,于是就選定了軸突導(dǎo)向信號(hào)通路呛占,并在其中挑選了差異表達(dá)倍數(shù)最高的SEMA5A基因作為后續(xù)的研究對(duì)象虑乖。作者最后利用kaplan-Meier生存分析證明了SEMA5A基因的低表達(dá)和非吸煙女性肺癌的低生存率有關(guān)聯(lián),其可能成為非小細(xì)胞肺癌預(yù)后的一個(gè)有效的生物標(biāo)志物晾虑,也可能代表臺(tái)灣地區(qū)病人的性別特異性疹味。
歸納一下作者的整體思路,先找差異基因帜篇,并通過(guò)功能分析進(jìn)一步縮小差異基因的范圍糙捺,再?gòu)闹杏嗅槍?duì)性的挑選基因。
在差異基因的功能分析中笙隙,主要有GO功能分析和pathway分析洪灯,上面案例作者主要用了pathway分析。
名詞解釋
GO
GO是Geneontology的縮寫(xiě)竟痰,GO數(shù)據(jù)庫(kù)分別從功能签钩、參與的生物途徑及細(xì)胞中的定位對(duì)基因產(chǎn)物進(jìn)行了標(biāo)準(zhǔn)化描述,即對(duì)基因產(chǎn)物進(jìn)行簡(jiǎn)單注釋凯亮,通過(guò)GO富集分析可以粗略了解差異基因富集在哪些生物學(xué)功能边臼、途徑或者細(xì)胞定位哄尔。
Pathway
Pathway指代謝通路假消,對(duì)差異基因進(jìn)行pathway分析,可以了解實(shí)驗(yàn)條件下顯著改變的代謝通路岭接,在機(jī)制研究中顯得尤為重要富拗。
GO分析好比是將基因分門(mén)別類放入一個(gè)個(gè)功能類群的籃子臼予,而pathway則是將基因一個(gè)個(gè)具體放到代謝網(wǎng)絡(luò)中的指定位置。
文章分析結(jié)果
小編利用上述案例中的數(shù)據(jù)GSE19804在GCBI在線實(shí)驗(yàn)室首先進(jìn)行差異分析(|foldchange|>2, P值<0.001Q值<0.05)啃沪,得到了2202個(gè)差異基因粘拾。將差異基因分別進(jìn)行GO(P值<0.01,F(xiàn)DR<0.01)和pathway分析(P值<0.05)创千,富集得到351個(gè)GO term和110條pathway缰雇。結(jié)果如下圖所示,表一和表二分別為部分GO富集結(jié)果和最顯著的15條pathway分析結(jié)果追驴。
結(jié)果怎么看呢?
表頭各個(gè)參數(shù)的解釋如下械哟,其中,重點(diǎn)看三個(gè)指標(biāo)殿雪,enrichment score暇咆、p值和FDR。Pathway分析主要看P值和FDR值丙曙,兩者越小越好爸业。GO分析還可看enrichmentscore,數(shù)值越大表示某個(gè)GOterm越容易受到實(shí)驗(yàn)因素的影響亏镰。
GO和pathway分析結(jié)果中都得到了文章中選定的axonguidance這個(gè)結(jié)果(紅框)扯旷。
如何定位到基因呢?
將axonguidance中的差異表達(dá)基因全部挑選出來(lái),列表如下拆挥。作者在文中挑選了顯著性最高的SEMA5A作為后續(xù)的研究對(duì)象薄霜。在我們的分析中,當(dāng)p值小于10^-6時(shí)默認(rèn)為0纸兔,按照表達(dá)倍數(shù)排列SEMA5A也排在前列惰瓜,和作者的結(jié)果較吻合。
Ps:因參數(shù)設(shè)置和文章中不同汉矿,結(jié)果僅供參考崎坊。
教程:GO和pathway分析
目前有許多GO和pathway分析軟件,GO分析軟件有Avadis(商業(yè)軟件)洲拇、BiNGO(開(kāi)源java)奈揍、DAVID(基于web的工具)等,pathway分析有IPA和MetaCore(商業(yè)軟件)等赋续。
但這些軟件學(xué)習(xí)成本高男翰,且許多都是商業(yè)軟件。有沒(méi)有一種分析方法無(wú)門(mén)檻纽乱,直接上手就可以搞定的呢?
GCBI平臺(tái)蛾绎,伸手黨的福音,生信分析方法直接加載了模塊,你需要做的只是創(chuàng)建方案租冠,拖動(dòng)模塊鹏倘,單擊運(yùn)行即可。小編用樣本GSE19804演示一下顽爹,倒數(shù)10min纤泵,GO富集分析,pathway分析全搞定镜粤。
1捏题、進(jìn)入GCBI網(wǎng)站的在線實(shí)驗(yàn)室https://www.gcbi.com.cn(需注冊(cè)才能使用)
2、建立項(xiàng)目——方案肉渴,在方案界面涉馅,拖動(dòng)模塊,修改名字和參數(shù)黄虱,并用連接線將模塊連接成一個(gè)方案稚矿,小編建立了如下差異分析和GO和pathway分析方案。
3捻浦、選擇樣本數(shù)據(jù)晤揣。
樣本數(shù)據(jù)GSE19804直接來(lái)自于GCBI樣本庫(kù),將樣本發(fā)送到在線實(shí)驗(yàn)室朱灿。點(diǎn)擊方案中樣本模塊昧识,在樣本分組管理中選擇配對(duì)樣本,選擇好相應(yīng)的對(duì)照組和實(shí)驗(yàn)組樣盗扒。Lungnormal **N為對(duì)照組跪楞,Lungcancer **T為實(shí)驗(yàn)組。
4侣灶、設(shè)置各模塊參數(shù)
差異分析?|fold change|>1.2 P值<0.05?甸祭,?Q值<0.05
GO分析?分析類型生物功能分析p值<0.01?,F(xiàn)DR<0.01
Pathway分析?p值<0.05
5褥影、運(yùn)行方案
是不是毫無(wú)壓力?
附錄:
文獻(xiàn)技術(shù)及參數(shù):
1池户、檢測(cè)手段:GeneChip Human Genome U133 Plus 2.0 expression arrays (Affymetrix, Inc.)
2、差異篩選:配對(duì)t?檢驗(yàn)?(P <10^-16)和Bonferroni?校正P值
3凡怎、pathway分析:IPA軟件費(fèi)希爾精確檢驗(yàn)(fisher’s exact test) P<0.5
檢測(cè)工具選擇
可使用其他檢測(cè)工具
GeneChip? Human Gene2.0 arrays
GeneChip? HumanTranscriptome Array 2.0(推薦)
拓展知識(shí)