文章,重在研究思路定拟。有好的思路于微,才能有精彩的故事。很多時候青自,我們想找一個好點子株依,比如性狀,疾病相關的關鍵分子延窜,需要設計實驗恋腕,做大量的分子篩選的工作,對于土豪實驗室可以可以大把的花錢做芯片或者高通量測序做前期的篩選工作逆瑞。但是如果你所處的實驗室或者科室經費少荠藤,樣本也不多,而無法開展研究获高,而又想發(fā)SCI文章哈肖,此時我們最經濟有效的方法就是:分析一下別人的數(shù)據,篩選出一些有價值的分子(mRNA念秧,miRNA淤井,lncRNA,circRNA摊趾,lncRNA)币狠,之后在自己的小樣本中驗證一下,發(fā)篇SCI文章還是輕輕松松的砾层。接下來我們來介紹一篇挖掘GEO,TCGA數(shù)據庫漩绵,篩選關鍵分子的文章。
文章1:
文章今年(2018)發(fā)表在:Cancer Management and Research 上IF=3.851肛炮。該文章發(fā)表的雜志影響因子雖然不高止吐,但是分析思路還是可以借鑒的:文章主要分析結論是:利用公共數(shù)據(GEO,TCGA數(shù)據)铸董,通過數(shù)據篩選分析后發(fā)現(xiàn)兩個miRNA(miR-182 and miR-20a)可以作為結直腸癌(colorectal cancer CRC)診斷的分子標志物祟印,然后在組織和血液中進行驗證肴沫,最終確定診斷參數(shù)粟害。主要的分析思路分為三大步,如下圖所示圖所示:
第一步:利用公共數(shù)據進行篩選biomarker(Discovery phase)
首先颤芬,作者利用GEO數(shù)據庫當中關于CRC的4個miRNA表達芯片數(shù)據悲幅,尋找患病樣品和正常樣品中差異表達的miRNA套鹅,通過取交集初步篩選到8個miRNA,再利用TCGA數(shù)據庫中的CRC樣本進行篩選汰具,和qRT-PCR驗證卓鹿,其驗證不僅在組織樣中,同時還在血液中進行篩選留荔,方便后續(xù)通過血液檢測篩查CRC患者吟孙。最終確定了兩個miRNA在CRC患者的組織和血液中表達都有上調,可作為CRC的分子診斷候選標志物(miR-182 and miR-20a)聚蝶。
第二步:做訓練數(shù)據集杰妓,確定診斷參數(shù)(Training phase)
之后,作者在自己收集的CRC患者血液樣本中進行驗證碘勉,40個健康樣品巷挥,40個CRC患者樣本,發(fā)現(xiàn)這兩個miRNA在患者和對照中表達都存在差異验靡,最終通過分析ROC線確定分類參數(shù)倍宾。
第三步:擴大數(shù)據集,確定最佳診斷參數(shù)(Validation phase)
最后作者擴大樣品到150個胜嗓,分別為健康樣品50個高职,Adenoma(腺瘤)樣品50個和CRC患者(stage I)進行驗證并繪制ROC曲線,最終確定兼蕊,診斷參數(shù):
miR-182,miR-20a, and 2-miRNA combination were 2.620, 1.355,and 2.147, respectively.
文章2:
題目:Expression profiles analysis identifies anovel three-mRNA signature to predict overall survival in oral squamous cellcarcinoma
期刊:Am J Cancer Res
分數(shù):3.2
疾病:口腔鱗細胞癌(OSCC)
文章思路:
利用GSE13601,GSE30784, GSE37991三個mRNA芯片表達數(shù)據以及TCGA中OSCC表達數(shù)據分別做對照和患者差異基因分析初厚,篩選到顯著差異表達的76個上調基因、106個下調基因孙技;然后進行GO和KEGG通路富集分析产禾、PPI網絡分析,IPA通路分析牵啦,生存分析等聯(lián)合分析最終篩選到PLAU, CLDN8 and CDKN2A與OSCC預后相關亚情,并且在另一個GEO數(shù)據GSE41613中得到了驗證。
總結:
大家可以發(fā)現(xiàn)哈雏,GEO數(shù)據挖掘楞件,以及TCGA數(shù)據的挖掘就是這個套路,先確定自己要分析的疾病裳瘪,然后下數(shù)據土浸,差異表達分析,篩選得到幾個關鍵的分子(可以是lncRNA彭羹,mRNA黄伊,miRNA,circRNA)派殷,然后進行GO富集分析还最,Pathway富集分析墓阀,GSEA富集分析,PPI分析拓轻,IPA通路分析等斯撮,再做生存分析,ROC曲線分析等扶叉,就可以得到與疾病診斷相關的biomarker勿锅。如果要進一步發(fā)高分的文章,知其然更要知其所以然枣氧×桓Γ可以再做一下小鼠模型,細胞模型作瞄,敲除茶宵,過表達等,對分子機理進行深入研究宗挥,干濕結合乌庶,文章就能再上一個層次。另外契耿,還有其他套路組合瞒大,例如做一下WGCNA,或者聯(lián)合Oncomine數(shù)據挖掘等等搪桂。
相關課程鏈接見下方:
學習鏈接:TCGA-差異基因分析透敌、GEO芯片數(shù)據挖掘、GSEA富集分析課程踢械、TCGA臨床數(shù)據生存分析酗电、TCGA-轉錄因子分析、TCGA-ceRNA調控網絡分析
更多生物信息課程:
1. 文章越來越難發(fā)内列?是你沒發(fā)現(xiàn)新思路撵术,基因家族分析發(fā)2-4分文章簡單快速,學習鏈接:基因家族分析實操課程话瞧、基因家族文獻思路解讀
2. 轉錄組數(shù)據理解不深入嫩与?圖表看不懂?點擊鏈接學習深入解讀數(shù)據結果文件交排,學習鏈接:轉錄組(有參)結果解讀划滋;轉錄組(無參)結果解讀
3. 轉錄組數(shù)據深入挖掘技能-WGCNA,提升你的文章檔次埃篓,學習鏈接:WGCNA-加權基因共表達網絡分析
4. 轉錄組數(shù)據怎么挖掘处坪?學習鏈接:轉錄組標準分析后的數(shù)據挖掘、轉錄組文獻解讀
5.?微生物16S/ITS/18S分析原理及結果解讀、OTU網絡圖繪制稻薇、cytoscape與網絡圖繪制課程
6. 生物信息入門到精通必修基礎課,學習鏈接:linux系統(tǒng)使用胶征、perl入門到精通塞椎、perl語言高級、R語言畫圖
7. 醫(yī)學相關數(shù)據挖掘課程睛低,不用做實驗也能發(fā)文章案狠,學習鏈接:TCGA-差異基因分析、GEO芯片數(shù)據挖掘钱雷、GSEA富集分析課程骂铁、TCGA臨床數(shù)據生存分析、TCGA-轉錄因子分析罩抗、TCGA-ceRNA調控網絡分析
8.其他課程鏈接:二代測序轉錄組數(shù)據自主分析拉庵、NCBI數(shù)據上傳、二代測序數(shù)據解讀套蒂。