身處大數(shù)據(jù)時代,沒錢做實(shí)驗(yàn)沒關(guān)系蝠咆,無數(shù)人正在幫你做實(shí)驗(yàn)積累數(shù)據(jù)康聂;是嗎贰健?是的!不信接著往下看恬汁!
1. 目前公開的數(shù)據(jù)非常之多之前我們介紹了NCBI的SRA數(shù)據(jù)庫(Sequence Read Archive用于存儲二代測序的原始數(shù)據(jù))中數(shù)據(jù)在快速的增長伶椿,目前已經(jīng)積累了14P的數(shù)據(jù),大量的數(shù)據(jù)等待著被進(jìn)一步的挖掘氓侧。
2. 大量數(shù)據(jù)很少被挖掘?雖然公開的數(shù)據(jù)非常的多脊另,但是基本上只有數(shù)據(jù)提交者對數(shù)據(jù)進(jìn)行了一次分析,很少有數(shù)據(jù)被多次挖掘约巷。
有了這些基礎(chǔ)尝蠕,也就有了“吃螃蟹的人”,挖掘別人的數(shù)據(jù)载庭,發(fā)表自己的文章!想一想,這是一個多么勵志的故事扒艟邸靖榕!
哪些數(shù)據(jù)更適合深挖?
公開的數(shù)據(jù)那么多顽铸,哪些數(shù)據(jù)值得挖掘呢茁计?可以從以下3個方面來篩選:
1. 樣本數(shù)量?樣本越多,可以分析的內(nèi)容就越多谓松,文章可寫的內(nèi)容也就越多星压,所以首選樣本數(shù)量多的數(shù)據(jù)。
2. 數(shù)據(jù)類型?組學(xué)數(shù)據(jù)類型越多越好鬼譬,這樣可以針對不同的類型數(shù)據(jù)進(jìn)行分析娜膘,也可以進(jìn)行聯(lián)合分析,從不同的層面去分析一個科學(xué)問題优质。
3. 表型相關(guān)數(shù)據(jù)
有詳細(xì)表型更好竣贪,結(jié)合表型,對基因型進(jìn)行研究巩螃,功能研究就會更加的明確演怎,更加的容易。
推薦一個理想的醫(yī)學(xué)數(shù)據(jù)庫
基于以上幾個方面的特點(diǎn)避乏,今天小編給大家介紹一個很是理想的爷耀、適合進(jìn)行數(shù)據(jù)挖掘的醫(yī)學(xué)類數(shù)據(jù)庫-TCGA數(shù)據(jù)庫。
目前該數(shù)據(jù)集收錄了33種癌癥拍皮,11000多例病人的基因組歹叮,轉(zhuǎn)錄組,甲基化等多組學(xué)的數(shù)據(jù)和臨床相關(guān)數(shù)據(jù)春缕。目前已發(fā)表的TCGA相關(guān)文章達(dá)到了4300多篇盗胀。
多么巨大的一個數(shù)字啊,你是不是也想貢獻(xiàn)一篇俺簟票灰?下面一起看個TCGA數(shù)據(jù)文章實(shí)例!
挖掘的實(shí)例簡介
這是一篇2017年發(fā)表在Oncotarget上的題為:An integrated lncRNA, microRNA and mRNA signature to improve prognosis prediction of colorectal cancer 的文章, 采用TCGA公開數(shù)據(jù)進(jìn)行挖掘宅荤,分析思路及結(jié)果如下:
針對癌癥屑迂,癌旁組織的mRNA,lncRNA,miRNA進(jìn)行差異表達(dá)冯键,獲得顯著變化的分子惹盼,用于構(gòu)建生存分析模型
2. 基于差異表達(dá)的mRNA,lncRNA,miRNA惫确,構(gòu)建多因素生存分析模型手报,獲得疾病風(fēng)險評估方法
3. 在癌癥測試樣本中驗(yàn)證生存模型的風(fēng)險預(yù)測蚯舱,效果都很明顯
4. 結(jié)合癌癥的臨床TNM分期情況,構(gòu)建更好的預(yù)測模型
參考文獻(xiàn):Y xiong at all. An integrated lncRNA, microRNA and mRNA signature to improve prognosis prediction of colorectal cancer. Oncotarget, 2017, 8 (49):85463-85478.
如何入門學(xué)習(xí)TCGA數(shù)據(jù)挖掘掩蛤?
如果你不想做實(shí)驗(yàn)枉昏,又想發(fā)SCI,沒關(guān)系揍鸟,夢想依然是可以實(shí)現(xiàn)的兄裂!那就學(xué)學(xué)如何利用別人的數(shù)據(jù)吧。目前組學(xué)大講堂已經(jīng)開設(shè)了一門《TCGA-基因差異表達(dá)分析》的學(xué)習(xí)課程阳藻。該課程適合零基礎(chǔ)晰奖、入門級學(xué)習(xí)者,深入淺出地講解了TCGA數(shù)據(jù)挖掘詳細(xì)過程及分析內(nèi)容腥泥,該課程特點(diǎn)歸納如下:
1. 門檻低:本課程提供全面匾南、詳細(xì)注釋的源代碼,且代碼可以在windows環(huán)境下運(yùn)行道川,適合零基礎(chǔ)午衰、入門級學(xué)習(xí)者;如果你熟悉linux冒萄,那學(xué)習(xí)就容易了臊岸。
2. 講解細(xì)致:共包括15個課時,總時長達(dá)3個小時以上尊流,內(nèi)容詳盡帅戒,包你學(xué)的會。
3. 學(xué)習(xí)互動到位:我們有專門負(fù)責(zé)指導(dǎo)學(xué)習(xí)者自學(xué)的VIP QQ交流群崖技,群內(nèi)可以直面生信人員逻住,咨詢方便,交流順暢迎献,學(xué)習(xí)無后顧之憂瞎访。
4. 內(nèi)容豐富:本課程的主要內(nèi)容如下目錄:
怎么樣,動心了吧吁恍!點(diǎn)擊下面鏈接扒秸,觀看《醫(yī)學(xué)癌癥TCGA-基因差異表達(dá)分析》視頻教程,開啟你的學(xué)習(xí)之旅吧冀瓦!
https://study.163.com/course/introduction/1005543028.htm?share=1&shareId=1031484705
更多生物信息課程:
1. 文章越來越難發(fā)伴奥?是你沒發(fā)現(xiàn)新思路,基因家族分析發(fā)2-4分文章簡單快速翼闽,學(xué)習(xí)鏈接:基因家族分析實(shí)操課程拾徙、基因家族文獻(xiàn)思路解讀
2. 轉(zhuǎn)錄組數(shù)據(jù)理解不深入?圖表看不懂感局?點(diǎn)擊鏈接學(xué)習(xí)深入解讀數(shù)據(jù)結(jié)果文件尼啡,學(xué)習(xí)鏈接:轉(zhuǎn)錄組(有參)結(jié)果解讀暂衡;轉(zhuǎn)錄組(無參)結(jié)果解讀
3. 轉(zhuǎn)錄組數(shù)據(jù)深入挖掘技能-WGCNA,提升你的文章檔次玄叠,學(xué)習(xí)鏈接:WGCNA-加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析
4. 轉(zhuǎn)錄組數(shù)據(jù)怎么挖掘古徒?學(xué)習(xí)鏈接:轉(zhuǎn)錄組標(biāo)準(zhǔn)分析后的數(shù)據(jù)挖掘、轉(zhuǎn)錄組文獻(xiàn)解讀
5.?微生物16S/ITS/18S分析原理及結(jié)果解讀读恃、OTU網(wǎng)絡(luò)圖繪制、cytoscape與網(wǎng)絡(luò)圖繪制課程
6. 生物信息入門到精通必修基礎(chǔ)課代态,學(xué)習(xí)鏈接:linux系統(tǒng)使用寺惫、perl入門到精通、perl語言高級蹦疑、R語言畫圖
7. 醫(yī)學(xué)相關(guān)數(shù)據(jù)挖掘課程西雀,不用做實(shí)驗(yàn)也能發(fā)文章,學(xué)習(xí)鏈接:TCGA-差異基因分析歉摧、GEO芯片數(shù)據(jù)挖掘艇肴、GSEA富集分析課程、TCGA臨床數(shù)據(jù)生存分析叁温、TCGA-轉(zhuǎn)錄因子分析再悼、TCGA-ceRNA調(diào)控網(wǎng)絡(luò)分析
8.其他課程鏈接:二代測序轉(zhuǎn)錄組數(shù)據(jù)自主分析、NCBI數(shù)據(jù)上傳膝但、二代測序數(shù)據(jù)解讀冲九。