按照我們帶領(lǐng)10萬人入門生物信息學(xué)的經(jīng)驗來看,RNA-seq基礎(chǔ)數(shù)據(jù)分析無疑是最適合初學(xué)者的,我們劃分好了8個部分:[link]https://mp.weixin.qq.com/s/UudD1ZhKaFPvwugUBL7z3A 而且也有完整的視頻學(xué)習(xí)資料:
- 代碼參考: [link]http://www.reibang.com/p/a84cd44bac67
- 視頻教程見: [link]https://www.bilibili.com/video/av28453557
所以我們的RNA-seq小考核也是基于此!
Q1: 參考基因組及注釋文件下載地址
列出人勤晚,小鼠,擬南芥的基因組序列,轉(zhuǎn)錄組cDNA序列砚作,基因組注釋gtf文件下載地址
Q2: 找到文章的測序數(shù)據(jù)
2018年12月的NC文章:Spatially and functionally distinct subclasses of breast cancer-associated fibroblasts revealed by single cell RNA sequencing
[link]https://www.nature.com/articles/s41467-018-07582-3使用成熟的單細(xì)胞轉(zhuǎn)錄組( Smart-seq2 )
手段探索了癌相關(guān)的成纖維細(xì)胞 CAFs的功能和空間異質(zhì)性。
Q3:下載測序數(shù)據(jù)
主要是理解GEO鏈接:GSE111229
和原始測序數(shù)據(jù):SRP133642
兩個鏈接
Q4: 任意挑選6個樣本走標(biāo)準(zhǔn)的RNA-seq上游流程
即 sra → fastq→bam→counts
注意每個步驟的質(zhì)控細(xì)節(jié)嘹锁,注意每個步驟的文件格式轉(zhuǎn)換背后的生物學(xué)意義葫录。
代碼參考在:code
[link]https://github.com/jmzeng1314/scRNA_smart_seq2/blob/master/shell.txt
Q5: 理解RNA-seq上游流程得到的表達(dá)矩陣的多種形式
包括 每個基因比對到的reads數(shù)量
的counts矩陣,以及去除了每個細(xì)胞測序數(shù)據(jù)量(文庫大辛旎)
差異后的 rpm 矩陣米同,以及去除了基因長度效應(yīng)
的 rpkm矩陣,以及最近比較流行的tpm 矩陣
摔竿。
Q6: 任取6個樣本表達(dá)矩陣隨意分成2組走差異分析代碼
代碼參考:[link]https://github.com/jmzeng1314/GEO/tree/master/airway_RNAseq
需要匯總PCA,heatmap,火山圖面粮,MA圖,CV圖等等
Q7:挑選差異分析結(jié)果的統(tǒng)計學(xué)顯著上調(diào)下調(diào)基因集
在R里面继低,對統(tǒng)計學(xué)顯著上調(diào)下調(diào)基因集熬苍,進(jìn)行GO/KEGG等數(shù)據(jù)庫的超幾何分布檢驗分析,原理參考:[link]https://mp.weixin.qq.com/s/M6CRe39xmQ_lSQqeM99kow
Q8: 直接對任取6個樣本表達(dá)矩陣做GSVA分析
參考代碼:[link]https://github.com/jmzeng1314/GEO