Overview:
RNA測(cè)序結(jié)果首先在Linux/Unix中通過命令行得到每個(gè)基因的讀數(shù)(read counts)囚似,接著在R中利用R包進(jìn)行統(tǒng)計(jì)分析洒放,找到差異表達(dá)的基因,從而發(fā)掘生物意義咱台。這部分內(nèi)容所要介紹的就是如何通過R來找到差異表達(dá)的基因蛤奢。
開始前的設(shè)置
在開始數(shù)據(jù)處理與分析前,有條理地建立文件夾與目錄非常重要饵骨,下面將簡(jiǎn)述開始前的設(shè)置流程:
1.建立R的工程(Project)翘悉,建立新的Directory。
2.依次在Directory中建立三個(gè)子集:data,meta和results宏悦,分別用來儲(chǔ)存原數(shù)據(jù)镐确、中間處理的數(shù)據(jù)以及最后的結(jié)果。
3.載入library饼煞,對(duì)于沒有安裝的R包源葫,用install.package("")指令安裝。
4.載入數(shù)據(jù)
## Load in data
data<-read.table("data/Mov10_full_counts.txt",header=T,row.names=1)
meta<-read.table("meta/Mov10_full_meta.txt",header=T,row.names=1)??
5.讀取數(shù)據(jù):知道數(shù)據(jù)的類型砖瞧,并簡(jiǎn)單查看數(shù)據(jù)息堂。
RNA-seq讀數(shù)分布
The goal of differential expression analysis is to determine, for each gene, whether the differences in expression (counts)?between groups?is significant given the amount of variation observed?within groups?(replicates).?
將基因表達(dá)讀數(shù)(counts)繪制成柱狀圖,就會(huì)發(fā)現(xiàn)块促,很大一部分基因的讀數(shù)接近于0荣堰,這就是RNA測(cè)序數(shù)據(jù)的特點(diǎn):與大量基因的讀數(shù)很低,由于缺乏表達(dá)上限而導(dǎo)致的長(zhǎng)右尾竭翠。
ggplot(data) +
? geom_histogram(aes(x = Mov10_oe_1), stat = "bin", bins = 200) +
? xlab("Raw expression counts") +
? ylab("Number of genes")
若將x軸放大一些振坚,可以更加明顯地看出低讀數(shù)基因數(shù)目之多。
ggplot(data) +
? geom_histogram(aes(x = Mov10_oe_1), stat = "bin", bins = 200) +
? xlim(-5, 500)? +
? xlab("Raw expression counts") +
? ylab("Number of genes")
RNA測(cè)序數(shù)據(jù)的分布擬合
單個(gè)樣本的RNA測(cè)序數(shù)據(jù)通常認(rèn)為是符合泊松分布的斋扰,滿足分布的一個(gè)前提是均值和方差相等渡八,但是生物學(xué)樣本總存在差異啃洋,在重復(fù)組之間存在變異性,此時(shí)負(fù)二項(xiàng)式模型較為合適屎鳍,特點(diǎn)就是均值小于方差宏娄。
泊松分布容易低估變異性,導(dǎo)致假陽性差異表達(dá)基因的出現(xiàn)逮壁,這也是為什么需要有生物學(xué)重復(fù)的原因孵坚,用生物學(xué)重復(fù)能夠提高平均值、減少方差窥淆,避免假陽性的出現(xiàn)卖宠。
本學(xué)習(xí)筆記主要參考了Github上的DGE_workshop教程