Hisat2+FeatureCounts+DESeq2流程+作圖!

featureCounts是一個(gè)用來統(tǒng)計(jì)count數(shù)的軟件,運(yùn)行的速度飛快魄咕,比之前用的htseq-count快了好多好多。 照例先說一下怎么下載這個(gè)軟件:

wget https://jaist.dl.sourceforge.net/project/subread/subread-1.6.2/subread-1.6.2-Linux-x86_64.tar.gz
tar -zxvf  subread-1.6.2-Linux-x86_64.tar.gz
cd subread-1.6.2-Linux-x86_64/bin
./featureCounts -h

然后來說這次的流程蚌父。 照舊用Hisat2來比對(duì)出Bam文件之后哮兰。 使用featureCounts統(tǒng)計(jì):

featureCounts \
    -T 16 \
    -p \
    -t exon \
    -g gene_id \
    -a Homo_sapiens.GRCh38.92.chr_patch_hapl_scaff.gtf \
    -o all_feature.txt \
    1.sort.bam \
    2.sort.bam \
    3.sort.bam \
    4.sort.bam

# -T 使用的線程數(shù)
# -p 如果是paird end 就用
# -t 將exon作為一個(gè)feature
# -g 將gene_id作為一個(gè)feature
# -a 參考的gtf/gff
# -o 輸出文件
# 最后加上bam文件,有幾個(gè)就加幾個(gè)

然后會(huì)得到兩個(gè)文件苟弛,一個(gè)是結(jié)果喝滞,一個(gè)是結(jié)果的summary。 接下來就可以用DESeq2對(duì)結(jié)果進(jìn)行愉快的操作了膏秫。 使用R右遭。 我這次的樣本有6個(gè)。

library(DESeq2)

## 數(shù)據(jù)預(yù)處理
sampleNames <- c("10A_1", "10A_2", "10A_3", "7_1", "7_2", "7_3")
# 第一行是命令信息荔睹,所以跳過
data <- read.table("all_feature.txt", header=TRUE, quote="\t", skip=1)
# 前六列分別是Geneid  Chr Start   End Strand  Length
# 我們要的是count數(shù)狸演,所以從第七列開始
names(data)[7:12] <- sampleNames
countData <- as.matrix(data[7:12])
rownames(countData) <- data$Geneid
database <- data.frame(name=sampleNames, condition=c("10A", "10A", "10A", "7", "7", "7"))
rownames(database) <- sampleNames

## 設(shè)置分組信息并構(gòu)建dds對(duì)象
dds <- DESeqDataSetFromMatrix(countData, colData=database, design= ~ condition)
dds <- dds[ rowSums(counts(dds)) > 1, ]

## 使用DESeq函數(shù)估計(jì)離散度,然后差異分析獲得res對(duì)象
dds <- DESeq(dds)
res <- results(dds)
write.csv(res, "res_des_output.csv")
resdata <- merge(as.data.frame(res), as.data.frame(counts(dds, normalized=TRUE)),by="row.names",sort=FALSE)
write.csv(resdata, "all_des_output.csv", row.names=FALSE)

輸出兩個(gè)文件僻他,一個(gè)只有差異統(tǒng)計(jì)的結(jié)果宵距,一個(gè)包含各個(gè)樣本的結(jié)果。 這樣就完成了DESeq2了吨拗。

接下來是作圖: 一满哪、MA圖 MA圖是拿來展示數(shù)據(jù)表達(dá)是否異常,現(xiàn)在一般都不用了劝篷。

# library(DESeq2)
plotMA(res, main="DESeq2", ylim=c(-2, 2))

MA.png

二哨鸭、火山圖 可以非常直觀且合理地篩選出在兩樣本間發(fā)生差異表達(dá)的基因。

library(ggplot2)

# 這里的resdata也可以用res_des_output.csv這個(gè)結(jié)果重新導(dǎo)入哦娇妓。
# 現(xiàn)在就是用的前面做DESeq的時(shí)候的resdata像鸡。
resdata$change <- as.factor(
    ifelse(
        resdata$padj<0.01 & abs(resdata$log2FoldChange)>1,
        ifelse(resdata$log2FoldChange>1, "Up", "Down"),
        "NoDiff"
    )
)
valcano <- ggplot(data=resdata, aes(x=log2FoldChange, y=-log10(padj), color=change)) + 
    geom_point(alpha=0.8, size=1) + 
    theme_bw(base_size=15) + 
    theme(
        panel.grid.minor=element_blank(),
        panel.grid.major=element_blank()
    ) + 
    ggtitle("DESeq2 Valcano") + 
    scale_color_manual(name="", values=c("red", "green", "black"), limits=c("Up", "Down", "NoDiff")) + 
    geom_vline(xintercept=c(-1, 1), lty=2, col="gray", lwd=0.5) + 
    geom_hline(yintercept=-log10(0.01), lty=2, col="gray", lwd=0.5)

valcano

valcano.png

三、PCA圖 就是主成分分析哈恰。是把數(shù)據(jù)降維之后進(jìn)行分析只估。PC1和PC2分別是貢獻(xiàn)率第一的主成分和貢獻(xiàn)率第二的主成分志群。

# library(ggplot2)
rld <- rlog(dds)
pcaData <- plotPCA(rld, intgroup=c("condition", "name"), returnData=T)
percentVar <- round(100*attr(pcaData, "percentVar"))
pca <- ggplot(pcaData, aes(PC1, PC2, color=condition, shape=name)) + 
    geom_point(size=3) + 
    ggtitle("DESeq2 PCA") + 
    xlab(paste0("PC1: ", percentVar[1], "% variance")) + 
    ylab(paste0("PC2: ", percentVar[2], "% variance"))
pca

pca.png

四、熱圖 heatmap 實(shí)現(xiàn)這基因表達(dá)模式可視化的需求蛔钙。 從這里可以看到這6個(gè)樣本的表達(dá)差異锌云。

library(pheatmap)

select <- order(rowMeans(counts(dds, normalized=T)), decreasing=T)[1:1000]
nt <- normTransform(dds)
log2.norm.counts <- assay(nt)[select,]
df <- as.data.frame(colData(dds)[, c("name", "condition")])
pheatmap(log2.norm.counts, cluster_rows=T, show_rownames=F, cluster_cols=T, annotation_col=df, fontsize=6)

heatmap.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市吁脱,隨后出現(xiàn)的幾起案子桑涎,更是在濱河造成了極大的恐慌,老刑警劉巖兼贡,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件攻冷,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡紧显,警方通過查閱死者的電腦和手機(jī)讲衫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來孵班,“玉大人涉兽,你說我怎么就攤上這事「莩蹋” “怎么了枷畏?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)虱饿。 經(jīng)常有香客問我拥诡,道長(zhǎng),這世上最難降的妖魔是什么氮发? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任渴肉,我火速辦了婚禮,結(jié)果婚禮上爽冕,老公的妹妹穿的比我還像新娘仇祭。我一直安慰自己,他們只是感情好颈畸,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布乌奇。 她就那樣靜靜地躺著,像睡著了一般眯娱。 火紅的嫁衣襯著肌膚如雪礁苗。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天徙缴,我揣著相機(jī)與錄音试伙,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛迁霎,可吹牛的內(nèi)容都是我干的吱抚。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼考廉,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了携御?” 一聲冷哼從身側(cè)響起昌粤,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎啄刹,沒想到半個(gè)月后涮坐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡誓军,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年袱讹,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片昵时。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡捷雕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出壹甥,到底是詐尸還是另有隱情救巷,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布句柠,位于F島的核電站浦译,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏溯职。R本人自食惡果不足惜精盅,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望谜酒。 院中可真熱鬧叹俏,春花似錦、人聲如沸甚带。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)鹰贵。三九已至晴氨,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間碉输,已是汗流浹背籽前。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人枝哄。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓肄梨,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親挠锥。 傳聞我的和親對(duì)象是個(gè)殘疾皇子众羡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容