前言
做RNAseq有半年了昼激,最近比較有時間限煞,所以想把流程記錄一下抹恳。并且搞清楚很多知其然而不知其所以然的細(xì)節(jié)步驟。
分析流程
- 從獲取原始數(shù)據(jù)署驻,中間經(jīng)歷過濾奋献、比對,到featureCounts統(tǒng)計基因上的reads數(shù)旺上,這些都需要在服務(wù)器上操作瓶蚂,是傳統(tǒng)意義上的上游流程。
- 從reads數(shù)統(tǒng)計的結(jié)果宣吱,經(jīng)過表達(dá)矩陣構(gòu)建窃这、基因ID轉(zhuǎn)換、去冗余ID征候、表達(dá)量單位轉(zhuǎn)換杭攻,最終拿到可靠的表達(dá)矩陣,這些過程需要在R中完成疤坝,屬于下游流程的開頭兆解。這一部分比較復(fù)雜,不同物種跑揉,數(shù)據(jù)格式調(diào)整都有很多差異锅睛,我做了師兄師姐們的human數(shù)據(jù)、小鼠數(shù)據(jù)和大鼠數(shù)據(jù)畔裕,通常這一步驟都需要花費一些時間衣撬。
- 拿到表達(dá)矩陣,然后用R走差異分析扮饶、富集分析等等具练,這屬于下游分析。
上游分析
第一次操作時要經(jīng)歷以下步驟甜无,申請服務(wù)器的子賬號扛点,會有一個操作手冊,按照方法登陸之后岂丘,后續(xù)操作都在這個服務(wù)器中進(jìn)行陵究,操作方式類似linux ,學(xué)過這個的應(yīng)該會容易操作奥帘。
1.天河二號hillstone secure登錄
2.登錄WinSCP铜邮,密鑰登錄(見天河手冊)
3.下載PuTTY,登錄后開始作業(yè)
4.在PUTTY中下載hisat2,samtool軟件松蒜、featureCounts軟件并且成功安裝扔茅。
5.下載人類基因組序列,fasta文件秸苗,建立索引召娜,或者直接在官網(wǎng)hisat2下載索引。
注:安裝軟件時惊楼,先解壓到新建目錄下面玖瘸,然后執(zhí)行configure(參考百度),執(zhí)行make 命令檀咙,執(zhí)行make install命令進(jìn)行安裝雅倒。最后建立環(huán)境變量,在任何位置都可以打開這個軟件攀芯⊥投希可以在根目錄打開.bashrc文件文虏,加入新的環(huán)境變量語句侣诺。
#!/bin/sh
yhrun -N 1 -n 1 -p work hisat2 -q -x ../reference/mRatBN7.2 -1 ../rawdata/A1-con_FRAS210203403-2r_1.clean.fq.gz -2 ../rawdata/A1-con_FRAS210203403-2r_2.clean.fq.gz -S A1-con.sam
yhrun -N 1 -n 1 -p work samtools view -bS A1-con.sam > A1-con.bam
yhrun -N 1 -n 1 -p work samtools sort A1-con.bam -o A1-con.sorted.bam
yhrun -N 1 -n 1 -p work featureCounts -p -t exon -g gene_id -a ../reference/mRatBN7.2_genomic.gtf -o counts.txt \
A1-sorted.bam A2-sorted.bam A3-sorted.bam \
A4-sorted.bam A5-sorted.bam
awk -F '\t' '{print $1,$7,$8,$9,$10,$11,$12,$13,$14,$15,$16,$17,$18,$19,$20,$21}' OFS='\t' counts.txt > counts_matrix.txt
分析成功會得到這樣的運行結(jié)果文件
image.png
image.png