水稻作為禾本科重要的模式植物蛤肌,其參考基因組版本較多,使用各個(gè)版本水稻參考基因組進(jìn)行有參轉(zhuǎn)錄組分析進(jìn)行基于基因和轉(zhuǎn)錄本的表達(dá)定量分析又有一些差別痕囱。本文計(jì)劃撰寫一個(gè)系列文章,描述并記錄我近期學(xué)習(xí)基于STAR和RSEM進(jìn)行進(jìn)行水稻RNASeq分析的流程暴匠。分享筆記并記錄一些分析過程中遇到的一些坑,希望以后遇到相同問題的同學(xué)能很快的到解決傻粘。
系列第一篇主要介紹所參考的一些文獻(xiàn)每窖,閱讀的軟件文檔,安裝軟件并下載所需數(shù)據(jù)弦悉。
參考文獻(xiàn):
參考文獻(xiàn)主要簡要閱讀了一下兩篇窒典,其實(shí)只是粗略的瀏覽了一下。
[1] Sahraeian S M E, Mohiyuddin M, Sebra R, et al. Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis. Nature Communications, 2017,8(1) (doi: 10.1038/s41467-017-00050-4)
[2] Conesa A, Madrigal P, Tarazona S, et al. A survey of best practices for RNA-seq data analysis. Genome Biology, 2016,17(1). doi: 10.1186/s13059-016-0881-8
參考文檔:
[1] STAR MANUAL
[2] RSEM MANUAL
[3] 一個(gè)RNA-seq實(shí)戰(zhàn)-超級簡單-2小時(shí)搞定稽莉!
[4] 一個(gè)植物轉(zhuǎn)錄組項(xiàng)目的實(shí)戰(zhàn)
軟件安裝
下面開始軟件安裝瀑志,為了方便,主要是用conda安裝所所需軟件污秆。
首先劈猪,為此次分析創(chuàng)建一個(gè)環(huán)境:
# 創(chuàng)建環(huán)境
conda create -n rnaseq
# 進(jìn)入環(huán)境
source activate rnaseq
然后開始安裝軟件,質(zhì)控所需軟件選擇的是fastqc和multiqc良拼,過濾低質(zhì)量reads選擇的軟件是trim-galore战得。
# 安裝軟件
# 質(zhì)控
conda install -y -n rnaseq fastqc multiqc trim-galore
# 比對
conda install -y -n rnaseq star
# 計(jì)數(shù)
conda install -y -n rnaseq rsem
下載數(shù)據(jù)
EBI數(shù)據(jù)庫批量下載方法參考:從NCBI-SRA和EBI-ENA數(shù)據(jù)庫下載數(shù)據(jù)
vim ENA-Aspera-FASTQ.txt
/vol1/fastq/SRR393/002/SRR3932372/SRR3932372_1.fastq.gz
/vol1/fastq/SRR393/001/SRR3932371/SRR3932371_1.fastq.gz
/vol1/fastq/SRR393/000/SRR3932370/SRR3932370_1.fastq.gz
/vol1/fastq/SRR393/009/SRR3932369/SRR3932369_1.fastq.gz
/vol1/fastq/SRR393/008/SRR3932368/SRR3932368_1.fastq.gz
/vol1/fastq/SRR393/007/SRR3932367/SRR3932367_1.fastq.gz
/vol1/fastq/SRR393/002/SRR3932372/SRR3932372_2.fastq.gz
/vol1/fastq/SRR393/001/SRR3932371/SRR3932371_2.fastq.gz
/vol1/fastq/SRR393/000/SRR3932370/SRR3932370_2.fastq.gz
/vol1/fastq/SRR393/009/SRR3932369/SRR3932369_2.fastq.gz
/vol1/fastq/SRR393/008/SRR3932368/SRR3932368_2.fastq.gz
/vol1/fastq/SRR393/007/SRR3932367/SRR3932367_2.fastq.gz
ascp -v -Q -T -l 400m -P33001 -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \
--mode recv --host fasp.sra.ebi.ac.uk --user era-fasp \
--file-list ENA-Aspera-FASTQ.txt \
./
好了庸推,準(zhǔn)備工作基本完成常侦,下一篇文章開始對數(shù)據(jù)進(jìn)行質(zhì)控和過濾。敬請期待贬媒。
希望對大家有所幫助聋亡,有誤之處也希望大家不吝賜教。
OS information: Ubuntu 16.04 (Linux 4.4.0-150-generic)
conda version: conda 4.7.5 (Python 3.6.8)