RNAseq比對流程pipeline腳本

自己在參考大牛的基礎(chǔ)上荸恕,總結(jié)了RNAseq比對流程pipeline腳本。在做好前期準備工作后艰赞,可以一步完成從fastq到表達矩陣的所有步驟莱褒,目前僅支持human Bulk RNAseq數(shù)據(jù),后續(xù)有機會會繼續(xù)學(xué)習(xí)荒叼、完善轿偎,擴展更多選項。十分歡迎大家參考使用被廓,并提供建議與意見坏晦。

1、準備分析環(huán)境

1.1 linux文件夾環(huán)境

git clone https://github.com/lishensuo/fq2count.git
# gitee備用(快): git clone https://gitee.com/li-shensuo/fq2count.git
tar -xvf fq2count.tar
work_path=/home/ssli/fq2count
cd $work_path

#為script腳本增加執(zhí)行權(quán)限
##前一個為批量比對的腳本文件伊者;后四個為去除rRNA相關(guān)的腳本文件
chmod u+x ${work_path}/scripts/BulkRNAseq.sh
chmod u+x ${work_path}/scripts/indexdb_rna
chmod u+x ${work_path}/scripts/merge-paired-reads.sh
chmod u+x ${work_path}/scripts/sortmerna
chmod u+x ${work_path}/scripts/unmerge-paired-reads.sh

#新建將會用到的文件夾
mkdir ${work_path}/0.rawfq
mkdir ${work_path}/1.rm_rrna
mkdir ${work_path}/2.trim
mkdir ${work_path}/3.align
mkdir ${work_path}/4.count]
mkdir ${work_path}/rrna_index

1.2 conda環(huán)境

cat requirement.txt
# bioconda::samtools==1.14
# bioconda::subread==2.0.1
# bioconda::refgenie==0.12.1
# bioconda::sra-tools==2.11.0
# bioconda::hisat2==2.2.1

conda create -n fq2count -y
conda activate fq2count
conda install -c conda-forge mamba -y
conda install --file=requirement.txt -y

2英遭、準備數(shù)據(jù)

2.1 參考基因組gtf文件

  • 通過refgenie下載,這里以hg38版本為例
#第一次使用refgenie需要運行下面兩行代碼
mkdir ~/refgenie
refgenie init -c ~/refgenie/genome_config.yaml

#下載hg38 gtf
refgenie pull hg38/gencode_gtf -c ~/refgenie/genome_config.yaml
echo $(refgenie seek hg38/gencode_gtf -c ~/refgenie/genome_config.yaml)

2.2 比對軟件(hisat2)索引文件

  • 通過refgenie下載亦渗,這里以hg38版本為例
refgenie pull hg38/hisat2_index -c ~/refgenie/genome_config.yaml
echo $(refgenie seek hg38/hisat2_index -c ~/refgenie/genome_config.yaml)

2.3 構(gòu)建rRNA索引文件(optional)

  • 如果考慮去除fastq文件里的rRNA reads挖诸,需要運行這一步
#使用腳本文件scripts/indexdb_rna創(chuàng)建核糖體索引
cd ${work_path}/rrna_index
${work_path}/scripts/indexdb_rna --ref ${work_path}/scripts/rRNA_databases/silva-bac-16s-id90.fasta,./silva-bac-16s-db:\
${work_path}/scripts/rRNA_databases/silva-bac-23s-id98.fasta,./silva-bac-23s-db:\
${work_path}/scripts/rRNA_databases/silva-arc-16s-id95.fasta,./silva-arc-16s-db:\
${work_path}/scripts/rRNA_databases/silva-arc-23s-id98.fasta,./silva-arc-23s-db:\
${work_path}/scripts/rRNA_databases/silva-euk-18s-id95.fasta,./silva-euk-18s-db:\
${work_path}/scripts/rRNA_databases/silva-euk-28s-id98.fasta,./silva-euk-28s:\
${work_path}/scripts/rRNA_databases/rfam-5s-database-id98.fasta,./rfam-5s-db:\
${work_path}/scripts/rRNA_databases/rfam-5.8s-database-id98.fasta,./rfam-5.8s-db

2.4 測序數(shù)據(jù)

#如下為示例分析文件
cat SRR_list.txt
# SRR12720999
# SRR12721000
# SRR12721001
SRR_file=SRR_list.txt
cd ${work_path}/0.rawfq
for srr in $(cat $SRR_file)
do
#下載sra文件
prefetch -p -X 35G ${srr} -O .
#拆分為fastq文件
fasterq-dump --split-files ${srr} -p -O  ./
rm -rf ${srr}
done

#注意是未壓縮的fastq文件,主要是考慮需要去除rRNA的情況
ls
-rw-r--r-- 1 ssli  7.5G Feb 20 10:34 SRR12720999_1.fastq
-rw-r--r-- 1 ssli  7.5G Feb 20 10:34 SRR12720999_2.fastq
-rw-r--r-- 1 ssli  7.4G Feb 20 10:45 SRR12721000_1.fastq
-rw-r--r-- 1 ssli  7.4G Feb 20 10:45 SRR12721000_2.fastq
-rw-r--r-- 1 ssli  8.0G Feb 20 10:53 SRR12721001_1.fastq
-rw-r--r-- 1 ssli  8.0G Feb 20 10:53 SRR12721001_2.fastq

3法精、批量比對

  • 指定相關(guān)參數(shù)
work_path=/home/ssli/rnaseq/fq2count
#交代是否去除核糖體rRNA:0表示不去除多律,1表示去除(比較耗時)
Trim_rRNA=0
#交代測序讀長(根據(jù)實際fastq數(shù)據(jù))
read_length=100
#交代線程數(shù)
threads=20
#交代參考文件的路徑(根據(jù)需要選擇合適的版本)
hisat_index=$(refgenie seek hg38/hisat2_index -c ~/refgenie/genome_config.yaml)
gtf_path=$(refgenie seek hg38/gencode_gtf -c ~/refgenie/genome_config.yaml)
  • 批量比對

${work_path}/scripts/BulkRNAseq.sh $work_path $Trim_rRNA $read_length \
$threads $hisat_index $gtf_path

head ${work_path}/4.count/expression_matrix.txt
# Geneid ../3.align/SRR12720999_nsorted.bam ../3.align/SRR12721000_nsorted.bam ../3.align/SRR12721001_nsorted.bam
# ENSG00000223972.5 0 0 0
# ENSG00000227232.5 24 15 14
# ENSG00000278267.1 12 5 8
# ENSG00000243485.5 0 0 1
# ENSG00000284332.1 0 0 0
# ENSG00000237613.2 0 0 0
# ENSG00000268020.3 0 0 0
# ENSG00000240361.2 0 0 0
# ENSG00000186092.6 0 0 0
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市搂蜓,隨后出現(xiàn)的幾起案子狼荞,更是在濱河造成了極大的恐慌,老刑警劉巖帮碰,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件相味,死亡現(xiàn)場離奇詭異,居然都是意外死亡殉挽,警方通過查閱死者的電腦和手機丰涉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來斯碌,“玉大人一死,你說我怎么就攤上這事∩低伲” “怎么了投慈?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我伪煤,道長加袋,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任带族,我火速辦了婚禮锁荔,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蝙砌。我一直安慰自己阳堕,他們只是感情好,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布择克。 她就那樣靜靜地躺著恬总,像睡著了一般。 火紅的嫁衣襯著肌膚如雪肚邢。 梳的紋絲不亂的頭發(fā)上壹堰,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機與錄音骡湖,去河邊找鬼贱纠。 笑死,一個胖子當著我的面吹牛响蕴,可吹牛的內(nèi)容都是我干的谆焊。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼浦夷,長吁一口氣:“原來是場噩夢啊……” “哼辖试!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起劈狐,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤罐孝,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后肥缔,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體莲兢,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年续膳,在試婚紗的時候發(fā)現(xiàn)自己被綠了怒见。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡姑宽,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出闺阱,到底是詐尸還是另有隱情炮车,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站瘦穆,受9級特大地震影響纪隙,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜扛或,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一绵咱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧熙兔,春花似錦悲伶、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至舆声,卻和暖如春花沉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背媳握。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工碱屁, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蛾找。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓娩脾,卻偏偏與公主長得像,于是被迫代替她去往敵國和親腋粥。 傳聞我的和親對象是個殘疾皇子晦雨,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容