一、下載參考基因組和參考基因注釋文件構(gòu)建
可以從UCSC欲芹、Ensembl蝌借、NCBI下載昔瞧,但是要注意參考基因組與注釋文件得配套。
1菩佑、Ensembl
參考基因組下載
先進入Ensembl主頁自晰,找到需要的物種。我需要的是人類的稍坯,主頁就有酬荞,點擊進入找到下載基因組fasta文件
點進去就能看見按照染色體分類的基因組文件,下載所需要的染色體瞧哟。
#復(fù)制文件鏈接袜蚕,我下載的是第一條染色體
wget https://ftp.ensembl.org/pub/release-108/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.chromosome.1.fa.gz
注釋文件下載
如圖位置
2、UCSC
參考基因組
進入UCSC主頁绢涡,點擊downloads->Genome Data找到自己需要的物質(zhì)牲剃,點擊
找到自己需要的版本的sequence
找到自己需要染色體的.fa.gz文件,復(fù)制下載地址雄可,按照上面的方法下載
下載注釋文件
點擊Tools->Table Browser二凿傅、bowtie2構(gòu)建index和Tophat2 mapping
對數(shù)據(jù)進行解壓
gunzip *.fa.gz
將兩條染色體合并到一起
cat Homo_sapiens.GRCh38.dna.chromosome.1.fa Homo_sapiens.GRCh38.dna.chromosome.2.fa > hg38.chr12.fa
1缠犀、bowtie2構(gòu)建index
bowtie2官網(wǎng)
https://bowtie-bio.sourceforge.net/bowtie2/index.shtml
Bowtie2是一種用于將測序讀數(shù)與長參考序列對齊的超快且高效記憶的工具。它特別擅長對齊大約50到100或1000個字符的讀數(shù)聪舒,特別擅長對齊相對較長的(例如哺乳動物)基因組辨液。Bowtie2使用FM索引(基于Burrows-Wheeler Transform 或 BWT)對基因組進行索引,以此來保持其占用較小內(nèi)存箱残。對于人類基因組來說滔迈,內(nèi)存占用在3.2G左右。Bowtie2 支持間隔被辑,局部和雙端對齊模式燎悍。
conda install bowtie2
bowtie2-build hg38.chr12.fa hg38 > bwt_index.log 2>&1 &
兩條染色體,使用一個CPU構(gòu)建索引大概需要10分鐘左右盼理。
2谈山、Tophat2 mapping
Tophat官網(wǎng)
https://ccb.jhu.edu/software/tophat/index.shtml
相對速度快并且占用內(nèi)存小的TopHat在RNA-Seq中常常用于跨內(nèi)含子比對,這里我們來關(guān)注一下TopHat2宏怔,TopHat2的安裝是依賴Bowtie2的(當(dāng)然Bowtie1也是可行的)奏路,TopHat2適合于75bp以上Read的比對。TopHat2是一個多步驟比對的程序臊诊,如果基因組的注釋文件存在的話鸽粉,那么它會先將Read比對到轉(zhuǎn)錄組上。
安裝
wget https://ccb.jhu.edu/software/tophat/downloads/tophat-2.1.1.Linux_x86_64.tar.gz
#解壓
tar -zxvf tophat-2.1.1.Linux_x86_64.tar.gz
#加入PATH
export PATH=/root/software/tophat-2.1.1.Linux_x86_64/:$PATH
#測試
tophat2 -h
出現(xiàn)錯誤抓艳,因為我系統(tǒng)默認(rèn)的是python3的環(huán)境触机,tophat需要的是python2的環(huán)境。#創(chuàng)建python2的環(huán)境
conda create -n py2 python=2.7
#進入py2
conda activate py2
tophat2 -h
#可以成功調(diào)用
但是由于bowtie2沒有安裝在這個py2的環(huán)境下壶硅,就再次安裝一次
conda install bowtie2
調(diào)用tophat2
tophat2 -o /root/rna_seq/tophat_out -p 1 -G /root/rna_seq/ref/gft/Homo_sapiens.GRCh38.108.chr.gtf /root/rna_seq/ref/hg38 /root/rna_seq/cutadapt_out/test_R1_cutadapt.fq.gz /root/rna_seq/cutadapt_out/test_R2_cutadapt.fq.gz &
#-o 輸出文件位置
#-p 幾個CPU
#gtf文件
#index文件
#reads1
#reads2
tophat輸出結(jié)果
bam文件就是比對結(jié)果,也就是我們需要的文件