在上一期中我們得到了cleandata坛掠,接下來是要比對到參考基因上進行比對過程的分析其做。一般來說囱挑,在比對之前菩彬,我們可以選擇先去除rRNA序列然后再與參考基因組進行比對缠劝,文章中采用的策略也是如此:
image-20210713202505327.png
那么你或許會有以下幾個隨著而來的問題:
- 1.為什么測序數(shù)據(jù)中會出現(xiàn)rRNA?
- 2.rRNA不去除與去除會對我后面的分析造成什么樣的影響挤巡?
rRNA背景知識
在進行具體操作之前剩彬,我們可以來先了解一下rRNA這個東西。
首先矿卑,看rRNA在整個細胞中的組成比例:從mass指標(biāo)來看喉恋,一個哺乳動物的細胞中rRNA占比最多,能達到80-90%
image-20210713203007244.png
比例:
image-20210713220458206.png
Note:Estimate of RNA levels in a typical mammalian cell母廷。ref:Front Genet. 2015 Jan 26;6:2
rRNA在參考基因組上存在多個copy:比對時會造成數(shù)據(jù)比對結(jié)果中多比率偏高轻黑。rRNA的存在對后續(xù)的影響就主要看后面的分析使用的是唯一比對reads還是所有比對上的reads了。那么琴昆,數(shù)據(jù)中為什么會測到rRNA呢氓鄙?這就跟前期建庫采用的策略有關(guān)系了,去除rRNA的試劑盒的效率等問題业舍。
此次抖拦,我們先去文中提到的網(wǎng)址下載rRNA序列升酣,然后使用bowtie2進行比對。
rRNA序列下載
打開NCBI網(wǎng)址态罪,選擇Taxonomy數(shù)據(jù)庫噩茄,輸入10090,10090為小鼠的物種ID
image-20210720003031428.png
選擇右側(cè) Nucleotide
image-20210720003206305.png
保存
image-20210720003726949.png
下載下來的數(shù)據(jù):fasta格式
image-20210720003900895.png
確認一下下載是否完整复颈,為82條:
image-20210720004249139.png
rRNA比對保存沒有比對上的序列
首先绩聘,建索引:
bowtie2-build Mus_musculus.rRNA.fa Mus_musculus.rRNA
索引結(jié)果:
image-20210720010555682.png
比對:
mkdir bowtie2
# 換成自己的路徑,注意index為索引前綴
index=/path/rRNA_index/Mus_musculus.rRNA
od=/path/bowtie2
# 單端數(shù)據(jù)
ls *gz |while read id
do
sam=${id%_*};
nohup bowtie2 -x $index --un-gz ${od}/${sam}.derRNA.fq.gz -U $id -p 8 -S ${od}/${sam}.rRNA.mapped.sam 2>${od}/${sam}.log &
done
# 雙端數(shù)據(jù)
可以看文獻中的代碼,文獻中提供的為雙端數(shù)據(jù)
比對完之后的數(shù)據(jù):
image-20210714001313058.png
后續(xù)更新~