sortmerna 去除rRNA

sortmerna是一款檢測文庫中rRNA含量，并去除rRNA reads的軟件锅减。當(dāng)懷疑文庫中包含的rRNA比例較高時，這款軟件可以派上用場板壮。以下簡單介紹它的安裝與基本使用方法变秦。

Installation

conda install sortmerna

需要吐槽的是可以查到的官方manual還是2.1版的称龙，作者的github也停更了...而用conda 安裝的sortmerna都已經(jīng)是4.3.2了的烁，其中有許多更改的地方

$sortmerna --version
SortMeRNA version 4.3.2
Build Date: Apr  2 2021

在官方的流程中绎橘，使用了silva 的rRNA databases作為rRNA的參考序列。silva的rRNA databases包括了古生菌骑脱、原核生物和真核生物rRNA的保守序列菜枷。你可以在以下鏈接下載rRNA database的壓縮包，包括以下文件

rRNA database:

silva_ids_acc_tax.tar.gz

euk：Eukarya 真核生物
bac：Bacteria 原核生物
arc：Archaea 古生菌

Index rRNA database

為了避免程序運行時每次都index叁丧，我們可以先對參考的rRNA databases進行index啤誊。Index完成后，以后運行程序前將idx/目錄復(fù)制到指定的workdir/目錄下即可

sortmerna --index 1 --threads 32 \
--ref ~/sortmerna4.3/rRNA_databases/silva-bac-16s-id90.fasta \
--ref ~/sortmerna4.3/rRNA_databases/silva-bac-23s-id98.fasta \
--ref ~/sortmerna4.3/rRNA_databases/silva-arc-16s-id95.fasta \
--ref ~/sortmerna4.3/rRNA_databases/silva-arc-23s-id98.fasta \
--ref ~/sortmerna4.3/rRNA_databases/silva-euk-18s-id95.fasta \
--ref ~/sortmerna4.3/rRNA_databases/silva-euk-28s-id98.fasta \
--ref ~/sortmerna4.3/rRNA_databases/rfam-5s-database-id98.fasta \
--ref ~/sortmerna4.3/rRNA_databases/rfam-5.8s-database-id98.fasta \
--workdir ./

要注意的是sortmerna的運行需要指定工作目錄拥娄，默認是當(dāng)前目錄蚊锹。在工作目錄下，軟件會生成以下目錄

Default structure: WORKDIR/
                              idx/   (參考序列的index)
                              kvdb/  (以key-value形式存儲的比對結(jié)果)
                              out/   (輸出目錄)
                              readb/ (預(yù)處理的reads/index)

注意：在每次運行前要保證kvdb/下是空的稚瘾，否則程序會報錯

參數(shù)解釋：
--ref: 參考序列fasta文件牡昆，有一個參考fasta使用一次這個參數(shù)。
--index: 程序運行的index操作摊欠，不使用這個參數(shù)的話丢烘，程序會檢測workdir/idx/下是否存在已經(jīng)建好的index，沒有的話就根據(jù)--ref提供的fasta文件index些椒。

`--index 0` 則跳過index播瞳，但若在`workdir/idx/`下沒檢測到index則會終止程序，并提醒沒有index
`--index 1` 則只進行index
`--index 2` 和默認不使用該參數(shù)一樣

去除 rRNA

以下命令對雙端測序文件進行rRNA去除摊沉，并保留雙端測序中成對的序列到兩個文件中狐史。sortmerna會自動檢測輸入的文件類型痒给，并保持輸出的文件類型與輸入一致说墨，例如以下輸入.fq.gz，輸出也是.fq.gz苍柏。

sortmerna --index 0 --threads 48 \
--ref ~/sortmerna4.3/rRNA_databases/silva-bac-16s-id90.fasta \
--ref ~/sortmerna4.3/rRNA_databases/silva-bac-23s-id98.fasta \
--ref ~/sortmerna4.3/rRNA_databases/silva-arc-16s-id95.fasta \
--ref ~/sortmerna4.3/rRNA_databases/silva-arc-23s-id98.fasta \
--ref ~/sortmerna4.3/rRNA_databases/silva-euk-18s-id95.fasta \
--ref ~/sortmerna4.3/rRNA_databases/silva-euk-28s-id98.fasta \
--ref ~/sortmerna4.3/rRNA_databases/rfam-5s-database-id98.fasta \
--ref ~/sortmerna4.3/rRNA_databases/rfam-5.8s-database-id98.fasta \
--workdir ./ \
--reads NR1.fq.gz \
--reads NR2.fq.gz \
--aligned "NR/N_rRNA" --other "NR/N_clean" --paired_in --fastx --out2

參數(shù)解釋：
--reads: 輸入的序列文件(FASTA/FASTQ/FASTA.GZ/FASTQ.GZ)尼斧，如果是雙端測序就用兩次這個參數(shù)
--aligned: 比對上參考數(shù)據(jù)庫的序列，以rRNA數(shù)據(jù)庫為參考文件的話试吁，輸出的是rRNA棺棵。這里可以包含輸出的目錄和前綴，以下是一些可行的例子

'--aligned $MYDIR/dir_1/dir_2/1' -> $MYDIR/dir_1/dir_2/1.fasta
'--aligned dir_1/apfx'           -> $PWD/dir_1/apfx.fasta
'--aligned dir_1/'               -> $PWD/aligned.fasta
'--aligned apfx'                 -> $PWD/apfx.fasta
'--aligned  (no argument)'       -> WORKDIR/out/aligned.fasta

--other: 與參考文件比對不上的序列熄捍，在這里就是rRNA-free的序列烛恤。用法與--aligned一樣
--paired_in: flag，表明輸入的文件是雙端測序文件余耽，一端比對上就算成對的reads都比對上了缚柏。要與--fastx一起用，與--paired_out相互排斥碟贾。
--fastx: 輸出比對結(jié)果為fasta/fastq格式币喧。
--out2: 將雙端文件單獨輸出轨域。
--paired_out: flag，表明輸入的文件是雙端測序文件杀餐，一端比對不上的話干发，把成對的reads都輸出到non-aligned的文件中。要與--fastx一起用史翘，與--paired_in相互排斥枉长。

上面的命令輸出的結(jié)果為：

$ls NR/
N_clean_fwd.fq.gz  N_clean_rev.fq.gz  N_rRNA_fwd.fq.gz  N_rRNA.log  N_rRNA_rev.fq.gz

對于輸出的*rRNA.log我們可以關(guān)注其統(tǒng)計的比對結(jié)果

$cat NR/N_rRNA.log 
...
Results:
    Total reads passing E-value threshold = 181078446 (96.01) # 文庫中rRNA 含量
    Total reads failing E-value threshold = 7531112 (3.99) # 文庫中非rRNA 含量
    Minimum read length = 150
    Maximum read length = 20
    Mean read length    = 9

 Coverage by database:
    ~/sortmerna4.3/rRNA_databases/silva-bac-16s-id90.fasta            0.07
    ~/sortmerna4.3/rRNA_databases/silva-bac-23s-id98.fasta            8.82
    ~/sortmerna4.3/rRNA_databases/silva-arc-16s-id95.fasta            0.32
    ~/sortmerna4.3/rRNA_databases/silva-arc-23s-id98.fasta            4.92
    ~/sortmerna4.3/rRNA_databases/silva-euk-18s-id95.fasta            11.53
    ~/sortmerna4.3/rRNA_databases/silva-euk-28s-id98.fasta            70.22
    ~/sortmerna4.3/rRNA_databases/rfam-5s-database-id98.fasta         0.00
    ~/sortmerna4.3/rRNA_databases/rfam-5.8s-database-id98.fasta               0.00

其中 "Total reads passing E-value threshold = 181078446 (96.01)" 指的是輸入文件中的rRNA含量（參考序列是rRNA時），"Total reads failing E-value threshold = 7531112 (3.99)"則是非rRNA的含量琼讽。

實測如果有多個這樣的log文件也可以用multiqc生成報告搀暑。

對sortmerna軟件的簡介到此結(jié)束，使用最大的感受是這個軟件非常的費時跨琳。如果只是想大概檢測文庫中rRNA含量自点，可以下載相應(yīng)的rRNA fasta文件，并使用現(xiàn)在流行的比對軟件（如STAR脉让、Bowtie2等）進行Indexing和比對即可桂敛。這樣會快很多。以后有新的使用心得再做更新溅潜。

補充于：2021-12-02
實際上术唬，更加方便的rRNA remove手段應(yīng)該是將測序reads使用STAR、Bowtie2等方法比對到rRNA參考序列滚澜，保留unmapped reads即可粗仓。

完。

ref:
Filtering rRNA from RNAseq data: https://www.biostars.org/p/321714/
SILVA rRNA database: https://www.arb-silva.de/
https://github.com/biocore/sortmerna/

最后編輯于：2021.12.02 09:55:55

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末设捐，一起剝皮案震驚了整個濱河市借浊，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌萝招，老刑警劉巖蚂斤，帶你破解...
沈念sama閱讀 216,324評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異槐沼，居然都是意外死亡曙蒸，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,356評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門岗钩，熙熙樓的掌柜王于貴愁眉苦臉地迎上來纽窟，“玉大人，你說我怎么就攤上這事兼吓”鄹郏” “怎么了？”我有些...
開封第一講書人閱讀 162,328評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長趋艘。經(jīng)常有香客問我疲恢，道長，這世上最難降的妖魔是什么瓷胧？我笑而不...
開封第一講書人閱讀 58,147評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任显拳，我火速辦了婚禮，結(jié)果婚禮上搓萧，老公的妹妹穿的比我還像新娘杂数。我一直安慰自己，他們只是感情好瘸洛，可當(dāng)我...
茶點故事閱讀 67,160評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布揍移。她就那樣靜靜地躺著，像睡著了一般反肋。火紅的嫁衣襯著肌膚如雪那伐。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,115評論 1贊 296
城市分裂傳說
那天石蔗，我揣著相機與錄音罕邀，去河邊找鬼。笑死养距，一個胖子當(dāng)著我的面吹牛诉探，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播棍厌，決...
沈念sama閱讀 40,025評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼肾胯，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了耘纱？” 一聲冷哼從身側(cè)響起敬肚，我...
開封第一講書人閱讀 38,867評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎揣炕，沒想到半個月后帘皿，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,307評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡畸陡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,528評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了虽填。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片丁恭。...
茶點故事閱讀 39,688評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖斋日，靈堂內(nèi)的尸體忽然破棺而出牲览，到底是詐尸還是另有隱情，我是刑警寧澤恶守，帶...
沈念sama閱讀 35,409評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布第献，位于F島的核電站贡必，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏庸毫。R本人自食惡果不足惜仔拟，卻給世界環(huán)境...
茶點故事閱讀 41,001評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望飒赃。院中可真熱鬧利花，春花似錦、人聲如沸载佳。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,657評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽蔫慧。三九已至挠乳，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間姑躲，已是汗流浹背欲侮。一陣腳步聲響...
開封第一講書人閱讀 32,811評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留肋联，地道東北人威蕉。一個月前我還...
沈念sama閱讀 47,685評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像橄仍，于是被迫代替她去往敵國和親韧涨。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,573評論 2贊 353

sortmerna 去除rRNA

Installation

Index rRNA database

去除 rRNA

推薦閱讀更多精彩內(nèi)容