HISAT2 建立索引警告和比對時報錯解決方案

tags： HISAT2 RNA-seq

HISAT2 發(fā)表的文章中強調了它的速度很快晤愧，我就測試了一下這個工具。

HISAT2 建立索引：

hisat2-build -p 4 rRNA.fa rRNA.fa.tran

然而沒多久就看到這樣的警告：

Reading reference sizes
Warning: Encountered reference sequence with only gaps
Warning: Encountered reference sequence with only gaps
Warning: Encountered reference sequence with only gaps
Warning: Encountered reference sequence with only gaps
Warning: Encountered reference sequence with only gaps

只是警告，并沒有報錯。

HISAT2 建參考索引很慢，等 HISAT2 建完索引（建索引花了 16 個小時），然后用 HISAT2 比對 RNA-seq 數據測試嫂拴。

hisat2 -S /dev/null -p 4 -x rRNA.fa.tran -1 A_1.fq.gz -2 A_2.fq.gz --un-conc-gz A_filter_rRNA_%.fq.gz

幾分鐘之后報錯了：

(ERR): hisat2-align died with signal 11 (SEGV) (core dumped)

github 上有人在 HISAT2 項目中報告過這個錯誤，雖然沒有最終討論出解決辦法贮喧，但是都覺得跟建索引不完整有關筒狠，或許與建索引時候的警告有關。我查了一些資料箱沦，綜合 biostar 和 SEQanswer 中的討論辩恼，建立索引時遇到的警告是由于參考序列中存在大段的 n 堿基導致的，例如其中一條 fasta 中 n （我遇到的是小寫的 n）太多谓形。解決辦法也很簡單灶伊，過濾掉參考序列中長度小于 50bp 的 contig 和序列中連續(xù) n 堿基超過 40bp 的contig 。然后重新建索引寒跳，就沒有任何警告了聘萨，但是會損失部分參考序列。這樣處理之后建的索引再用 HISAT2 比對 RNA-seq 數據童太，就沒有問題了米辐。

#!/usr/bin/env python3

from Bio import SeqIO

long_seq = []
for record in SeqIO.parse("rRNA.fa","fasta"):
    if len(record.seq) > 50 and not 'n'*40 in record.seq:
        long_seq.append(record)

SeqIO.write(long_seq, "filtered.rRNA.fa", "fasta")

HISAT2 比對速度確實很快碾牌，一個樣本轉錄組數據比對 2G 的核糖體 RNA 參考基因組約 25 分鐘，bowtie2 需要 170 分鐘（線程數都是 4）儡循。 bowtie2 的 local 模式比對出 21% 的 rRNA 污染，而 HISAT2 比對 2% 的 rRNA 污染征冷，差異也挺大的……

但是择膝，HISAT2 的線程數不能設置太高，用戶手冊中建議對人類參考基因組進行比對時检激，線程數設置在 1-8 之間肴捉。我用文獻 Transcript-level expression analysis of RNA-seq
experiments with HISAT, StringTie and Ballgown 中的數據測試也發(fā)現當線程數超過 12 時整個比對步驟消耗的時間反而會增加。

HISAT2 比對線程數測試

最后編輯于：2017.12.07 18:18:02

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末叔收，一起剝皮案震驚了整個濱河市齿穗，隨后出現的幾起案子，更是在濱河造成了極大的恐慌饺律，老刑警劉巖窃页，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現場離奇詭異复濒，居然都是意外死亡脖卖，警方通過查閱死者的電腦和手機，發(fā)現死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門巧颈，熙熙樓的掌柜王于貴愁眉苦臉地迎上來畦木，“玉大人，你說我怎么就攤上這事砸泛∈” “怎么了？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵唇礁，是天一觀的道長勾栗。經常有香客問我，道長垒迂，這世上最難降的妖魔是什么械姻？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮机断，結果婚禮上楷拳，老公的妹妹穿的比我還像新娘。我一直安慰自己吏奸，他們只是感情好欢揖，可當我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著奋蔚，像睡著了一般她混。火紅的嫁衣襯著肌膚如雪烈钞。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天坤按，我揣著相機與錄音毯欣，去河邊找鬼。笑死臭脓，一個胖子當著我的面吹牛酗钞，可吹牛的內容都是我干的。我是一名探鬼主播来累，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼砚作，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了嘹锁？” 一聲冷哼從身側響起葫录，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎领猾，沒想到半個月后米同，有當地人在樹林里發(fā)現了一具尸體，經...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡摔竿，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年窍霞，在試婚紗的時候發(fā)現自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拯坟。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡但金，死狀恐怖，靈堂內的尸體忽然破棺而出郁季，到底是詐尸還是另有隱情冷溃，我是刑警寧澤，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內幕
正文年R本政府宣布梦裂，位于F島的核電站似枕，受9級特大地震影響，放射性物質發(fā)生泄漏年柠。R本人自食惡果不足惜凿歼，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望冗恨。院中可真熱鬧，春花似錦掀抹、人聲如沸虐拓。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案傲武，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽蓉驹。三九已至城榛，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間态兴，已是汗流浹背狠持。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留瞻润，地道東北人工坊。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像敢订，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子罢吃，可洞房花燭夜當晚...
茶點故事閱讀 42,700評論 2贊 345

HISAT2 建立索引警告和比對時報錯解決方案

推薦閱讀更多精彩內容