生信分析學(xué)習(xí)筆記 - RNAseq （五） HISAT2回帖及評估

聲明：本文部分內(nèi)容和部分圖片來源于網(wǎng)絡(luò)孟害。本文為生信小白學(xué)習(xí)筆記拒炎，不能保證專業(yè)名詞和內(nèi)容全部正確或權(quán)威。? ? ? ?

? ? ? ?下圖為某一條RNAseq從數(shù)據(jù)預(yù)處理挨务，序列回帖到數(shù)據(jù)可視化的工作流程击你，包含了較多的軟件（Linux環(huán)境運行）和若干個包（R語言環(huán)境運行），本系列將按下圖谎柄，對每一個步驟進行學(xué)習(xí)和理解丁侄。

某RNAseq分析流程

HISAT2

簡介

? ? ? ?HISAT2是將下一代測序讀段結(jié)果基于圖比對到一組基因組（graph-based alignment of next generation sequencing reads to a population of genomes）。

? ? ? ?HISAT2是一種快速而靈敏的比對程序朝巫，可用于將下一代測序數(shù)據(jù)（包括DNA和RNA）比對到人類基因組和單個參考基因組上鸿摇。基于圖的BWT擴展劈猿，創(chuàng)造性地設(shè)計并完成了一個圖FM索引（GFM）拙吉。除了使用一個代表全人類基因組的全球GFM索引，HISAT2使用大量小的GFM索引揪荣，這些索引共同覆蓋了全基因組筷黔。這些小的索引（也被稱為局部索引），與集中比對方式結(jié)合在一起变逃，能夠?qū)崿F(xiàn)快速和準(zhǔn)確的序列比對必逆。這個新的索引方案被稱為層次圖片F(xiàn)M索引（HGFM）。

HISAT2工作原理

1. HISAT2應(yīng)用了基于bowtie2的方法處理很多低水平的用于構(gòu)建和查詢FM索引的操作揽乱。（*）

2. 與其他比對器相比名眉，HISAT2應(yīng)用了兩類不同的索引類型，代表全基因組的全局FM索引和大量的局部小索引凰棉，每個索引代表64000bp损拢。

3. 以人類基因組為例，創(chuàng)建了48000個局部索引撒犀，每一個覆蓋1024bp福压，最終可以覆蓋這個3 billion堿基的基因組。這種存在交叉（overlap）的邊界可以輕松的比對那些跨區(qū)域的read（可變剪切體）或舞。

4. 盡管有很多索引荆姆，但是HISAT2可以把他們使用合適的方式進行壓縮，最終只占4GB左右的內(nèi)存映凳。

模式

報告模式

? ? ? ?報告模式管理HISAT2尋找多少個比對以及如何報告它們胆筒。

通常，當(dāng)我們說一個讀段有一個比對，是指它有一個有效比對仆救。當(dāng)我們說一個讀段有多個比對時抒和，是指它有多個有效且彼此不同的比對方式。

? ? ? ?默認情況下彤蔽，HISAT2會對5‘和3’端進行溫和地剪切摧莽。

比對總結(jié)

當(dāng)HISAT2完成運行，會輸出運行結(jié)果顿痪。這些信息將輸入到‘標(biāo)準(zhǔn)錯誤’（stderr）文件中镊辕。對包含未匹配讀段地數(shù)據(jù)文件，HISAT2總結(jié)可能如下所示：

針對包含已匹配讀段的數(shù)據(jù)文件员魏，HISAT2總結(jié)如下所示：

Alignment rate越高表示HISAT2對該文件比對成功率越高丑蛤。

索引大小

hisat2-build能夠索引任何尺寸的參考基因組。對小于40億個核苷酸長度的基因組撕阎，hisat2-build使用32位數(shù)字在索引的不同位置建立一個‘小’索引。當(dāng)基因組更長碌补，hisat2-build能夠使用64位數(shù)字建立較大的索引虏束。小索引保存在.ht2文件中，而大索引會保存在.ht21文件中厦章。使用者無需擔(dān)心特定的索引的尺寸镇匀，HISAT2中的包裝腳本將自動生成并使用合適的索引。

性能調(diào)試

如果運行的電腦有多線程或多核袜啃，可以使用 -p

-p選項可以使HISAT2啟動一定數(shù)量的并行搜索線程汗侵。每一個線程運行在一個不同的中央處理器或核中，而所有的線程并行地查找比對群发，將比對量提高了大概并行線程的倍數(shù)（雖然在現(xiàn)實中晰韵，加速有時比線性較差）。

HISAT2使用

主要參數(shù)

??hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA accession number>} [-S <hit>]

1.? -x?<hisat2-idx>

參考基因組索引的名字熟妓。該名稱是任何索引文件的名稱雪猪。HISAT2會首先尋找在現(xiàn)有文件中特定的索引，然后再在HISAT2_INDEXES指定地環(huán)境變量的目錄中搜索起愈。

2.? -1 <m1>

逗號分隔的文件列表包括了雙端測序的文件1只恨，例如，-1 flyA_1.fq,flyB_1.fq抬虽。使用此命令指定的文件-文件的順序必須與<m2>讀取-讀取的順序相一致官觅。

3.? -2 <m2>

逗號分隔的文件列表包括了雙端測序的文件2，例如阐污，-2 flyA_2.fq,flyB_2.fq休涤。對文件順序的要求同上。

4.? -U <r>

逗號分隔的文件列表包含待比對的未成功匹配（unpaired）讀段疤剑，例如滑绒，lane1.fq,lane2.fq,lane3.fq,lane4.fq

5.?--sra-acc <SRA accession number>

逗號分隔的SRA登錄號文件列表闷堡，例如，--sra-acc SRR353653,SRR353654

6. -s <hit>

寫入SAM比對結(jié)果的文件疑故。

選項

輸入選項

比對選項

計分選項

拼接對齊選項

報告選項

雙端測序選項

輸出選項

SAM選項

性能選項

其他選項

具體選項見鏈接杠览。

HISAT2比對操作

HISAT2提供了一些示例文件，這些示例文件的結(jié)果并不具有科學(xué)意義纵势，這些文件只供運行HISAT2和相應(yīng)的下游分析踱阿。

首先是獲取和安裝HISAT2，并設(shè)置相應(yīng)的環(huán)境變量到包含hisat2, hisat2-build和hisat2-inspect的HISAT2目錄中钦铁。

比對實例讀段

從HISAT2網(wǎng)站獲取待分析物種參考基因組软舌，下一步將待分析讀段比對到參考基因組上。命令如下：

$HISAT2_HOME/hisat2 -f -x $HISAT2_HOME/example/index/22_20-21M_snp -U $HISAT2_HOME/example/reads/reads_1.fa -S eg1.sam

本例使用的是使用hisat2-build構(gòu)建的索引文件（22_20-21M_snp）牛曹。這行命令將一組未配對的讀段數(shù)據(jù)比對到索引上佛点。比對結(jié)果被寫入進eg1.sam文件中，同時黎比，一段簡短的比對總結(jié)被寫入進console超营。

可使用下列語句查看SAM文件的前幾行。

head eg1.sam

可能會得到下圖類似的結(jié)果阅虫。

上圖前幾行（以@開始）是SAM文件表頭行演闭，其他行是SAM比對結(jié)果，每讀段或每對讀段一行颓帝。

雙端測序比對

為了使用HISAT2比對雙端測序數(shù)據(jù)米碰，首先，需要需要進入相同更多目錄然后運行以下命令：

$HISAT2_HOME/hisat2 -f -x $HISAT2_HOME/example/index/22_20-21M_snp -1 $HISAT2_HOME/example/reads/reads_1.fa -2 $HISAT2_HOME/example/reads/reads_2.fa -S eg2.sam

SAMtools轉(zhuǎn)換文件格式

SAMtools是管理和分析SAM和BAM比對文件的一組工具购城，提供了一個可以方便轉(zhuǎn)換SAM和BAM文件格式吕座。在HISAT2軟件進行序列比對后，可用SAMtools將SAM文件轉(zhuǎn)換為BAM文件工猜，命令如下：

samtools view -bS eg2.sam > eg2.bam

同時米诉，SAMtools也可以轉(zhuǎn)換為BAM文件的同時進行排序（版本需要1.2或更高）。命令如下：

samtools sort eg2.bam -o eg2.sorted.bam

對BAM進行排序時非常有用的篷帅，因為比對通常是壓縮的史侣，這對于長期存儲是很方便的，同時魏身，排序的BAM文件也有助于突變的發(fā)現(xiàn)惊橱。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市箭昵，隨后出現(xiàn)的幾起案子税朴，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件正林，死亡現(xiàn)場離奇詭異泡一，居然都是意外死亡，警方通過查閱死者的電腦和手機觅廓，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門鼻忠，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人杈绸，你說我怎么就攤上這事帖蔓。” “怎么了瞳脓？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵塑娇，是天一觀的道長。經(jīng)常有香客問我劫侧，道長埋酬，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任板辽，我火速辦了婚禮奇瘦，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘劲弦。我一直安慰自己，他們只是感情好醇坝，可當(dāng)我...
茶點故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布邑跪。她就那樣靜靜地躺著，像睡著了一般呼猪。火紅的嫁衣襯著肌膚如雪画畅。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天宋距，我揣著相機與錄音轴踱，去河邊找鬼。笑死谚赎，一個胖子當(dāng)著我的面吹牛淫僻，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播壶唤，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼雳灵，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了闸盔？” 一聲冷哼從身側(cè)響起悯辙，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后躲撰，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體针贬，經(jīng)...
沈念sama閱讀 43,400評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年拢蛋，在試婚紗的時候發(fā)現(xiàn)自己被綠了桦他。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡瓤狐，死狀恐怖瞬铸，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情础锐，我是刑警寧澤嗓节，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站皆警，受9級特大地震影響拦宣，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜信姓，卻給世界環(huán)境...
茶點故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一鸵隧、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧意推，春花似錦豆瘫、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案外驱，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至腻窒，卻和暖如春昵宇，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背儿子。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工瓦哎，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人柔逼。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓蒋譬，卻偏偏與公主長得像，于是被迫代替她去往敵國和親卒落。傳聞我的和親對象是個殘疾皇子羡铲，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,722評論 2贊 345