在高通量測(cè)序數(shù)據(jù)的處理中(例如雄卷,在重測(cè)序研究搓蚪、組裝結(jié)果的re-mapping校正中),我們經(jīng)常會(huì)將測(cè)序reads與參考序列進(jìn)行比對(duì)(常見的如BWA丁鹉、Bowtie等工具)妒潭,并將比對(duì)結(jié)果以bam文件存儲(chǔ)(sam文件的二進(jìn)制格式,極大節(jié)省了存儲(chǔ)空間揣钦。對(duì)于bam/sam文件的簡(jiǎn)介說(shuō)明雳灾,點(diǎn)擊查看)。在linux系統(tǒng)下冯凹,通常我們可以很方便的使用samtools對(duì)參考序列以及bam文件進(jìn)行處理谎亩。
雖然大多數(shù)情況下bam文件僅作為數(shù)據(jù)存儲(chǔ)文件使用,但有時(shí)候我們還是很期望將bam文件中的內(nèi)容可視化宇姚,例如查看測(cè)序reads在參考基因組序列中的對(duì)齊分布匈庭、覆蓋程度等】胀梗可能這時(shí)候嚎花,常用的bam文件處理工具samtools就不太容易滿足需求(盡管samtools也能實(shí)現(xiàn)這種可視化功能,但是可視化效果比較簡(jiǎn)陋呀洲,在終端界面下僅有簡(jiǎn)單的點(diǎn)和線構(gòu)成)紊选。對(duì)于其它的工具啼止,我們也有很多可以選擇,例如IGV兵罢、Tablet等献烦,將參考序列fasta文件以及比對(duì)結(jié)果bam文件導(dǎo)入后即可將參考序列的堿基組成信息、測(cè)序reads在參考序列中的位置以及覆蓋情況等可視化呈現(xiàn)卖词。本文簡(jiǎn)介如何使用Tablet查看bam文件巩那。
本文使用到的示例bam文件,以及參考基因組序列此蜈,可在以下鏈接獲取即横。
https://pan.baidu.com/s/1yYQNxty5hBdcpoA8xkrQUg
其中,bam文件“Bacillus_subtilis.dup.bam”及其索引文件“Bacillus_subtilis.dup.bam.bai”(由samtools建立索引獲得)可見“B-rmdup”裆赵;參考基因組序列“Bacillus_subtilis.str168.fasta”可見“0-refer”东囚。
Tablet下載安裝
其實(shí)一直很疑惑,Tablet這個(gè)軟件很早就有了战授,而且用起來(lái)感覺還不錯(cuò)页藻,就是不知為啥網(wǎng)上很少能搜到它的相關(guān)介紹≈怖迹看看IGV份帐,教程那么多……雖然IGV功能更多,但是Tablet作為一款好用的輕量級(jí)軟件楣导,應(yīng)該使用率也很廣才對(duì)废境。
多余的話就先不說(shuō)了,Tablet官方網(wǎng)站:https://ics.hutton.ac.uk/tablet/
點(diǎn)擊“download”即可進(jìn)入下載界面爷辙,下載界面提供了3種平臺(tái)的版本彬坏,根據(jù)需要選擇對(duì)應(yīng)的版本下載朦促。Tablet源碼可見https://github.com/cropgeeks/tablet膝晾。
作為一款優(yōu)秀的高通量測(cè)序序列查看器,除了能夠查看序列比對(duì)結(jié)果bam/sam文件外务冕,Tablet還有很多功能血当。本文中不再細(xì)說(shuō)其它功能,可見官網(wǎng)上其功能描述禀忆,或者點(diǎn)擊原參考文獻(xiàn)閱讀臊旭,以及參閱幫助文檔(http://tablet.hutton.ac.uk/en/latest/index.html)等,詳細(xì)了解該軟件的使用箩退。
Tablet使用起來(lái)挺簡(jiǎn)單的离熏,對(duì)于常規(guī)的功能(例如查看bam/sam文件等),無(wú)需參閱幫助文檔也能夠快速上手戴涝。在這里我下載了windows版的滋戳,并在下文簡(jiǎn)要展示其使用钻蔑。
使用Tablet查看BAM文件
數(shù)據(jù)導(dǎo)入
bam文件在Tablet中的可視化需要用到索引文件bam.bai。使用samtools軟件獲得bam文件的索引文件bam.bai奸鸯,以示例文件為例咪笑,在linux命令行下使用“samtools index Bacillus_subtilis.dup.bam”,即可得到“Bacillus_subtilis.dup.bam.bai”娄涩。
導(dǎo)入文件至Tablet時(shí)窗怒,必須保證“Bacillus_subtilis.dup.bam”與“Bacillus_subtilis.dup.bam.bai”在同一路徑中才能夠?qū)am文件成功導(dǎo)入。
fasta文件中的序列蓄拣,必須和bam文件中的序列信息相互對(duì)應(yīng)扬虚。
Tablet界面基本操作介紹
等待一小會(huì)兒后,數(shù)據(jù)成功導(dǎo)入球恤。若fasta文件中存在多條序列孔轴,則在界面左側(cè)會(huì)顯示多條序列id,點(diǎn)擊對(duì)應(yīng)的序列id即可查看測(cè)序reads在參考序列上的分布情況碎捺。在主界面中路鹰,測(cè)序reads在該序列上的對(duì)齊位置、覆蓋程度收厨、堿基差異等信息清晰可見晋柱。
備注:右鍵“新標(biāo)簽打開圖片”等操作可以查看大圖。
默認(rèn)情況下诵叁,測(cè)序reads以A雁竞、T、G拧额、C等堿基類型著色碑诉。在界面上方點(diǎn)擊“Colour Schemes”,可更改reads顏色展示方式侥锦。例如點(diǎn)擊“Variants”后进栽,reads序列中與參考序列一致的堿基將展示為灰色,不一致的展示為紅色(變異堿基恭垦,或者測(cè)序錯(cuò)誤導(dǎo)致等)快毛。
在“Advanced”中,可更改界面風(fēng)格番挺、窗口展示等唠帝。例如,點(diǎn)擊?“Coverage”?選項(xiàng)后玄柏,在序列整體reads覆蓋情況窗口界面中襟衰,將會(huì)以漸變色的的樣式來(lái)展示reads在參考序列中的覆蓋深度情況(參見上文,之前的樣式是以A粪摘、T瀑晒、G阀湿、C四種顏色展示的,即“Scaled”選項(xiàng))瑰妄。
常用的過(guò)濾/查找/定位選項(xiàng)
以上是對(duì)Tablet主界面的基本簡(jiǎn)介瘸洛,其實(shí)該軟件上手挺簡(jiǎn)單的岩馍。在了解了它的基本情況后,我們來(lái)看一些常用的過(guò)濾/查找/定位選項(xiàng),以幫助我們定位讼溺、查找想要得知的信息绑洛。
若想快速定位至參考序列的某一段區(qū)域勉失,可在“Advanced”中點(diǎn)擊“Subset”選擇查看的區(qū)域稍走。
若想將參考序列中某一段序列截取(復(fù)制)下來(lái)蜈七,需要在主界面的參考序列展示位置處右擊秒拔,選擇“Copy a subsequence to clipboard”后,在彈出的窗口中輸入選定的序列區(qū)域飒硅,再點(diǎn)擊“Copy”即可完成復(fù)制砂缩。此時(shí)可以任意打開一個(gè)文本編輯器(如記事本),ctrl+v粘貼即可三娩。
若想查找某一條測(cè)序reads在參考序列中的對(duì)齊位置庵芭,在界面左方點(diǎn)擊搜索框,選擇搜索類型后輸入reads的id即可雀监。
在左側(cè)窗口中點(diǎn)擊“more”双吆,可以查看參考序列的基本統(tǒng)計(jì)信息,包含fasta文件中序列的平均長(zhǎng)度会前、最長(zhǎng)/最短序列等好乐。在多條參考序列的情況下,想過(guò)濾一些不必要的序列時(shí)瓦宜,可以在這里操作蔚万。
其它信息
在主界面查看序列reads覆蓋情況時(shí),有時(shí)會(huì)看到這樣的標(biāo)記“[”歉提、“]”等笛坦。
備注:當(dāng)標(biāo)記不為單一的“[”等組成区转,而是由一連串連續(xù)的標(biāo)記組成時(shí)苔巨,需仔細(xì)查看參考序列的這段位置與測(cè)序reads之間是否存在著較大的差異。在重測(cè)序中废离,通常表明兩個(gè)個(gè)體基因組中侄泽,在這段區(qū)域的序列組成具有明顯的區(qū)別。若參考序列為使用相同的測(cè)序reads數(shù)據(jù)組裝所得的序列時(shí)蜻韭,則需要著重檢查該區(qū)域是否出現(xiàn)了錯(cuò)誤拼接悼尾。如下示例柿扣,參考序列為一段由測(cè)序reads組裝所得的序列,將測(cè)序reads重新比對(duì)至組裝結(jié)果中時(shí)闺魏,發(fā)現(xiàn)這段區(qū)域“]?”未状、“[”左右兩側(cè)的大多數(shù)reads幾乎沒(méi)有明顯的overlap區(qū),幾乎全部被隔斷在左右兩側(cè)析桥。似乎這段序列在這個(gè)位置不應(yīng)該被連在一起司草,更應(yīng)該被打斷為兩段序列才更合適。這時(shí)需要仔細(xì)檢查這段區(qū)域泡仗,是否存在少數(shù)reads能夠跨越這個(gè)交點(diǎn)埋虹,有效支持左右的序列連接;或者這里確實(shí)出現(xiàn)了錯(cuò)誤拼接娩怎,需要打斷處理搔课。
參考序列中出現(xiàn)了一段區(qū)域無(wú)測(cè)序reads覆蓋的情況,如上文所說(shuō)截亦。若有充分理由相信這不是測(cè)序未覆蓋到的情況時(shí)爬泥,則可以認(rèn)為測(cè)序個(gè)體的基因組中在該區(qū)域發(fā)生了較大的片段缺失。
對(duì)于小的堿基變異崩瓤,如SNP急灭、InDel等,也可通過(guò)比對(duì)結(jié)果清晰看出谷遂。如下示例葬馋,判斷SNP堿基以及測(cè)序錯(cuò)誤的堿基。
備注:如果有SNP肾扰、InDel檢測(cè)結(jié)果的vcf文件畴嘶,則可以結(jié)合vcf文件中提供的變異位置信息,再通過(guò)Tablet查看比對(duì)結(jié)果集晚,以更好地查看確認(rèn)這些位置窗悯。
此外,有時(shí)在Tablet中還會(huì)看到這樣的reads偷拔,展示的長(zhǎng)度很短蒋院。實(shí)際上,可能并非由于reads本身測(cè)得短莲绰,而是由于該reads中只有一部分能比對(duì)至參考序列的這段區(qū)域欺旧,未比對(duì)上的部分由于太長(zhǎng)就隱藏掉了。這種情形一般出現(xiàn)在重復(fù)序列中蛤签,如下所示(模糊的話辞友,可右鍵“新標(biāo)簽頁(yè)打開圖片”查看大圖)。
參考文獻(xiàn):Milne I , Stephen G , Bayer M , et al. Using Tablet for visual exploration of second-generation sequencing data. Briefings in Bioinformatics, 2013, 14(2):193-202.
-------------------------------------------------------------------------------------------I am a line !------------------------------------------------------------------------------------------------------------
轉(zhuǎn)載鏈接地址:http://blog.sciencenet.cn/blog-3406804-1185182.html?