RNAseq測序reads定位
獲得RNA-seq的原始數(shù)據(jù)后俱箱,首先需要將所有測序讀段通過序列映射(mapping)定位到參考基因組上总寒,這是所有后續(xù)處理和分析的基礎(chǔ).在讀段定位之前,有時還需要根據(jù)測序數(shù)據(jù)情況對其做某些基本的預處理.
例如特占,過濾掉測序質(zhì)量較差的讀段糙置,對miRNA測序讀段數(shù)據(jù)去除接頭序列等.
高通量測序的海量數(shù)據(jù)對計算機算法的運行時間提出了很高的要求.針對諸如Illumina/Solexa等測序平臺得到的讀段一般較短、且插入刪除錯誤較少等特點是目,人們開發(fā)了一些短序列定位算法.這些算法主要采用空位種子索引法(spaced-seedindexing)或Burrows-Wheeler轉(zhuǎn)換(Burrows-WheelerTransform谤饭,BWT)技術(shù)來實現(xiàn).空位種子索引法首先將讀段切分,并選取其中一段或幾段作為種子建立搜索索引懊纳,再通過查找索引揉抵、延展匹配來實現(xiàn)讀段定位,通過輪換種子考慮允許出現(xiàn)錯配(mismatch)的各種可能的位置組合.BWT
方法通過B-W轉(zhuǎn)換將基因組序列按一定規(guī)則壓縮并建立索引嗤疯,再通過查找和回溯來定位讀段冤今,在查找時
可通過堿基替代來實現(xiàn)允許的錯配.表1列出了目前可免費下載使用的部分短序列定位軟件.其中采用空位種子片段索引法的代表是Maq,而采用Burrows-Wheeler轉(zhuǎn)換的代表是Bowtie.總的來說茂缚,采用BWT的定位算法在時間效率上要優(yōu)于空位種子片段索引法.隨著讀長的增加戏罢,允許讀段序列中存在插入刪除(indel)的定位變得可行而重要.由于以上兩類方法對序列中插入刪除的處理較為困難,近來人們開發(fā)了一些基于改進的Smith-Waterman動態(tài)規(guī)劃算法的序列比對工具脚囊,如BFAST龟糕、SHRiMP、Mosaik(http://bioinformatics.bc.edu/marthlab/Mosaik)等悔耘,但算法速度較慢讲岁,大多需采用計算機并行編程技術(shù)來解決運行時間的問題. 下面是 MAQ, Bowtie, BWA, ZOOM, ELAND, SOAP2, RazerS, Novoalign, SHRiMP, BFAST, 以及 Mosaik等mapping軟件格式算法的比對信息。
在RNA測序數(shù)據(jù)的基因組定位中,一個特殊的問題是跨越兩個外顯子接合區(qū)的讀段(junctionreads)的定位.在真核生物中缓艳,成熟的mRNA是經(jīng)過由mRNA前體中的外顯子經(jīng)過剪接形成的.如果一個讀段跨越了兩個外顯子校摩,那么就無法將這個讀段完整地定位到基因組序列上.而同時,這種跨兩個外顯子的讀段在分析轉(zhuǎn)錄本的剪接形式和研究選擇性剪接中有重要的作用.為了解決這一問題阶淘,人們采取兩種典型的策略來進行接合區(qū)讀段的定位:一是根據(jù)已知的基因外顯子注釋秧耗,構(gòu)建所有可能的外顯子接合區(qū)序列,與基因組序列一并作為定位的參考基因組舶治;二是不依賴基因注釋分井,而是先利用能完整定位到基因組的讀段得到粗略的外顯子區(qū)域,并結(jié)合剪接位點序列構(gòu)建出可能的剪接位點霉猛,然后將不能完整定位的讀段分段定位到兩個外顯子可能的結(jié)合區(qū)域.Illumina/Solexa平臺提供的RNA-seq軟件分析包GApipeline采用了第一種策略.采用第二種策略的軟件有Tophat和G-Mo.R-Se等尺锚,最新的Tophat軟件增加了利用已知外顯子邊界注釋信息的選項.
不論是哪種測序平臺,測序中都不可避免地存在一定的錯誤惜浅,基因組中又存在單核苷酸多態(tài)性等引起的序列變化瘫辩,所以在讀段定位時通常允許一定數(shù)量的錯配,可以根據(jù)不同應用調(diào)節(jié)允許錯配的程度.另一方面坛悉,由于基因組中重復序列和高相似度序列的影響伐厌,某些讀段會出現(xiàn)定位到基因組多個位置的情況.這些因素影響了各個讀段到基因組的定位質(zhì)量,在一些新的讀段定位算法中裸影,同時給出每個讀段與基因組匹配質(zhì)量.通常在后續(xù)處理前挣轨,人們將多定位的讀段都過濾掉,也有人嘗試用適當?shù)牟呗园讯喽ㄎ蛔x段“分配”到其中某些位置上.
讀段定位到基因組后推薦采用SAM(SequenceAlignment/Map)格式或其二進制版本BAM格式來存儲.二進制版本可大大節(jié)省存儲空間轩猩,但不能直接用普通文本編輯工具顯示.關(guān)于SAM格式的詳細介紹卷扮,可查閱(http://samtools.sourceforge.net/SAM1.pdf)