RNAseq測序reads定位

RNAseq測序reads定位

獲得RNA-seq的原始數(shù)據(jù)后俱箱,首先需要將所有測序讀段通過序列映射(mapping)定位到參考基因組上总寒,這是所有后續(xù)處理和分析的基礎(chǔ).在讀段定位之前,有時還需要根據(jù)測序數(shù)據(jù)情況對其做某些基本的預處理.

例如特占,過濾掉測序質(zhì)量較差的讀段糙置,對miRNA測序讀段數(shù)據(jù)去除接頭序列等.

高通量測序的海量數(shù)據(jù)對計算機算法的運行時間提出了很高的要求.針對諸如Illumina/Solexa等測序平臺得到的讀段一般較短、且插入刪除錯誤較少等特點是目,人們開發(fā)了一些短序列定位算法.這些算法主要采用空位種子索引法(spaced-seedindexing)或Burrows-Wheeler轉(zhuǎn)換(Burrows-WheelerTransform谤饭,BWT)技術(shù)來實現(xiàn).空位種子索引法首先將讀段切分,并選取其中一段或幾段作為種子建立搜索索引懊纳,再通過查找索引揉抵、延展匹配來實現(xiàn)讀段定位,通過輪換種子考慮允許出現(xiàn)錯配(mismatch)的各種可能的位置組合.BWT

方法通過B-W轉(zhuǎn)換將基因組序列按一定規(guī)則壓縮并建立索引嗤疯,再通過查找和回溯來定位讀段冤今,在查找時

可通過堿基替代來實現(xiàn)允許的錯配.表1列出了目前可免費下載使用的部分短序列定位軟件.其中采用空位種子片段索引法的代表是Maq,而采用Burrows-Wheeler轉(zhuǎn)換的代表是Bowtie.總的來說茂缚,采用BWT的定位算法在時間效率上要優(yōu)于空位種子片段索引法.隨著讀長的增加戏罢,允許讀段序列中存在插入刪除(indel)的定位變得可行而重要.由于以上兩類方法對序列中插入刪除的處理較為困難,近來人們開發(fā)了一些基于改進的Smith-Waterman動態(tài)規(guī)劃算法的序列比對工具脚囊,如BFAST龟糕、SHRiMP、Mosaik(http://bioinformatics.bc.edu/marthlab/Mosaik)等悔耘,但算法速度較慢讲岁,大多需采用計算機并行編程技術(shù)來解決運行時間的問題. 下面是 MAQ, Bowtie, BWA, ZOOM, ELAND, SOAP2, RazerS, Novoalign, SHRiMP, BFAST, 以及 Mosaik等mapping軟件格式算法的比對信息。

在RNA測序數(shù)據(jù)的基因組定位中,一個特殊的問題是跨越兩個外顯子接合區(qū)的讀段(junctionreads)的定位.在真核生物中缓艳,成熟的mRNA是經(jīng)過由mRNA前體中的外顯子經(jīng)過剪接形成的.如果一個讀段跨越了兩個外顯子校摩,那么就無法將這個讀段完整地定位到基因組序列上.而同時,這種跨兩個外顯子的讀段在分析轉(zhuǎn)錄本的剪接形式和研究選擇性剪接中有重要的作用.為了解決這一問題阶淘,人們采取兩種典型的策略來進行接合區(qū)讀段的定位:一是根據(jù)已知的基因外顯子注釋秧耗,構(gòu)建所有可能的外顯子接合區(qū)序列,與基因組序列一并作為定位的參考基因組舶治;二是不依賴基因注釋分井,而是先利用能完整定位到基因組的讀段得到粗略的外顯子區(qū)域,并結(jié)合剪接位點序列構(gòu)建出可能的剪接位點霉猛,然后將不能完整定位的讀段分段定位到兩個外顯子可能的結(jié)合區(qū)域.Illumina/Solexa平臺提供的RNA-seq軟件分析包GApipeline采用了第一種策略.采用第二種策略的軟件有Tophat和G-Mo.R-Se等尺锚,最新的Tophat軟件增加了利用已知外顯子邊界注釋信息的選項.

不論是哪種測序平臺,測序中都不可避免地存在一定的錯誤惜浅,基因組中又存在單核苷酸多態(tài)性等引起的序列變化瘫辩,所以在讀段定位時通常允許一定數(shù)量的錯配,可以根據(jù)不同應用調(diào)節(jié)允許錯配的程度.另一方面坛悉,由于基因組中重復序列和高相似度序列的影響伐厌,某些讀段會出現(xiàn)定位到基因組多個位置的情況.這些因素影響了各個讀段到基因組的定位質(zhì)量,在一些新的讀段定位算法中裸影,同時給出每個讀段與基因組匹配質(zhì)量.通常在后續(xù)處理前挣轨,人們將多定位的讀段都過濾掉,也有人嘗試用適當?shù)牟呗园讯喽ㄎ蛔x段“分配”到其中某些位置上.

讀段定位到基因組后推薦采用SAM(SequenceAlignment/Map)格式或其二進制版本BAM格式來存儲.二進制版本可大大節(jié)省存儲空間轩猩,但不能直接用普通文本編輯工具顯示.關(guān)于SAM格式的詳細介紹卷扮,可查閱(http://samtools.sourceforge.net/SAM1.pdf

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市均践,隨后出現(xiàn)的幾起案子晤锹,更是在濱河造成了極大的恐慌,老刑警劉巖彤委,帶你破解...
    沈念sama閱讀 211,639評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鞭铆,死亡現(xiàn)場離奇詭異,居然都是意外死亡焦影,警方通過查閱死者的電腦和手機车遂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來偷办,“玉大人艰额,你說我怎么就攤上這事澄港〗费模” “怎么了?”我有些...
    開封第一講書人閱讀 157,221評論 0 348
  • 文/不壞的土叔 我叫張陵回梧,是天一觀的道長废岂。 經(jīng)常有香客問我祖搓,道長,這世上最難降的妖魔是什么湖苞? 我笑而不...
    開封第一講書人閱讀 56,474評論 1 283
  • 正文 為了忘掉前任拯欧,我火速辦了婚禮,結(jié)果婚禮上财骨,老公的妹妹穿的比我還像新娘镐作。我一直安慰自己,他們只是感情好隆箩,可當我...
    茶點故事閱讀 65,570評論 6 386
  • 文/花漫 我一把揭開白布该贾。 她就那樣靜靜地躺著,像睡著了一般捌臊。 火紅的嫁衣襯著肌膚如雪杨蛋。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,816評論 1 290
  • 那天理澎,我揣著相機與錄音逞力,去河邊找鬼。 笑死糠爬,一個胖子當著我的面吹牛寇荧,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播执隧,決...
    沈念sama閱讀 38,957評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼砚亭,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了殴玛?” 一聲冷哼從身側(cè)響起捅膘,我...
    開封第一講書人閱讀 37,718評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎滚粟,沒想到半個月后寻仗,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,176評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡凡壤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,511評論 2 327
  • 正文 我和宋清朗相戀三年署尤,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片亚侠。...
    茶點故事閱讀 38,646評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡曹体,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出硝烂,到底是詐尸還是另有隱情箕别,我是刑警寧澤,帶...
    沈念sama閱讀 34,322評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站串稀,受9級特大地震影響除抛,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜母截,卻給世界環(huán)境...
    茶點故事閱讀 39,934評論 3 313
  • 文/蒙蒙 一到忽、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧清寇,春花似錦喘漏、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至垦江,卻和暖如春帽馋,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背比吭。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評論 1 266
  • 我被黑心中介騙來泰國打工绽族, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人衩藤。 一個月前我還...
    沈念sama閱讀 46,358評論 2 360
  • 正文 我出身青樓吧慢,卻偏偏與公主長得像,于是被迫代替她去往敵國和親赏表。 傳聞我的和親對象是個殘疾皇子检诗,可洞房花燭夜當晚...
    茶點故事閱讀 43,514評論 2 348

推薦閱讀更多精彩內(nèi)容