通過(guò)spliced reads的mapping能發(fā)現(xiàn)線性RNA和環(huán)狀RNA的剪切方式不同蔽豺。一個(gè)是正常的5’/3’前后剪切撬槽,一個(gè)是反向的5’/3’反向剪切(Memczak et al.2013.Nature)。
====建庫(kù)策略====
環(huán)狀RNA 測(cè)序數(shù)據(jù)量
如果使用環(huán)狀RNA 建庫(kù)的策略恤煞,建議測(cè)序量不低于6G/樣本(植物)
如果采用普通lncRNA 文庫(kù)屎勘,建議植物的測(cè)序量不低于12G/樣本,動(dòng)物則推薦16G/樣本以上的測(cè)序量居扒。
建庫(kù)策略的選擇
如果是環(huán)狀RNA 未報(bào)導(dǎo)的物種概漱,建議優(yōu)先采用環(huán)狀RNA 建庫(kù)的策略,以便對(duì)環(huán)狀RNA有更好的檢測(cè)效率喜喂,發(fā)現(xiàn)盡可能多的環(huán)狀RNA瓤摧。
如果是環(huán)狀RNA 已報(bào)導(dǎo),且認(rèn)為目標(biāo)環(huán)狀RNA有較高的豐度玉吁,同時(shí)又特別關(guān)心環(huán)狀RNA 與其他線性RNA 的相互作用關(guān)系照弥,則可以考慮使用普通lncRNA 文庫(kù)的策略。
所以进副,我們實(shí)驗(yàn)的方案都是采用環(huán)狀RNA建庫(kù)的这揣。
====鑒定方法========
CircRNA檢測(cè)的基本原理是去識(shí)別反向剪切的位點(diǎn)(back-splice),最主要的circRNA類(lèi)型是外顯子來(lái)源的影斑,當(dāng)然给赞,在內(nèi)含子、間區(qū)矫户、UTR區(qū)域片迅、lncRNA區(qū)域以及已知轉(zhuǎn)錄本的反義鏈區(qū)域也都鑒定到circRNA,同一個(gè)位點(diǎn)可能形成多個(gè)circRNA皆辽,每個(gè)circRNA可能包含一個(gè)或多個(gè)外顯子柑蛇。CircRNA的數(shù)量從幾千到幾萬(wàn)都有可能芥挣。要研究circRNA,鑒定是第一步耻台,也是最重要的一步空免,目前已經(jīng)有一些pipeline,鑒定得到的circRNA是否準(zhǔn)確和全面粘我,取決于算法的嚴(yán)謹(jǐn)性和可靠性鼓蜒。
?
根據(jù)已發(fā)表的文獻(xiàn),環(huán)狀RNA的鑒定方法分為三類(lèi):
?
1. 從頭預(yù)測(cè)(abinitio)的方法:find_circ(如下圖)(Memczaketal., 2013)征字,將不能和基因組比對(duì)上讀段的兩端各取20bp作為錨點(diǎn)都弹,再將錨點(diǎn)作為獨(dú)立的讀段往基因組上比對(duì)并尋找唯一匹配位點(diǎn),如果兩個(gè)錨點(diǎn)的比對(duì)位置在線性上方向呈反向匙姜,那么就延長(zhǎng)錨點(diǎn)的讀段畅厢,直至找到環(huán)狀RNA的接合位置(junction),若此時(shí)兩側(cè)的序列分別為GT/AG剪接信號(hào)氮昧,則判斷為潛在的環(huán)狀RNA框杜。
2. 基于RNA-seq比對(duì)工具如:Tophat-fusion(KimandSalzberg, 2011)、Mapsplice(Wanget al., 2010)袖肥、STAR(Dobinet al., 2013)咪辱、segemehl(Hoffmannet al., 2014)等,以尋找融合基因的思想檢測(cè)環(huán)狀RNA(如下圖):先將不能比對(duì)到轉(zhuǎn)錄本上的讀段提取出來(lái)椎组,再根據(jù)軟件預(yù)測(cè)結(jié)果找出處于同一條染色體上的融合基因油狂,最后根據(jù)基因組注釋文件中外顯子的邊界來(lái)判斷是否為環(huán)狀RNA。(這也是目前最常用的方法)
3. 專(zhuān)門(mén)為尋找環(huán)狀RNA而設(shè)計(jì)的算法和工具(如下圖)如CIRI寸癌,它考慮了經(jīng)典的環(huán)狀RNA以及一些短外顯子成環(huán)狀RNA的情況专筷,同樣以GT-AG剪接信號(hào)和外顯子邊界得到環(huán)狀RNA。
===鑒定方法比較====
2015蒸苇,NAR發(fā)表了來(lái)自于丹麥奧爾胡斯大學(xué)(Aarhus University)的研究人員(Comparison of circular RNA prediction tools)利用普通的RNA-Seq數(shù)據(jù)比較了5種常用的環(huán)狀RNA預(yù)測(cè)軟件(見(jiàn)表1)磷蛹。
這些算法都依賴外部比對(duì)工具,CIRCexplorer和Mapsplice需要有注釋信息溪烤,其他三種可以不依賴注釋信息味咳,但是準(zhǔn)確性會(huì)有所下降。耗用資源方面檬嘀,僅finc_circ可以用單機(jī)運(yùn)算(8G RAM)莺葫,CIRI耗用資源最多。
測(cè)試數(shù)據(jù):
物種:人
數(shù)據(jù):SRR444655和SRR444975枪眉,未用RNaseR處理,該文章中主要用于分析的數(shù)據(jù)再层;
SRR444974和SRR445016贸铜,使用RNaseR處理堡纬,用于驗(yàn)證預(yù)測(cè)方法預(yù)測(cè)得到的circRNA準(zhǔn)確性的數(shù)據(jù)。
測(cè)序儀器:Hiseq2000蒿秦,pair-end烤镐。
測(cè)序量:31.4-41.3GB/樣本。
預(yù)測(cè)結(jié)果比較
首先棍鳖,研究人員用5個(gè)軟件分別對(duì)同一個(gè)rRNA-depleted RNA-Seq數(shù)據(jù)集進(jìn)行分析炮叶。他們發(fā)現(xiàn)各個(gè)算法給出的環(huán)狀RNA數(shù)目從1500(circRNA_finder)到4000(CIRI)不等,并且只有854個(gè)同時(shí)被5個(gè)軟件發(fā)現(xiàn)(如下圖所示)渡处。
為了驗(yàn)證軟件給出的circRNA是否可信镜悉,研究人員試圖引入線性RNA酶消化(RNase R)的RNA-Seq數(shù)據(jù)來(lái)判斷預(yù)測(cè)到的circRNA是否存在假陽(yáng)性。
結(jié)果顯示不同的軟件給出的circRNA對(duì)RNase R的抵制效率不同医瘫,其中侣肄,CIRI表現(xiàn)最差,有28.03%的假陽(yáng)性率(見(jiàn)下圖)醇份。
研究人員還關(guān)心每個(gè)軟件預(yù)測(cè)出的表達(dá)量最高的100個(gè)circRNA是否真的是環(huán)狀稼锅。他們分別以junction read數(shù)目對(duì)環(huán)狀RNA進(jìn)行排序,觀察表達(dá)量高的前100個(gè)環(huán)狀RNA是否被線性RNA酶消化僚纷。
同樣矩距,在CIRI的預(yù)測(cè)中高表達(dá)的環(huán)狀RNA有超過(guò)半數(shù)(63%)不可靠。MapSplice和CIRCexplorer是表現(xiàn)最好的兩款軟件怖竭,分別只有9%和6%的circRNA被消化(圖下圖)锥债。
通過(guò)比較現(xiàn)有的circRNA預(yù)測(cè)軟件,我們可以看到不同的算法表現(xiàn)差異較大侵状,用戶在使用的時(shí)候需要小心赞弥。(從venn圖也可以看出其實(shí)overlap的概率是不高的)
CIRCexplorer和MapSplice輸出最可信的circRNA列表,主要的原因是這兩個(gè)算法依靠已知的基因注釋文件趣兄,明確的序列注釋信息可以幫助他們降低假陽(yáng)性率绽左,但也限制了這兩個(gè)軟件不能發(fā)現(xiàn)de novo的環(huán)狀RNA。
CircRNA_finder和find_circ也有著很高的準(zhǔn)確性艇潭,并且這兩個(gè)軟件可以獨(dú)立于基因注釋信息運(yùn)行拼窥,預(yù)測(cè)全新的環(huán)狀RNA。
由于單個(gè)軟件往往在一個(gè)方面存在著一定的局限性蹋凝,且數(shù)據(jù)表明能夠被多個(gè)算法預(yù)測(cè)到的環(huán)狀RNA有著較高的可信度鲁纠,因此,在實(shí)際項(xiàng)目中鳍寂,推薦大家多使用兩到三個(gè)環(huán)狀RNA預(yù)測(cè)軟件改含,進(jìn)而取它們的交集。
對(duì)于任意兩種方法檢測(cè)的效果迄汛,文中也做了比較:
從圖中我們可以看到捍壤,兩種方法聯(lián)用可以降低假陽(yáng)性骤视,提高準(zhǔn)確率。
本文使用 文章同步助手 同步