第一塊
題目
TransBorrow: genome-guided transcriptome assembly by borrowing assemblies from different assemblers
通過借用不同的拼接工具的拼接結果來引導完成轉(zhuǎn)錄組拼接
作者
山東大學柳俊濤課題組喝沙特阿卜杜拉國王科技大學高欣課題組
雜志與時間
Genome Research 2021
第二塊
摘要之摘要
RNA-seq技術由于其高通量纱控、高精度以及低成本的優(yōu)勢,目前在轉(zhuǎn)錄組分析中得以廣泛使用俱尼,并且也為揭示復雜結構的轉(zhuǎn)錄組提供了巨大機會棺耍。但是測序不可能一次性讀完全長轉(zhuǎn)錄本际乘,只能得到真實轉(zhuǎn)錄本的一段序列拔妥,所以需要通過組裝的方法將測到的序列拼接成為完整的轉(zhuǎn)錄組。這項研究作者開發(fā)了一種新的轉(zhuǎn)錄組組裝的工具——Transborrow纵苛,并在模擬數(shù)據(jù)集和100余組不同類型的真實數(shù)據(jù)集上進行了測試玉吁,與現(xiàn)有的一些經(jīng)典轉(zhuǎn)錄組組裝工具相比表現(xiàn)出了極大的優(yōu)越性照弥。
第三塊
1、研究對象
轉(zhuǎn)錄組序列
2进副、研究背景
轉(zhuǎn)錄組測序的主要目的是檢測所有表達的轉(zhuǎn)錄本并且測出不同isoform(異構體)的表達水平这揣。由于真核生物中可變剪接機制的存在一個基因往往有不同的異構體,并且這些異構體有表達豐度上的差異影斑,這些都給轉(zhuǎn)錄組拼接帶來了困難给赞。并且rna-seq會有2%的測序錯誤存在,也為計算所有的表達轉(zhuǎn)錄本帶來了挑戰(zhàn)矫户。
轉(zhuǎn)錄組拼接分兩種——有參轉(zhuǎn)錄組拼接以及無參轉(zhuǎn)錄組拼接片迅。有參轉(zhuǎn)錄組拼接——scallop、Transcomb皆辽、stringtie2柑蛇、cufflinks、isoinfer等驱闷,都是通過hisat耻台、tophat等首先將reads匹配到基因組上,再根據(jù)剪接圖模型從mapping結果中尋找拼接路徑空另。無參轉(zhuǎn)錄組拼接則是直接對RNA-seq得到的reads進行拼接盆耽,難度更大,所以拼接結果的準確度要低一些痹换。
轉(zhuǎn)錄組拼接的方法很多征字,但是還沒有哪種方法是專門適用于拼接特定的轉(zhuǎn)錄組都弹。也有一些工具是通過把不同工具拼接得到的結果組合起來娇豫,比如CISA,GAA,Metassembler等。
當跨越不同的RNA-seq數(shù)據(jù)集進行測試時畅厢,并沒有哪個組裝工具能始終如一地生成最準確的組裝結果冯痢,并且很難確定要對RNA-seq數(shù)據(jù)集使用哪項工具。這項研究中作者開發(fā)了transborrow,通過reads的mapping結果建立剪接圖浦楣,借用不同拼接工具的拼接結果提取可靠的拼接子路徑袖肥,該組裝工具首先建立基于片段回貼的剪接圖,并利用雙端測序信息從剪接圖中提取可靠的雙端子路振劳。然后椎组,它通過構建所謂的色彩圖從不同的組裝工具中借用可靠的子序列。隨后历恐,將這些可靠的子序列和雙端子路徑作為可靠的子路徑映射到剪接圖中寸癌,以指導表達的轉(zhuǎn)錄本正確組裝。最后弱贼,作者采用一種新設計的路徑延伸方法蒸苇,通過在每個剪接圖上以上述可靠的子路徑為種子來搜索表示轉(zhuǎn)錄本的路覆蓋,路覆蓋中的每一條路徑代表一個預測出的表達轉(zhuǎn)錄本吮旅。
3溪烤、研究方法(值得一記)
l?構造剪接圖并且提取可靠的子路徑
首先通過比對的工具將RNA-seq的reads比對到參考基因組上,reads被聚集到相關的基因座位上庇勃,然后就可以針對每個基因構造剪接圖檬嘀。(exon-exon,exoin-intron邊界)匪凉,每個節(jié)點代表一個外顯子枪眉,連線代表外顯子之間通過剪切之后造成的連接,連線的權重則代表有多少reads覆蓋這兩個外顯子再层,這個是根據(jù)測序深度而來的贸铜。
l?提取可靠的成對子路徑
通過雙端測序的結果,從每個剪接圖中提取成對子路徑聂受。
R1: P1=ni1→ni2→...→nip?蒿秦;R2: P2 = nj1→ nj2→ ... → njq
從所有路徑中尋找Pin= nip→ nm1→nm2→...→nms→nj1?
如果有且只有這樣一條路徑存在并且滿足長度p + s + q大于等于3,也就是說P1和P2通過Pin進行連接蛋济,我們就提取了成對子路徑P = P1→ Pin→ P2棍鳖。
這樣每對雙端測序的reads都可以產(chǎn)生一條子路徑P,這些子路徑集合叫做Sp碗旅。P的深度就是它所對應的雙端測序reads的深度渡处。
由于測序錯誤的存在,可能子路徑P是不太可靠的祟辟。為了去除不可靠的医瘫,假設給定一條子路徑P,將它進行拆解旧困,4個節(jié)點子路徑拆成一對3節(jié)點子路徑醇份。很多的成對子路徑都可能產(chǎn)生該3節(jié)點子路徑稼锅,在此基礎上決定這個3節(jié)點的子路徑的深度(大于2才認為可靠)。同樣的道理僚纷,我們可以獲得4節(jié)點矩距、5節(jié)點子路徑…n節(jié)點子路徑,最后按長度分組怖竭,按深度進行排序锥债。
l?構造色彩圖
TransBorrow的主要貢獻之一是充分利用來自不同組裝工具的組裝結果,這是通過從不同的組裝工具中提取所有可靠的轉(zhuǎn)錄本子序列來實現(xiàn)的。
(1)???構建色彩圖
將不同轉(zhuǎn)錄工具拼接的轉(zhuǎn)錄本map到基因上,獲得色彩圖Gc伐债,點代表外顯子連線代表剪接位點。每個工具賦予一種顏色绽左,所以叫做色彩圖。
(2)???從色彩圖中提取可靠的子路徑
由于具有不同轉(zhuǎn)錄組工具的拼接結果艇潭,可靠的結果更多拼窥,同時也會有很多假陽性。
色彩圖中每一個子路徑都代表唯一一個拼接的序列蹋凝。
由于不同的拼接工具可能產(chǎn)生同樣的子路徑鲁纠,在此基礎上決定該子路徑的深度。為了獲得可靠的子路徑鳍寂,同樣是將子路徑進行拆解改含,比如說拆解成了3節(jié)點的子路徑,計算3節(jié)點子路徑的深度迄汛,大于2認為可靠捍壤。從而獲得所有的可靠的拼接子路徑,把他們按照長度分組并按深度排序鞍爱。
(3)???將可靠的子路徑映射到剪接圖
組裝過程在剪接圖上執(zhí)行鹃觉,所有可靠的雙端子路和拼接子路徑實際上指導了剪接圖上的組裝過程。因此睹逃,需要將所有可靠的拼接子路映射到剪接圖中盗扇。然后,每個可靠的拼接子路徑對應于剪接圖上的唯一子路徑沉填。
如何對應的呢疗隶?根據(jù)剪接圖構建一個哈希表,對剪接圖里的每一條邊翼闹,鍵存儲的是剪接位點所在的染色體上的位置斑鼻,值存儲的是這個圖以及它邊的索引。
將所有可靠的拼接子路映射到剪接圖后橄碾,將拼接子路和可靠的雙端子路合并卵沉,并刪除的冗余子路(對拼接子路和雙端子路中同時出現(xiàn)的子路,只保留一份)法牲,合并的子路徑稱為可靠子路史汗。
(4)???以可靠的子路徑為種子搜索代表性轉(zhuǎn)錄本
理論上來說,每個可靠的子路徑都對應于表達轉(zhuǎn)錄本的一個片段拒垃,因此應該至少被一個表達轉(zhuǎn)錄本覆蓋停撞。所以作者為每個剪接圖創(chuàng)建一個加權有向圖,根據(jù)子路徑的深度為每個邊賦予權重悼瓮,然后通過一種新的路徑擴展技術尋找代表表達轉(zhuǎn)錄本的路覆蓋戈毒,路覆蓋中的每一條路徑代表一個預測出的表達轉(zhuǎn)錄本。
由于充分結合了不同拼接方法的拼接結果横堡,TransBorrow的拼接將達到一致性最優(yōu)埋市。
研究結果
作者分別從以下幾個方面對TransBorrow的性能進行了評估,各種評估結果表明了TransBorrow有效地利用了來自不同工具的組裝結果命贴,包括stringtie2, scallop, cufflinks,?以及stringtie-merge道宅、TACO兩種merging-based工具,發(fā)現(xiàn)TransBorrow與其他組裝工具相比胸蛛,發(fā)現(xiàn)性能得到了極大增強污茵。
本研究中常用的比較標準是,當且僅當參考轉(zhuǎn)錄本的內(nèi)含子鏈與組裝的轉(zhuǎn)錄本完全匹配時葬项,才認為該參考轉(zhuǎn)錄本是正確檢測到的泞当。
l?模擬數(shù)據(jù)集上的表現(xiàn)
(1)轉(zhuǎn)錄本和基因水平上的評估
生成模擬的RNA-seq數(shù)據(jù)(73萬雙端測序數(shù)據(jù)),比較transborrow民珍,scallop襟士,stringtie2和cufflinks的準確性表現(xiàn),選用精確率和召回率兩個指標從轉(zhuǎn)錄本水平和基因水平進行評估嚷量。
依據(jù)兩種不同比對工具敌蜂,得到不同的評估結果。發(fā)現(xiàn)transborrow的綜合性能是最好的津肛。檢測到的準確的轉(zhuǎn)錄本比stringtie2多出了5.64%和1.29%章喉,比scallop多出了35.58%和7.53%,比cufflinks多出了52.29&和38.55%身坐。
同時也在表達基因上比較拼接工具的表現(xiàn)秸脱。只要該基因的一條isoform被正確拼接出來,則認為該基因被正確拼接部蛇。類似的摊唇,召回率定義為正確檢測到的基因占所有表達基因的比例,而精確率定義為正確拼接的基因占所有拼接出的基因的比例涯鲁。
同樣的依據(jù)兩種不同比對工具得到不同的評估結果巷查,發(fā)現(xiàn)transborrow和精確率和召回率都是最高的有序。
因此,在這兩種比對工具的指導下岛请,在基因水平和轉(zhuǎn)錄本水平兩個方面旭寿,transborrow都是最優(yōu)秀的。
(2)不同表達水平上的轉(zhuǎn)錄本檢測比較
低表達的轉(zhuǎn)錄異構體通常更難被正確組裝出來崇败。為了比較拼接工具對不同表達量的轉(zhuǎn)錄本的拼接效果盅称,將模擬數(shù)據(jù)分為三類:低表達、中等表達和高表達的轉(zhuǎn)錄本后室,發(fā)現(xiàn)transborrow的效果依然是最好的缩膝。
l?真實數(shù)據(jù)集上的表現(xiàn)
需要觀察在真實數(shù)據(jù)集上的表現(xiàn)。因此從NCBI上手下載了四個數(shù)據(jù)集(簡稱R1,R2, R3, R4)岸霹,包括兩組數(shù)據(jù)疾层,每組中有兩個重復。
(1)???轉(zhuǎn)錄本水平上的比較
結果表明在4種數(shù)據(jù)集上贡避,transborrow的召回率最高云芦。如果是使用hisat為比對工具,transborrow的precision一致最高贸桶,但是如果使用star作為比對工具舅逸,在R1數(shù)據(jù)集上面,scallop比transborrow的precision更高皇筛,但是平均算下來f1score的值還是transborrow最高琉历。說明總體表現(xiàn),還是transborrow更好水醋。
這取決于參數(shù)的設置旗笔,如果選擇過濾掉更多低豐度的轉(zhuǎn)錄本,transborrow能在R1上取得最好的效果拄踪,所以這個靈活的過濾參數(shù)對應召回率和精確率之間的權衡蝇恶。
(2)???基因水平上的比較
在四種數(shù)據(jù)集上,無論是選擇hisat比對惶桐,還是選擇star作為比對工具撮弧,transborrow均取得了最好的效果。
(3)???不同表達量的轉(zhuǎn)錄本比較
對于不同表達水平的轉(zhuǎn)錄本姚糊,我們使用kallisto評估轉(zhuǎn)錄本表達水平贿衍,分為低表達、中表達和高表達三種救恨。
值得一提的是贸辈,在hisat2比對結果指導下,transborrow正確比stringtie2多正確組裝了到了44.19%-54.53%的低表達轉(zhuǎn)錄本肠槽,比scallop多51.66%-79.37%的轉(zhuǎn)錄本擎淤,比cufflinks多出191%以上的轉(zhuǎn)錄本奢啥。
比較表明,TransBorrow在識別重構低表達轉(zhuǎn)錄本方面嘴拢,不僅在模擬數(shù)據(jù)上桩盲,而且在真實數(shù)據(jù)集上,展現(xiàn)出了巨大優(yōu)勢炊汤。
l?使用時間和內(nèi)存占用
真實數(shù)據(jù)集上,Scallop和stringtie2最快弊攘,transborrow的速度較慢抢腐,但偶爾高于cufflinks。
內(nèi)存使用上襟交,真實數(shù)據(jù)stringtie2只占用1GB內(nèi)存迈倍,其他工具均不超過10GB,transborrow雖然不是時間和空間上最高效的捣域,但是也適合時間使用啼染。
研究總結
總的來說,TransBorrow是目前已知的第一個實現(xiàn)通過借用不同拼接算法焕梅,對RNA-seq的拼接結果來獲取可靠子路迹鹅,并利用獲取的可靠子路來準確指導拼接過程的轉(zhuǎn)錄組拼接方法。該方法在大量的不同類型數(shù)據(jù)上驗證了其有效性贞言。主要體現(xiàn)在以下幾個方面斜棚。
(1)???綜合利用了不同轉(zhuǎn)錄拼接工具的拼接結果。
(2)???還有一些可以改進的地方该窗。比如不適用于長讀段的RNA-seq數(shù)據(jù)弟蚀,并且沒有考慮
到嵌合轉(zhuǎn)錄本的組裝。Transborrow是在基因組的指導下的酗失,所以不適用于de novo的組裝义钉。
亮點在于,一些轉(zhuǎn)錄本組裝工具(EvidentialGene, Concatenation, Mikado等也是綜合不同的轉(zhuǎn)錄本拼接的結果的规肴,但他們的輸入是拼接結果捶闸,而transborrow是拿RNA-seq的結果直接作為輸入,構造剪接圖并且依次搜尋路徑拖刃,不同的拼接工具提供的拼接結果能夠提供可靠的子路徑鉴嗤。而其他的這些轉(zhuǎn)錄本拼接工具,完全依賴于拼接出來的結果序调,所以結果具有很大的局限性醉锅。
所以transborrow是第一款基因組指導下的,通過不同轉(zhuǎn)錄組拼接工具的結果搜尋可靠的子路徑发绢,并且依靠子路徑作為種子在剪接圖上進行延展得到轉(zhuǎn)錄代表路徑的方法硬耍。TransBorrow將在包括癌癥在內(nèi)的與可變剪接相關的復雜疾病研究中起到重要的理論指導作用垄琐。
討論之可為我所用
轉(zhuǎn)錄本和基因水平上分別展示
使用時間和內(nèi)存消耗分析
討論之存在問題
如何定義基因的至少一條isoform被拼接出來就認為基因被拼接出來?
Transcript level:recall是所有正確拼接到的表達轉(zhuǎn)錄本占所有表達轉(zhuǎn)錄本的比例经柴,precision是正確拼接到的轉(zhuǎn)錄本占所有拼接到的轉(zhuǎn)錄本的比例狸窘。
Gene level:recall是正確拼接來的基因占所有表達基因的比例,precision是所有正確拼接的基因占所有拼接基因的比例坯认。
討論之畫餅/其他
l?使用模擬數(shù)據(jù)集翻擒;
l?Isoform如何判定?