在最初的環(huán)狀RNA研究中,認(rèn)為環(huán)狀RNA都是由exon通過反向剪切構(gòu)成的,稱之為exonic circRNA,只有這樣的環(huán)狀RNA能夠由PCR反應(yīng)驗(yàn)證出來的。
CIRI是一款環(huán)狀RNA檢測(cè)軟件幕庐,通過該軟件的預(yù)測(cè)結(jié)果,學(xué)者第一次用實(shí)驗(yàn)驗(yàn)證出了intronic circRNA和intergenic circRNA家淤。該軟件操作簡(jiǎn)便异剥,準(zhǔn)確度高,是非常流行的一款環(huán)狀RNA檢測(cè)軟件絮重。
該軟件至少需要兩個(gè)輸入文件冤寿,基因組的fasta序列和測(cè)序數(shù)據(jù)比對(duì)產(chǎn)生的sam文件歹苦,需要注意的是,輸入的sam文件必須是由bwa-mem算法比對(duì)產(chǎn)生的 督怜。分析的pipeline示意如下
對(duì)于輸入的sam文件殴瘦,需要經(jīng)過兩次掃描,在第一次掃描時(shí)号杠,根據(jù)雙端數(shù)據(jù)的比對(duì)情況篩選候選的環(huán)狀RNA蚪腋,這一步通過判斷SAM文件中CIGAR那一列的值來實(shí)現(xiàn),本質(zhì)上是檢測(cè)覆蓋環(huán)狀RNA連接點(diǎn)處的junction reads,根據(jù)測(cè)序讀長(zhǎng)和連接點(diǎn)處包含的基因組區(qū)域的特征姨蟋,分成以下3種模型
圖A表示junction read只覆蓋了起始外顯子和終止外顯子的部分序列屉凯,這兩部分reads在基因組上的比對(duì)位置是相反的,絕大部分的環(huán)狀RNA都符合這種模型眼溶。
圖B表示junction read除了覆蓋了起始外顯子和終止外顯子的兩部分序列外悠砚,還覆蓋了中間的一個(gè)外顯子的部分序列,這種情況下reads可以分成3個(gè)部分比對(duì)到基因組上堂飞。
圖C表示junction read除了覆蓋了整個(gè)環(huán)狀RNA外灌旧,還重復(fù)又讀了一部分序列,這個(gè)只有當(dāng)環(huán)狀RNA的序列長(zhǎng)度小于測(cè)序讀長(zhǎng)時(shí)才可能出現(xiàn)绰筛。
該軟件將以上3種模型定義為paired chiastic clipping signals枢泰,簡(jiǎn)稱PCC信號(hào),如果一條reads比對(duì)情況符合以上任意一種别智,就認(rèn)為該reads是一條環(huán)狀RNA的junction reads宗苍。
為了提高準(zhǔn)確性稼稿,識(shí)別到j(luò)unciton reads之后薄榛,還會(huì)結(jié)合雙端序列比對(duì)的質(zhì)量paired end mapping即PEM和GT-AG保守的剪切位點(diǎn)進(jìn)行過濾,示意圖如下
只保留比對(duì)質(zhì)量較高让歼,且頭尾符合AG-GT剪切信號(hào)的junciton reads進(jìn)入下游分析敞恋,在第二次掃描SAM文件的過程中,通過動(dòng)態(tài)規(guī)劃算法給出最終的環(huán)狀RNA預(yù)測(cè)結(jié)果谋右,如果提供了GTF文件硬猫,還會(huì)對(duì)環(huán)狀RNA進(jìn)行注釋。
該軟件的使用步驟如下
1. bwa比對(duì)參考基因組
代碼如下
bwa mem \
-T 19 \
-t 5 hg19_index \
R1.fastq.gz R2.fastq.gz \
> align.sam
2. 運(yùn)行CIRI
CIRI2.pl \
-T 20 \
-F hg19.fa \
-A hg19.gtf \
-I align.sam \
-O circRNA.xls
輸出結(jié)果如下所示
在后續(xù)驗(yàn)證時(shí)改执,可以挑選表達(dá)量較高的來驗(yàn)證啸蜜,在軟件對(duì)應(yīng)的文章中,挑選了junction reads數(shù)大于5的環(huán)狀RNA來進(jìn)行驗(yàn)證辈挂。
參考資料:
使用CIRI識(shí)別環(huán)狀RNA
CIRI: an efficient and unbiased algorithm for de novo circular RNA identification