環(huán)狀RNA(circular RNA岸霹,circRNA)是一類特殊的非編碼RNA(noncoding RNA撬槽,ncRNA)巩检,也是RNA領(lǐng)域最新的研究熱點术幔。與傳統(tǒng)的線性RNA(linear RNA元咙,含5’和3’末端)不同梯影,circRNA分子呈封閉環(huán)狀結(jié)構(gòu),不受RNA外切酶影響庶香,表達(dá)更穩(wěn)定甲棍,不易降解。
目前研究表明赶掖,在生物體內(nèi)感猛,circRNA主要通過其序列特征,發(fā)揮miRNA海綿倘零、RNA-binding proteins (RBPs)海綿以及翻譯短肽等生物學(xué)功能(1-2)唱遭。因此,確定其的全長序列呈驶,是進(jìn)行circRNA功能研究的重要基礎(chǔ)拷泽。由于目前對于circRNA的研究多采用二代測序的方法,而circRNA的內(nèi)部序列與線性mRNA分子高度相似袖瞻,單純通過算法(識別反向剪切位點)很難區(qū)分來自環(huán)形RNA和線性RNA分子的讀段司致,以及確定全長circRNA內(nèi)部組成。近期的研究中利用了長讀長測序技術(shù)聋迎,對circRNA的全長重構(gòu)進(jìn)行了嘗試(3-4)脂矫。因此,目前研究方法對于circRNA結(jié)構(gòu)的識別能力主要被二代測序的讀長所限制霉晕,對于長度較長(>500bp)的circRNA分子庭再,仍然缺少有效的全長重構(gòu)手段。
趙方慶教授團(tuán)隊前期提出了CIRI-AS算法(基于BSJ讀段對比結(jié)果對環(huán)形RNA內(nèi)部可變剪接結(jié)構(gòu)進(jìn)行識別)牺堰。后續(xù)研究開發(fā)了CIRI-full算法(通過識別雙端250bp測序數(shù)據(jù)中反向重疊區(qū)特征拄轻,對500bp以內(nèi)的環(huán)形RNA進(jìn)行全長重構(gòu))。上述方法主要基于短讀長測序技術(shù)伟葫,難以對長度500bp以上的circRNA的全長序列進(jìn)行有效識別恨搓。
在此基礎(chǔ)上,2021年3月11日筏养,中國科學(xué)院北京生命科學(xué)研究院趙方慶教授團(tuán)隊在Nature Biotechnology雜志上發(fā)表了題為Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long 的文章斧抱,開發(fā)了一種基于三代納米孔測序平臺(Oxford Nanopore Technologies ,ONT)高效測定circRNA全長轉(zhuǎn)錄本的實驗和計算方法:利用隨機(jī)引物對circRNA進(jìn)行的滾環(huán)反轉(zhuǎn)錄擴(kuò)增后渐溶,使用三代納米孔測序技術(shù)(ONT)對circRNA的全長序列進(jìn)行直接測序辉浦,并開發(fā)了CIRI-long 算法,實現(xiàn)對長測序讀段中的circRNA序列進(jìn)行識別和全長重構(gòu)茎辐。實驗結(jié)果表明盏浙,與傳統(tǒng)的circRNA二代測序技術(shù)相比眉睹,該方法將circRNA檢測靈敏度提升了20倍,并可實現(xiàn)對不同長度(<100bp - 5kb)的circRNA全長序列的無偏識別废膘,大幅提升了環(huán)形轉(zhuǎn)錄本的重構(gòu)能力,為其功能研究提供了重要的實驗方法和計算工具慕蔚。
趙方慶教授實驗室主頁(圖1):https://bioinfo.biols.ac.cn/
一丐黄、CIRI-long軟件介紹
因為circRNAs及其對應(yīng)的線性信使RNA之間的相似性,利用短讀長RNA測序重建circRNA的全長序列一直是具有挑戰(zhàn)性的孔飒,先前的測序方法無法實現(xiàn)對全長circRNA的高通量檢測灌闺。趙方慶教授團(tuán)隊開發(fā)了一種利用三代納米孔(ONT)測序技術(shù)進(jìn)行circRNA及其相應(yīng)的異構(gòu)體(isoform)富集和全長測序的方案。環(huán)狀逆轉(zhuǎn)錄和片段大小選擇能比先前方法從總RNA中多富集出20倍的circRNAs坏瞄。我們開發(fā)了一個使用長度長測序數(shù)據(jù)(CIRI-long)circRNA鑒定軟件桂对,用于重建circRNAs的序列。該算法工作流程利用模擬數(shù)據(jù)鸠匀,通過與 Illumina 測序以及定量實時RT-PCR 的比較進(jìn)行了驗證蕉斜。作者使用CIRI-long來分析成年小鼠腦組織樣本,并系統(tǒng)地對circRNAs進(jìn)行注釋分析缀棍,包括來自線粒體circRNAs宅此。作者鑒定了一種新的內(nèi)含子自連接circRNA的特殊的剪接和表達(dá)模式。此方法利用了三代納米孔測序的長讀長優(yōu)勢爬范,實現(xiàn)了對全長circRNA序列的無偏重建(圖2)父腕。
二、CIRI-long的安裝
依賴軟件:
-
gcc 4.8+
或clang 3.4+
cmake 3.2+
python>=3.7
-
samtools=1.9
或更高 minimap2
1. 從源代碼安裝
$ git clone https://github.com/bioinfo-biols/CIRI-long.git CIRI-long
$ cd CIRI-long
# Create virtual environment
$ python3 -m venv venv
# Activate virtualenv
$ source ./venv/bin/activate
# Install CIRI-long
$ make
# Test for installation
$ make test
2. 使用pip
安裝
個人推薦使用青瀑,方便快捷璧亮。
$ pip install CIRI-long
三、CIRI-long的使用方法
軟件主頁:https://github.com/bioinfo-biols/CIRI-long
1. 基本用法
CIRI-long
兩個命令: CIRI-long call
和 CIRI-long collapse
斥难,因此整個流程分為兩步枝嘶。
usage: CIRI-long [-h] [-v] {call,collapse} ...
positional arguments:
{call,collapse} commands
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
2. 步驟1:circRNA 鑒定
- 基本用法
#主命令
$ CIRI-long call [-h] [-i READS] [-o DIR] [-r REF] [-p PREFIX] [-a GTF] [--canonical] [-t INT] [--debug]
optional arguments:
-h, --help show this help message and exit #幫助文檔
-i READS, --in READS Input reads.fq.gz #輸入文件
-o DIR, --out DIR Output directory, default: ./ #輸出文件夾路徑
-r REF, --ref REF Reference genome FASTA file #參考基因組ref.fa文件,需要用bwa進(jìn)行索引
-p PREFIX, --prefix PREFIX
Output sample prefix, (default: CIRI-long) #輸出文件前綴
-a GTF, --anno GTF Genome reference gtf, (optional) #基因組注釋文件(可選)
-c CIRC, --circ CIRC Additional circRNA annotation in bed/gtf format,
(optional) #以bed/gtf格式輸出circRNA注釋文件(可選)
-t INT, --threads INT Number of threads, (default: use all cores) #線程數(shù)
--debug Run in debugging mode, (default: False) #糾錯模式運行
注意:
參考基因組需要bwa
的索引蘸炸。在運行CIRI-long
之前躬络,使用bwa index
命令對參考基因組ref.fa
文件進(jìn)行索引。
- 使用示例
#下載演示數(shù)據(jù)
$ wget https://github.com/bioinfo-biols/CIRI-long/releases/download/v0.6-alpha/CIRI-long_test_data.tar.gz
#演示數(shù)據(jù)解壓
$ tar zxvf CIRI-long_test_data.tar.gz
$ cd test_data
#使用```bwa index```命令對參考基因組文件進(jìn)行索引
$ bwa index -a bwtsw mm10_chr12.fa mm10_chr12.fa
#運行CIRI-long鑒定circRNA
$ CIRI-long call -i test_reads.fa \ #輸入文件
-o ./test_call \ #輸出路徑
-r mm10_chr12.fa \ #參考基因組
-p test \ #輸出文件前綴
-a mm10_chr12.gtf \ #基因組注釋文件
-t 8 #使用線程數(shù)
- 輸出文件
test_call
├── test.cand_circ.fa # 主要文件搭儒,circRNA序列文件穷当。
├── test.json
├── test.log
├── test.low_confidence.fa # circRNA序列文件,低置信度淹禾。
└── tmp
├── ss.idx
├── test.ccs.fa
└── test.raw.fa
# 如果不加 -c 選項馁菜,則產(chǎn)生一個文件夾,7個文件
-
使用非經(jīng)典剪切信號
如果想使用其它剪切信號铃岔,可以在腳本align.py
修改SPLICE_SIGNAL
汪疮,格式為:{(5’SS, 3’SS): Priority} 峭火。
默認(rèn):
SPLICE_SIGNAL = {
('GT', 'AG'): 0, # U2-type
('GC', 'AG'): 1, # U2-type
('AT', 'AC'): 2, # U12-type
('GT', 'AC'): 2, # U12-type
('AT', 'AG'): 2, # U12-type
}
3. 步驟2:isoform合并(collapose)
- 基本用法
可以將多個樣本的circRNA結(jié)果合并。
#主命令
$ CIRI-long collapse [-h] [-i LIST] [-o DIR] [-p PREFIX] [-r REF] [-a GTF] [--canonical] [-t INT] [--debug]
optional arguments:
-h, --help show this help message and exit #幫助文檔
-i LIST, --in LIST Input list of CIRI-long results #樣本名稱和路徑的list文件
-o DIR, --out DIR Output directory, default: ./ #輸出文件夾路徑
-p PREFIX, --prefix PREFIX
Output sample prefix, (default: CIRI-long) #輸出文件前綴
-r REF, --ref REF Reference genome FASTA file #參考基因組文件
-a GTF, --anno GTF Genome reference gtf, (optional) #參考基因組注釋文件
-c CIRC, --circ CIRC Additional circRNA annotation in bed/gtf format,
(optional) #以bed/gtf格式輸出circRNA注釋文件(可選)
-t INT, --threads INT
Number of threads, (default: use all cores) #線程數(shù)
--debug Run in debugging mode, (default: False) #糾錯模式運行
需要先創(chuàng)建一個想要合并樣本(*.cand_circ.fa
)的名稱和路徑的list
文本文件智嚷,以空格分隔卖丸。
#list 文件內(nèi)容
sample1_name /path/to/sample1/cand_circ.fa
sample2_name /path/to/sample2/cand_circ.fa
- 使用示例
創(chuàng)建一個名為test.list
文本文件:
test ./test_call/test.cand_circ.fa
運行CIRI-long collapse
合并一個或多個樣本結(jié)果。
$ CIRI-long collapse -i ./test.lst \ #輸入文件
-o ./test_collpase \ #輸出文件夾路徑
-p test \ #文件前綴
-r ./mm10_chr12.fa \ #參考基因組
-a ./mm10_chr12.gtf \ #參考基因組注釋文件
-t 8 #線程
- 輸出文件
test_collpase
├── test_collpase.expression
├── test_collpase.isoforms
├── test_collpase.info
├── test_collpase.log
├── test_collpase.reads
└── tmp
├── ss.idx
└── test_collpase.corrected.pkl
# 如果不加 -c 選項盏道,則產(chǎn)生一個文件夾稍浆,6個文件
- 輸出文件格式
1)主要輸出文件,GTF格式文件(test_collpase.info
)猜嘱,包含所有circRNA的詳細(xì)信息和circRNA反向剪切區(qū)域的注釋列衅枫。
列 | 名稱 | 描述 |
---|---|---|
1 | chrom 染色體位置 | chromosome/contig name ---- 染色體或contig名稱 |
2 | source 來源 | CIRI-long |
3 | type 類型 | circRNA |
4 | start 起始 | 5' back-spliced junction site ---- 5'端反向剪切位點 |
5 | end 結(jié)束 | 3' back-spliced junction site ---- 3'端反向剪切位點 |
6 | score 得分 | Number of total supported reads ---- 支持reads數(shù) |
7 | strand 鏈 | strand information ---- 鏈信息 |
8 | . | . |
9 | attributes 特性 | attributes seperated by semicolon ---- 分號分隔的屬性 |
屬性列包含了幾個預(yù)先定義的關(guān)鍵詞及其賦值:
key關(guān)鍵詞 | description描述 |
---|---|
circ_id circRNA的ID | name of circRNA ---- circRNA名稱 |
splice_site 剪切位點 | splicing signal of candidate circRNAs and numbers indicating shifted bases of aligned and annotated splice site. (e.g. AG-GT | 0-5) 候選circRNA剪切信號和實際剪切位點和注釋的偏差堿基數(shù) |
equivalent_seq 等同序列 | equivalent sequence of splice site ---- 同一個剪切位點對應(yīng)的其它circRNA序列 |
circ_type circ類型 | circRNA types: exon/intron/intergenic ---- circRNA類型:外顯子/內(nèi)含子/基因間區(qū) |
circ_len circ長度 | length of the major isoform of circRNA ---- circRNA主要異構(gòu)體的長度 |
isoform 異構(gòu)體 | structure of isoforms, isoforms are seperated by "|" and circular exons are seperated by "," (e.g. 11627815-111627914,111628190-111628302|11627815-111628302) ---- circRNA異構(gòu)體的位置長度信息 |
gene_id 基因ID | ensemble id of host gene ---- 基因的ensemble ID |
gene_name 基因名稱 | HGNC symbol of host gene ---- 基因的名稱 |
gene_type 基因類型 | type of host gene in the annotation gtf file ---- 基因的類型 |
2)表達(dá)矩陣
test_collpase.expression
: 包含所有樣本中circRNA的表達(dá)水平,tsv
文件格式朗伶。
test_collpase.isoforms
:包含所有樣本中每個circRNA異構(gòu)體(isoform)使用指數(shù)(index)弦撩,tsv
文件格式。
isoform使用指數(shù)公式:
Isoform usage index = Isoform_reads(某個異構(gòu)體-isoform的數(shù)量) / Sum of all isoforms from the same BSJ (共享同一個反向剪切位點的所有異構(gòu)體-isoform總和)
4. 步驟3:輸出文件可視化
從版本v1.1.0以后论皆,CIRI-long包含misc/conver_bed.py
腳本益楼,用戶可以使用此腳本將 circRNA.info
(gtf格式)轉(zhuǎn)化為.bed
格式,此.bed
文件可以利用IGV
或Jbrowse2
軟件進(jìn)行可視化纯丸。具體轉(zhuǎn)化代碼如下:
$ python3 misc/convert_bed.py collapse_out/sample.info sample_circ.bed
四偏形、參考文獻(xiàn)
- 專家點評 | 基于納米孔測序的環(huán)形RNA識別和重建新技術(shù)
- Chen L-L. The Expanding Regulatory Mechanisms and Cellular Functions of Circular RNAs. Nature Reviews. Molecular Cell Biology, 2020.
- Zheng Y, Ji P, Chen S, et al. Reconstruction of Full-Length Circular RNAs Enables Isoform-Level Quantification. Genome Medicine, 2019, 11(1): 4. Xin R, Gao Y, Gao Y, et al. IsoCirc Catalogs Full-Length Circular RNA Isoforms in Human Transcriptomes. Nature Communications, 2021, 12(1): 266.
- Zhang, J., Hou, L., Zuo, Z., Ji, P., Zhang, X., Xue, Y., & Zhao, F. Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long. Nature Biotechnology. (2021).
- CIRI-long 使用文檔: https://ciri-cookbook.readthedocs.io/en/latest