全長轉(zhuǎn)錄組 | 三代全長轉(zhuǎn)錄之circRNA(ONT )-- CIRI-long

環(huán)狀RNA(circular RNA岸霹,circRNA)是一類特殊的非編碼RNA(noncoding RNA撬槽,ncRNA)巩检,也是RNA領(lǐng)域最新的研究熱點术幔。與傳統(tǒng)的線性RNA(linear RNA元咙,含5’和3’末端)不同梯影,circRNA分子呈封閉環(huán)狀結(jié)構(gòu),不受RNA外切酶影響庶香,表達(dá)更穩(wěn)定甲棍,不易降解。

目前研究表明赶掖,在生物體內(nèi)感猛,circRNA主要通過其序列特征,發(fā)揮miRNA海綿倘零、RNA-binding proteins (RBPs)海綿以及翻譯短肽等生物學(xué)功能(1-2)唱遭。因此,確定其的全長序列呈驶,是進(jìn)行circRNA功能研究的重要基礎(chǔ)拷泽。由于目前對于circRNA的研究多采用二代測序的方法,而circRNA的內(nèi)部序列與線性mRNA分子高度相似袖瞻,單純通過算法(識別反向剪切位點)很難區(qū)分來自環(huán)形RNA和線性RNA分子的讀段司致,以及確定全長circRNA內(nèi)部組成。近期的研究中利用了長讀長測序技術(shù)聋迎,對circRNA的全長重構(gòu)進(jìn)行了嘗試(3-4)脂矫。因此,目前研究方法對于circRNA結(jié)構(gòu)的識別能力主要被二代測序的讀長所限制霉晕,對于長度較長(>500bp)的circRNA分子庭再,仍然缺少有效的全長重構(gòu)手段。

趙方慶教授團(tuán)隊前期提出了CIRI-AS算法(基于BSJ讀段對比結(jié)果對環(huán)形RNA內(nèi)部可變剪接結(jié)構(gòu)進(jìn)行識別)牺堰。后續(xù)研究開發(fā)了CIRI-full算法(通過識別雙端250bp測序數(shù)據(jù)中反向重疊區(qū)特征拄轻,對500bp以內(nèi)的環(huán)形RNA進(jìn)行全長重構(gòu))。上述方法主要基于短讀長測序技術(shù)伟葫,難以對長度500bp以上的circRNA的全長序列進(jìn)行有效識別恨搓。

在此基礎(chǔ)上,2021年3月11日筏养,中國科學(xué)院北京生命科學(xué)研究院趙方慶教授團(tuán)隊在Nature Biotechnology雜志上發(fā)表了題為Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long 的文章斧抱,開發(fā)了一種基于三代納米孔測序平臺(Oxford Nanopore Technologies ,ONT)高效測定circRNA全長轉(zhuǎn)錄本的實驗和計算方法:利用隨機(jī)引物對circRNA進(jìn)行的滾環(huán)反轉(zhuǎn)錄擴(kuò)增后渐溶,使用三代納米孔測序技術(shù)(ONT)對circRNA的全長序列進(jìn)行直接測序辉浦,并開發(fā)了CIRI-long 算法,實現(xiàn)對長測序讀段中的circRNA序列進(jìn)行識別和全長重構(gòu)茎辐。實驗結(jié)果表明盏浙,與傳統(tǒng)的circRNA二代測序技術(shù)相比眉睹,該方法將circRNA檢測靈敏度提升了20倍,并可實現(xiàn)對不同長度(<100bp - 5kb)的circRNA全長序列的無偏識別废膘,大幅提升了環(huán)形轉(zhuǎn)錄本的重構(gòu)能力,為其功能研究提供了重要的實驗方法和計算工具慕蔚。

趙方慶教授實驗室主頁(圖1)https://bioinfo.biols.ac.cn/

圖1.趙方慶教授實驗室主頁

一丐黄、CIRI-long軟件介紹

因為circRNAs及其對應(yīng)的線性信使RNA之間的相似性,利用短讀長RNA測序重建circRNA的全長序列一直是具有挑戰(zhàn)性的孔飒,先前的測序方法無法實現(xiàn)對全長circRNA的高通量檢測灌闺。趙方慶教授團(tuán)隊開發(fā)了一種利用三代納米孔(ONT)測序技術(shù)進(jìn)行circRNA及其相應(yīng)的異構(gòu)體(isoform)富集和全長測序的方案。環(huán)狀逆轉(zhuǎn)錄和片段大小選擇能比先前方法從總RNA中多富集出20倍的circRNAs坏瞄。我們開發(fā)了一個使用長度長測序數(shù)據(jù)(CIRI-long)circRNA鑒定軟件桂对,用于重建circRNAs的序列。該算法工作流程利用模擬數(shù)據(jù)鸠匀,通過與 Illumina 測序以及定量實時RT-PCR 的比較進(jìn)行了驗證蕉斜。作者使用CIRI-long來分析成年小鼠腦組織樣本,并系統(tǒng)地對circRNAs進(jìn)行注釋分析缀棍,包括來自線粒體circRNAs宅此。作者鑒定了一種新的內(nèi)含子自連接circRNA的特殊的剪接和表達(dá)模式。此方法利用了三代納米孔測序的長讀長優(yōu)勢爬范,實現(xiàn)了對全長circRNA序列的無偏重建(圖2)父腕。

圖2. CIRI-long文章

二、CIRI-long的安裝

依賴軟件

  • gcc 4.8+clang 3.4+
  • cmake 3.2+
  • python>=3.7
  • samtools=1.9 或更高
  • minimap2

1. 從源代碼安裝

$ git clone https://github.com/bioinfo-biols/CIRI-long.git CIRI-long
$ cd CIRI-long

# Create virtual environment
$ python3 -m venv venv

# Activate virtualenv
$ source ./venv/bin/activate

# Install CIRI-long
$ make

# Test for installation
$ make test

2. 使用pip安裝

個人推薦使用青瀑,方便快捷璧亮。

$ pip install CIRI-long

三、CIRI-long的使用方法

軟件主頁https://github.com/bioinfo-biols/CIRI-long

1. 基本用法

CIRI-long兩個命令: CIRI-long callCIRI-long collapse斥难,因此整個流程分為兩步枝嘶。

usage: CIRI-long [-h] [-v] {call,collapse} ...

positional arguments:
  {call,collapse}  commands

optional arguments:
  -h, --help       show this help message and exit
  -v, --version    show program's version number and exit

2. 步驟1:circRNA 鑒定

  • 基本用法
#主命令
$ CIRI-long call [-h] [-i READS] [-o DIR] [-r REF] [-p PREFIX] [-a GTF] [--canonical] [-t INT] [--debug]

optional arguments:
  -h, --help            show this help message and exit  #幫助文檔
  -i READS, --in READS  Input reads.fq.gz  #輸入文件
  -o DIR, --out DIR     Output directory, default: ./  #輸出文件夾路徑
  -r REF, --ref REF     Reference genome FASTA file  #參考基因組ref.fa文件,需要用bwa進(jìn)行索引
  -p PREFIX, --prefix PREFIX
                        Output sample prefix, (default: CIRI-long)  #輸出文件前綴
  -a GTF, --anno GTF    Genome reference gtf, (optional) #基因組注釋文件(可選)
  -c CIRC, --circ CIRC  Additional circRNA annotation in bed/gtf format, 
                        (optional)  #以bed/gtf格式輸出circRNA注釋文件(可選)
  -t INT, --threads INT Number of threads, (default: use all cores)  #線程數(shù)
  --debug               Run in debugging mode, (default: False)  #糾錯模式運行

注意
參考基因組需要bwa的索引蘸炸。在運行CIRI-long之前躬络,使用bwa index命令對參考基因組ref.fa文件進(jìn)行索引。

  • 使用示例
#下載演示數(shù)據(jù)
$ wget https://github.com/bioinfo-biols/CIRI-long/releases/download/v0.6-alpha/CIRI-long_test_data.tar.gz

#演示數(shù)據(jù)解壓
$ tar zxvf CIRI-long_test_data.tar.gz
$ cd test_data

#使用```bwa index```命令對參考基因組文件進(jìn)行索引
$ bwa index -a bwtsw mm10_chr12.fa mm10_chr12.fa

#運行CIRI-long鑒定circRNA
$ CIRI-long call -i test_reads.fa \  #輸入文件
               -o ./test_call \ #輸出路徑
               -r mm10_chr12.fa \ #參考基因組
               -p test \ #輸出文件前綴
               -a mm10_chr12.gtf \ #基因組注釋文件
               -t 8 #使用線程數(shù)
  • 輸出文件
test_call
├── test.cand_circ.fa  # 主要文件搭儒,circRNA序列文件穷当。
├── test.json
├── test.log
├── test.low_confidence.fa  # circRNA序列文件,低置信度淹禾。
└── tmp
    ├── ss.idx
    ├── test.ccs.fa
    └── test.raw.fa

# 如果不加 -c 選項馁菜,則產(chǎn)生一個文件夾,7個文件
  • 使用非經(jīng)典剪切信號
    如果想使用其它剪切信號铃岔,可以在腳本align.py修改SPLICE_SIGNAL汪疮,格式為:{(5’SS, 3’SS): Priority} 峭火。

默認(rèn):

SPLICE_SIGNAL = {
    ('GT', 'AG'): 0,  # U2-type
    ('GC', 'AG'): 1,  # U2-type
    ('AT', 'AC'): 2,  # U12-type
    ('GT', 'AC'): 2,  # U12-type
    ('AT', 'AG'): 2,  # U12-type
}

3. 步驟2:isoform合并(collapose)

  • 基本用法

可以將多個樣本的circRNA結(jié)果合并。

#主命令
$ CIRI-long collapse [-h] [-i LIST] [-o DIR] [-p PREFIX] [-r REF] [-a GTF] [--canonical] [-t INT] [--debug]

optional arguments:
  -h, --help            show this help message and exit  #幫助文檔
  -i LIST, --in LIST    Input list of CIRI-long results  #樣本名稱和路徑的list文件
  -o DIR, --out DIR     Output directory, default: ./  #輸出文件夾路徑
  -p PREFIX, --prefix PREFIX
                        Output sample prefix, (default: CIRI-long)  #輸出文件前綴
  -r REF, --ref REF     Reference genome FASTA file   #參考基因組文件
  -a GTF, --anno GTF    Genome reference gtf, (optional)  #參考基因組注釋文件
  -c CIRC, --circ CIRC  Additional circRNA annotation in bed/gtf format,
                        (optional) #以bed/gtf格式輸出circRNA注釋文件(可選)
  -t INT, --threads INT
                        Number of threads, (default: use all cores)   #線程數(shù)
  --debug               Run in debugging mode, (default: False)  #糾錯模式運行

需要先創(chuàng)建一個想要合并樣本(*.cand_circ.fa)的名稱和路徑的list文本文件智嚷,以空格分隔卖丸。

#list 文件內(nèi)容
sample1_name /path/to/sample1/cand_circ.fa
sample2_name /path/to/sample2/cand_circ.fa
  • 使用示例

創(chuàng)建一個名為test.list文本文件:

test ./test_call/test.cand_circ.fa

運行CIRI-long collapse合并一個或多個樣本結(jié)果。

 $ CIRI-long collapse -i ./test.lst \  #輸入文件
                    -o ./test_collpase \  #輸出文件夾路徑
                    -p test \  #文件前綴
                    -r ./mm10_chr12.fa \   #參考基因組
                    -a ./mm10_chr12.gtf \  #參考基因組注釋文件
                    -t 8   #線程
  • 輸出文件
test_collpase
├── test_collpase.expression
├── test_collpase.isoforms
├── test_collpase.info
├── test_collpase.log
├── test_collpase.reads
└── tmp
    ├── ss.idx
    └── test_collpase.corrected.pkl

# 如果不加 -c 選項盏道,則產(chǎn)生一個文件夾稍浆,6個文件
  • 輸出文件格式

1)主要輸出文件,GTF格式文件(test_collpase.info)猜嘱,包含所有circRNA的詳細(xì)信息和circRNA反向剪切區(qū)域的注釋列衅枫。

名稱 描述
1 chrom 染色體位置 chromosome/contig name ---- 染色體或contig名稱
2 source 來源 CIRI-long
3 type 類型 circRNA
4 start 起始 5' back-spliced junction site ---- 5'端反向剪切位點
5 end 結(jié)束 3' back-spliced junction site ---- 3'端反向剪切位點
6 score 得分 Number of total supported reads ---- 支持reads數(shù)
7 strand 鏈 strand information ---- 鏈信息
8 . .
9 attributes 特性 attributes seperated by semicolon ---- 分號分隔的屬性

屬性列包含了幾個預(yù)先定義的關(guān)鍵詞及其賦值:

key關(guān)鍵詞 description描述
circ_id circRNA的ID name of circRNA ---- circRNA名稱
splice_site 剪切位點 splicing signal of candidate circRNAs and numbers indicating shifted bases of aligned and annotated splice site. (e.g. AG-GT | 0-5) 候選circRNA剪切信號和實際剪切位點和注釋的偏差堿基數(shù)
equivalent_seq 等同序列 equivalent sequence of splice site ---- 同一個剪切位點對應(yīng)的其它circRNA序列
circ_type circ類型 circRNA types: exon/intron/intergenic ---- circRNA類型:外顯子/內(nèi)含子/基因間區(qū)
circ_len circ長度 length of the major isoform of circRNA ---- circRNA主要異構(gòu)體的長度
isoform 異構(gòu)體 structure of isoforms, isoforms are seperated by "|" and circular exons are seperated by "," (e.g. 11627815-111627914,111628190-111628302|11627815-111628302) ---- circRNA異構(gòu)體的位置長度信息
gene_id 基因ID ensemble id of host gene ---- 基因的ensemble ID
gene_name 基因名稱 HGNC symbol of host gene ---- 基因的名稱
gene_type 基因類型 type of host gene in the annotation gtf file ---- 基因的類型

2)表達(dá)矩陣

test_collpase.expression: 包含所有樣本中circRNA的表達(dá)水平,tsv文件格式朗伶。

test_collpase.isoforms:包含所有樣本中每個circRNA異構(gòu)體(isoform)使用指數(shù)(index)弦撩,tsv文件格式。

isoform使用指數(shù)公式

Isoform usage index = Isoform_reads(某個異構(gòu)體-isoform的數(shù)量) / Sum of all isoforms from the same BSJ (共享同一個反向剪切位點的所有異構(gòu)體-isoform總和)

4. 步驟3:輸出文件可視化

從版本v1.1.0以后论皆,CIRI-long包含misc/conver_bed.py 腳本益楼,用戶可以使用此腳本將 circRNA.info(gtf格式)轉(zhuǎn)化為.bed格式,此.bed文件可以利用IGVJbrowse2軟件進(jìn)行可視化纯丸。具體轉(zhuǎn)化代碼如下:

$ python3 misc/convert_bed.py collapse_out/sample.info sample_circ.bed

四偏形、參考文獻(xiàn)

  1. 專家點評 | 基于納米孔測序的環(huán)形RNA識別和重建新技術(shù)
  2. Chen L-L. The Expanding Regulatory Mechanisms and Cellular Functions of Circular RNAs. Nature Reviews. Molecular Cell Biology, 2020.
  3. Zheng Y, Ji P, Chen S, et al. Reconstruction of Full-Length Circular RNAs Enables Isoform-Level Quantification. Genome Medicine, 2019, 11(1): 4. Xin R, Gao Y, Gao Y, et al. IsoCirc Catalogs Full-Length Circular RNA Isoforms in Human Transcriptomes. Nature Communications, 2021, 12(1): 266.
  4. Zhang, J., Hou, L., Zuo, Z., Ji, P., Zhang, X., Xue, Y., & Zhao, F. Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long. Nature Biotechnology. (2021).
  5. CIRI-long 使用文檔: https://ciri-cookbook.readthedocs.io/en/latest
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市觉鼻,隨后出現(xiàn)的幾起案子俊扭,更是在濱河造成了極大的恐慌,老刑警劉巖坠陈,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件萨惑,死亡現(xiàn)場離奇詭異,居然都是意外死亡仇矾,警方通過查閱死者的電腦和手機(jī)庸蔼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來贮匕,“玉大人姐仅,你說我怎么就攤上這事】萄危” “怎么了掏膏?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長敦锌。 經(jīng)常有香客問我馒疹,道長,這世上最難降的妖魔是什么乙墙? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任颖变,我火速辦了婚禮生均,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘腥刹。我一直安慰自己马胧,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布衔峰。 她就那樣靜靜地躺著漓雅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪朽色。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天组题,我揣著相機(jī)與錄音葫男,去河邊找鬼。 笑死崔列,一個胖子當(dāng)著我的面吹牛梢褐,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播赵讯,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼盈咳,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了边翼?” 一聲冷哼從身側(cè)響起鱼响,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎组底,沒想到半個月后丈积,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡债鸡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年江滨,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片厌均。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡唬滑,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出棺弊,到底是詐尸還是另有隱情晶密,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布镊屎,位于F島的核電站惹挟,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏缝驳。R本人自食惡果不足惜连锯,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一归苍、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧运怖,春花似錦拼弃、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至咏连,卻和暖如春盯孙,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背祟滴。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工振惰, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人垄懂。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓骑晶,卻偏偏與公主長得像踪旷,于是被迫代替她去往敵國和親凿可。 傳聞我的和親對象是個殘疾皇子跨蟹,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容