ONT全長轉(zhuǎn)錄組測(cè)序是指基于牛津納米孔公司(Oxford Nanopore Technologies,ONT)三代測(cè)序平臺(tái)進(jìn)行的全長轉(zhuǎn)錄組測(cè)序灾馒。利用三代測(cè)序平臺(tái)長度長 (long-read)的特性,無需對(duì)轉(zhuǎn)錄本進(jìn)行片段化怀愧,直接獲取某一物種mRNA(或者有polyA尾的lncRNA)5'端到3'端的高質(zhì)量全長轉(zhuǎn)錄組序列信息(圖1)概疆,可準(zhǔn)確識(shí)別可變剪接、基因融合惨缆、基因家族、可選擇性多聚腺苷酸化 (alternative polyadenylation, APA)丰捷、等位基因特異性表達(dá)等轉(zhuǎn)錄本結(jié)構(gòu)方面的變異坯墨。基于ONT三代測(cè)序平臺(tái)進(jìn)行全長轉(zhuǎn)錄組測(cè)序病往,除了可準(zhǔn)確鑒別上述轉(zhuǎn)錄本結(jié)構(gòu)變異捣染,由于現(xiàn)階段測(cè)序成本和通量(相對(duì)于PacBio平臺(tái)),還可實(shí)現(xiàn)轉(zhuǎn)錄本(mRNA或polyA+ lncRNA)表達(dá)水平準(zhǔn)確定量和差異分析停巷。
一耍攘、ONT測(cè)序技術(shù)簡介
ONT測(cè)序是基于電信號(hào)識(shí)別堿基序列的三代測(cè)序技術(shù)。DNA/RNA上不同堿基化學(xué)性質(zhì)存在差異畔勤,單個(gè)核酸分子在分子馬達(dá)的帶領(lǐng)下與鑲嵌在生物膜上的納米孔蛋白結(jié)合并解旋蕾各,通過納米孔通道時(shí),堿基造成的阻礙大小不一硼被,因此會(huì)形成特征性離子電流變化信號(hào)示损。通過對(duì)這些信號(hào)進(jìn)行實(shí)時(shí)檢測(cè),即可獲得相應(yīng)堿基類型嚷硫,完成測(cè)序 (圖2)检访。目前通過“遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)”的復(fù)雜算法對(duì)堿基進(jìn)行判讀。
ONT測(cè)序技術(shù)具有以下特點(diǎn):
1)讀長長仔掸,最長讀長能達(dá)到4.2 M以上級(jí)別脆贵,有利于可變剪接、基因融合等結(jié)構(gòu)變異檢測(cè)起暮;
2)低成本:相比其他三代測(cè)序技術(shù)卖氨,ONT測(cè)序樣本處理極其簡單,無需DNA聚合酶负懦、連接酶和dNTPs筒捺,測(cè)序價(jià)格低;
3)可不進(jìn)行PCR擴(kuò)增纸厉,避免二代測(cè)序中PCR擴(kuò)增可能引入的錯(cuò)誤或豐度變化系吭;
4)RNA/DNA-direct方式建庫,可直接讀取堿基修飾信息颗品,如甲基化修飾5mC肯尺、6mA等,無須像二代測(cè)序需要經(jīng)過重硫酸鹽轉(zhuǎn)化或者免疫沉淀富集實(shí)驗(yàn)躯枢;
5)無GC含量和堿基偏好性则吟,轉(zhuǎn)錄本表達(dá)定量準(zhǔn)確。
二锄蹂、ONT全長轉(zhuǎn)錄組測(cè)序?qū)嶒?yàn)流程
按照Oxford Nanopore Technologies(ONT)公司提供的cDNA-PCR(最新的為SQK-PCS114)建庫文檔執(zhí)行氓仲,包括樣品質(zhì)量檢測(cè)、文庫構(gòu)建得糜、文庫質(zhì)量檢測(cè)和文庫測(cè)序等流程寨昙,以cDNA-PCR方式進(jìn)行展示 (圖3)。起始投入10ng 富集的RNA (polyA富集或者核糖體去除)或掀亩,500ng 總RNA舔哪。
三、ONT全長轉(zhuǎn)錄組的分析流程
PacBio全長轉(zhuǎn)錄組有官方自己開發(fā)優(yōu)化的轉(zhuǎn)錄本聚類軟件軟件和流程槽棍,IsoSeq(https://isoseq.how/)捉蚤。ONT全長轉(zhuǎn)錄組的分析更多的依賴于第三方開發(fā)的軟件和流程,其基于minimap2和StringTie2搭建的 wf-transcriptomes流程部署在epi2me-labs里供用戶使用炼七。
現(xiàn)有還原重構(gòu)全長轉(zhuǎn)錄本的分析軟件大體分為兩大類缆巧。一類是依賴參考基因組及其注釋文件,如FLAIR豌拙,TAMA陕悬,TALON等;一類是reference-free按傅,如IsoSeq捉超,LyRic胧卤。還有就是老牌RNA-seq分析軟件,StringTie2拼岳,可以結(jié)合short reads(二代測(cè)序數(shù)據(jù))和 long reads(三代測(cè)序數(shù)據(jù))枝誊;IsoQuant 和 StringTie2既能依賴參考基因組注釋,也能de novo annotation-free重構(gòu)全長轉(zhuǎn)錄本惜纸。
ONT全長轉(zhuǎn)錄組數(shù)據(jù)分析前叶撒,需要對(duì)下機(jī)數(shù)據(jù)進(jìn)行質(zhì)控和全長轉(zhuǎn)錄本的鑒定,才能作為上述軟件的輸入文件耐版,這次我們先對(duì)ONT數(shù)據(jù)進(jìn)行質(zhì)控和預(yù)處理祠够,將數(shù)據(jù)準(zhǔn)備好,進(jìn)行下一步的分析粪牲。由于IsoQuant古瓤,Bambu,FLAIR虑瀑,TAMA湿滓,TALON等軟件既適用于ONT也適用于PacBio的全長轉(zhuǎn)錄組數(shù)據(jù),因此后面我將會(huì)針對(duì)每一個(gè)軟件的使用出一個(gè)教程舌狗。
ONT全長轉(zhuǎn)錄組演示數(shù)據(jù)來自Europen Nucleotide Archive(ENA)數(shù)據(jù)庫:PRJEB31662叽奥,下載了ERR3218377.fastq.gz
,ERR3218373.fastq.gz
兩個(gè)樣本的數(shù)據(jù)作為演示痛侍。
1. 原始下機(jī)數(shù)據(jù)fast5 -- Dorado
如果是原始的fast5
數(shù)據(jù)朝氓,需要通過使用Dorado(或GUPPY)軟件將電信號(hào)轉(zhuǎn)化為堿基序列。一般來說主届,測(cè)序服務(wù)商會(huì)把拆分好barcode的.bam
或/和 .fastq
文件給到用戶赵哲,不需要用戶自己做轉(zhuǎn)換。
2. 原始下機(jī)數(shù)據(jù)質(zhì)量統(tǒng)計(jì) -- NanoComp
關(guān)于ONT下機(jī)數(shù)據(jù)的質(zhì)量統(tǒng)計(jì)和可視化君丁,可參考前面的詳細(xì)教程:三代測(cè)序 - Oxford Nanopore (ONT) 數(shù)據(jù)分析 - 數(shù)據(jù)質(zhì)控和過濾枫夺。這里直接使用NanoComp
一步到位:
使用軟件
NanoComp:https://github.com/wdecoster/nanocomp軟件安裝
$ pip install NanoComp
- 軟件使用
#官方使用示例
$ NanoComp --bam alignment1.bam alignment2.bam alignment3.bam --outdir compare-runs
$ NanoComp --fastq reads1.fastq.gz reads2.fastq.gz reads3.fastq.gz reads4.fastq.gz --names run1 run2 run3 run4
#實(shí)際樣本
$ nohup NanoComp -t 24 -f pdf \
--fastq 0_raw_fq/ERR3218373.fastq.gz 0_raw_fq/ERR3218377.fastq.gz \
--names ERR3218373 ERR3218377 \
-o NanoComp &
# -f 圖片以pdf的格式輸出,{'png'(default),'jpg','jpeg','webp','svg','pdf','eps','json'}
# -t 運(yùn)行線程數(shù)
# -o, --outdir OUTDIR 輸出文件文件夾
如果測(cè)序數(shù)據(jù)質(zhì)量绘闷,讀長符合預(yù)期標(biāo)準(zhǔn)橡庞,則進(jìn)行下一步。
3. 原始下機(jī)數(shù)據(jù)質(zhì)控 -- Chopper
對(duì)下機(jī)原始序列進(jìn)行過濾(按長度 或/和 平均堿基質(zhì)量)印蔗,剪切(序列頭尾)和污染序列(--contam)的去除可以使用Chopper扒最。
- 使用軟件
chopper:https://github.com/wdecoster/chopper
- 軟件安裝
$ conda install -c bioconda chopper
- 軟件使用
#官方使用示例
$ gunzip -c reads.fastq.gz | chopper -q 10 -l 500 | gzip > filtered_reads.fastq.gz
#實(shí)際樣本
$ gunzip -c 0_raw_fq/ERR3218373.fastq.gz | chopper -q 7 -l 50 | gzip > 1_chopper/ERR3218373.fastq.gz &
$ gunzip -c 0_raw_fq/ERR3218377.fastq.gz | chopper -q 7 -l 50 | gzip > 1_chopper/ERR3218377.fastq.gz &
#運(yùn)行結(jié)果
Kept 291095 reads out of 525588 reads
Kept 267866 reads out of 604601 reads
- 去除平均堿基質(zhì)量小于7的reads,這個(gè)值一般是下機(jī)數(shù)據(jù)的預(yù)設(shè)值华嘹,所以如果想進(jìn)行更加嚴(yán)格的質(zhì)控吧趣,可以將這個(gè)數(shù)值設(shè)置的大一些。
- 去除reads長度小于50bp的序列,這個(gè)數(shù)值也可以自行調(diào)整强挫。去除小片段reads和高度降解reads岔霸,減少非特異性比對(duì)。
- 如果測(cè)序過程中存在污染序列可以通過
--contam
去除特定污染序列纠拔,比如支原體污染序列秉剑。
4. 全長轉(zhuǎn)錄本序列鑒定 -- Pychopper
Pychopper是鑒定泛豪,定向和修剪全長Nanopore cDNA序列的工具稠诲,該工具還可以修復(fù)融合的序列。
- 使用軟件
Pychopper:https://github.com/epi2me-labs/pychopper
- 軟件安裝
$ conda install -c nanoporetech -c conda-forge -c bioconda "nanoporetech::pychopper"
- 軟件使用
#官方使用示例
#Example usage with default PCS109/DCS109 primers using the default pHMM backend.
$ pychopper -r report.pdf -u unclassified.fq -w rescued.fq input.fq full_length_output.fq
#實(shí)際樣本
$ mkdir 2_pychopper
$ nohup pychopper -t 8 -r 2_pychopper/ERR3218373_report.pdf \
-u 2_pychopper/ERR3218373_unclassified.fq \
-w 2_pychopper/ERR3218373_rescued.fq \
1_chopper/ERR3218373.fastq.gz 2_pychopper/ERR3218373_full_length.fq \
1> 2_pychopper/ERR3218373.pychopper.log 2>&1 &
$ nohup pychopper -t 8 -r 2_pychopper/ERR3218377_report.pdf \
-u 2_pychopper/ERR3218377_unclassified.fq \
-w 2_pychopper/ERR3218377_rescued.fq \
1_chopper/ERR3218377.fastq.gz 2_pychopper/ERR3218377_full_length.fq \
1> 2_pychopper/ERR3218377.pychopper.log 2>&1 &
# -r report_pdf Report PDF (pychopper_report.pdf).
# -u unclass_output Write unclassified reads to this file
# -w rescue_output Write rescued reads to this file.
# -Q min_qual Minimum mean base quality (7.0).
# -z min_len Minimum segment length (50).
-
pychopper
只有檢測(cè)到雙端的引物才能識(shí)別定義為全長完整(full length)的序列诡曙,所以在這之前不要對(duì)序列兩端的引物(primers)進(jìn)行裁剪去除臀叙,包括在用Dorado
電信號(hào)轉(zhuǎn)化堿基的時(shí)候。 - 通過
-Q
和-z
可以實(shí)現(xiàn)chopper
的功能价卤,所以如果沒有污染序列去除的話劝萤,可以跳過第二部直接使用pychopper
。 - -k 可以指定試劑盒和protocol慎璧。kit{PCS109,PCS110,PCS111,LSK114}床嫌。
- 最后得到的全長轉(zhuǎn)錄本序列
full_lenght.fastq
可用于后續(xù)的分析。
參考文獻(xiàn):
Park, Eddie et al. "The expanding landscape of alternative splicing variation in human populations." The American Journal of Human Genetics (2018).
Mestre-Tomás, Jorge, et al. "SQANTI-SIM: a simulator of controlled transcript novelty for lrRNA-seq benchmark." Genome Biology 24.1 (2023): 286.