全長轉(zhuǎn)錄組 | Oxford Nanopore (ONT) 三代全長轉(zhuǎn)錄組分析流程 -- 數(shù)據(jù)質(zhì)控和預(yù)處理

ONT全長轉(zhuǎn)錄組測(cè)序是指基于牛津納米孔公司(Oxford Nanopore Technologies,ONT)三代測(cè)序平臺(tái)進(jìn)行的全長轉(zhuǎn)錄組測(cè)序灾馒。利用三代測(cè)序平臺(tái)長度長 (long-read)的特性,無需對(duì)轉(zhuǎn)錄本進(jìn)行片段化怀愧,直接獲取某一物種mRNA(或者有polyA尾的lncRNA)5'端到3'端的高質(zhì)量全長轉(zhuǎn)錄組序列信息(圖1)概疆,可準(zhǔn)確識(shí)別可變剪接、基因融合惨缆、基因家族、可選擇性多聚腺苷酸化 (alternative polyadenylation, APA)丰捷、等位基因特異性表達(dá)等轉(zhuǎn)錄本結(jié)構(gòu)方面的變異坯墨。基于ONT三代測(cè)序平臺(tái)進(jìn)行全長轉(zhuǎn)錄組測(cè)序病往,除了可準(zhǔn)確鑒別上述轉(zhuǎn)錄本結(jié)構(gòu)變異捣染,由于現(xiàn)階段測(cè)序成本和通量(相對(duì)于PacBio平臺(tái)),還可實(shí)現(xiàn)轉(zhuǎn)錄本(mRNA或polyA+ lncRNA)表達(dá)水平準(zhǔn)確定量和差異分析停巷。

圖1. 三代轉(zhuǎn)錄組測(cè)序之于二代測(cè)序的優(yōu)勢(shì) Park, Eddie et al

一耍攘、ONT測(cè)序技術(shù)簡介

ONT測(cè)序是基于電信號(hào)識(shí)別堿基序列的三代測(cè)序技術(shù)。DNA/RNA上不同堿基化學(xué)性質(zhì)存在差異畔勤,單個(gè)核酸分子在分子馬達(dá)的帶領(lǐng)下與鑲嵌在生物膜上的納米孔蛋白結(jié)合并解旋蕾各,通過納米孔通道時(shí),堿基造成的阻礙大小不一硼被,因此會(huì)形成特征性離子電流變化信號(hào)示损。通過對(duì)這些信號(hào)進(jìn)行實(shí)時(shí)檢測(cè),即可獲得相應(yīng)堿基類型嚷硫,完成測(cè)序 (圖2)检访。目前通過“遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)”的復(fù)雜算法對(duì)堿基進(jìn)行判讀。

圖2. ONT測(cè)序平臺(tái)工作原理 Image credit: Laura Olivares Boldú, Wellcome Connecting Science

ONT測(cè)序技術(shù)具有以下特點(diǎn)
1)讀長長仔掸,最長讀長能達(dá)到4.2 M以上級(jí)別脆贵,有利于可變剪接、基因融合等結(jié)構(gòu)變異檢測(cè)起暮;
2)低成本:相比其他三代測(cè)序技術(shù)卖氨,ONT測(cè)序樣本處理極其簡單,無需DNA聚合酶负懦、連接酶和dNTPs筒捺,測(cè)序價(jià)格低;
3)可不進(jìn)行PCR擴(kuò)增纸厉,避免二代測(cè)序中PCR擴(kuò)增可能引入的錯(cuò)誤或豐度變化系吭;
4)RNA/DNA-direct方式建庫,可直接讀取堿基修飾信息颗品,如甲基化修飾5mC肯尺、6mA等,無須像二代測(cè)序需要經(jīng)過重硫酸鹽轉(zhuǎn)化或者免疫沉淀富集實(shí)驗(yàn)躯枢;
5)無GC含量和堿基偏好性则吟,轉(zhuǎn)錄本表達(dá)定量準(zhǔn)確。

二锄蹂、ONT全長轉(zhuǎn)錄組測(cè)序?qū)嶒?yàn)流程

按照Oxford Nanopore Technologies(ONT)公司提供的cDNA-PCR(最新的為SQK-PCS114)建庫文檔執(zhí)行氓仲,包括樣品質(zhì)量檢測(cè)、文庫構(gòu)建得糜、文庫質(zhì)量檢測(cè)和文庫測(cè)序等流程寨昙,以cDNA-PCR方式進(jìn)行展示 (圖3)。起始投入10ng 富集的RNA (polyA富集或者核糖體去除)或掀亩,500ng 總RNA舔哪。

圖3. cDNA-PCR全長轉(zhuǎn)錄組建庫流程

三、ONT全長轉(zhuǎn)錄組的分析流程

PacBio全長轉(zhuǎn)錄組有官方自己開發(fā)優(yōu)化的轉(zhuǎn)錄本聚類軟件軟件和流程槽棍,IsoSeqhttps://isoseq.how/)捉蚤。ONT全長轉(zhuǎn)錄組的分析更多的依賴于第三方開發(fā)的軟件和流程,其基于minimap2StringTie2搭建的 wf-transcriptomes流程部署在epi2me-labs里供用戶使用炼七。

現(xiàn)有還原重構(gòu)全長轉(zhuǎn)錄本的分析軟件大體分為兩大類缆巧。一類是依賴參考基因組及其注釋文件,如FLAIR豌拙,TAMA陕悬,TALON等;一類是reference-free按傅,如IsoSeq捉超,LyRic胧卤。還有就是老牌RNA-seq分析軟件,StringTie2拼岳,可以結(jié)合short reads(二代測(cè)序數(shù)據(jù))和 long reads(三代測(cè)序數(shù)據(jù))枝誊;IsoQuantStringTie2既能依賴參考基因組注釋,也能de novo annotation-free重構(gòu)全長轉(zhuǎn)錄本惜纸。

ONT全長轉(zhuǎn)錄組數(shù)據(jù)分析前叶撒,需要對(duì)下機(jī)數(shù)據(jù)進(jìn)行質(zhì)控和全長轉(zhuǎn)錄本的鑒定,才能作為上述軟件的輸入文件耐版,這次我們先對(duì)ONT數(shù)據(jù)進(jìn)行質(zhì)控和預(yù)處理祠够,將數(shù)據(jù)準(zhǔn)備好,進(jìn)行下一步的分析粪牲。由于IsoQuant古瓤,BambuFLAIR虑瀑,TAMA湿滓,TALON等軟件既適用于ONT也適用于PacBio的全長轉(zhuǎn)錄組數(shù)據(jù),因此后面我將會(huì)針對(duì)每一個(gè)軟件的使用出一個(gè)教程舌狗。

ONT全長轉(zhuǎn)錄組演示數(shù)據(jù)來自Europen Nucleotide Archive(ENA)數(shù)據(jù)庫:PRJEB31662叽奥,下載了ERR3218377.fastq.gzERR3218373.fastq.gz兩個(gè)樣本的數(shù)據(jù)作為演示痛侍。

1. 原始下機(jī)數(shù)據(jù)fast5 -- Dorado

如果是原始的fast5數(shù)據(jù)朝氓,需要通過使用Dorado(或GUPPY)軟件將電信號(hào)轉(zhuǎn)化為堿基序列。一般來說主届,測(cè)序服務(wù)商會(huì)把拆分好barcode的.bam 或/和 .fastq 文件給到用戶赵哲,不需要用戶自己做轉(zhuǎn)換。

2. 原始下機(jī)數(shù)據(jù)質(zhì)量統(tǒng)計(jì) -- NanoComp

關(guān)于ONT下機(jī)數(shù)據(jù)的質(zhì)量統(tǒng)計(jì)和可視化君丁,可參考前面的詳細(xì)教程:三代測(cè)序 - Oxford Nanopore (ONT) 數(shù)據(jù)分析 - 數(shù)據(jù)質(zhì)控和過濾枫夺。這里直接使用NanoComp一步到位:

$ pip install NanoComp
  • 軟件使用
#官方使用示例
$ NanoComp --bam alignment1.bam alignment2.bam alignment3.bam --outdir compare-runs
$ NanoComp --fastq reads1.fastq.gz reads2.fastq.gz reads3.fastq.gz reads4.fastq.gz --names run1 run2 run3 run4

#實(shí)際樣本
$ nohup NanoComp -t 24 -f pdf  \
--fastq 0_raw_fq/ERR3218373.fastq.gz 0_raw_fq/ERR3218377.fastq.gz \
--names ERR3218373 ERR3218377 \
-o NanoComp &

# -f 圖片以pdf的格式輸出,{'png'(default),'jpg','jpeg','webp','svg','pdf','eps','json'}
# -t 運(yùn)行線程數(shù)
# -o, --outdir OUTDIR   輸出文件文件夾

如果測(cè)序數(shù)據(jù)質(zhì)量绘闷,讀長符合預(yù)期標(biāo)準(zhǔn)橡庞,則進(jìn)行下一步。

3. 原始下機(jī)數(shù)據(jù)質(zhì)控 -- Chopper

對(duì)下機(jī)原始序列進(jìn)行過濾(按長度 或/和 平均堿基質(zhì)量)印蔗,剪切(序列頭尾)和污染序列(--contam)的去除可以使用Chopper扒最。

  • 使用軟件

chopperhttps://github.com/wdecoster/chopper

  • 軟件安裝
$ conda install -c bioconda chopper
  • 軟件使用
#官方使用示例
$ gunzip -c reads.fastq.gz | chopper -q 10 -l 500 | gzip > filtered_reads.fastq.gz

#實(shí)際樣本
$ gunzip -c 0_raw_fq/ERR3218373.fastq.gz | chopper -q 7 -l 50 | gzip > 1_chopper/ERR3218373.fastq.gz &
$ gunzip -c 0_raw_fq/ERR3218377.fastq.gz | chopper -q 7 -l 50 | gzip > 1_chopper/ERR3218377.fastq.gz &

#運(yùn)行結(jié)果
Kept 291095 reads out of 525588 reads
Kept 267866 reads out of 604601 reads
  • 去除平均堿基質(zhì)量小于7的reads,這個(gè)值一般是下機(jī)數(shù)據(jù)的預(yù)設(shè)值华嘹,所以如果想進(jìn)行更加嚴(yán)格的質(zhì)控吧趣,可以將這個(gè)數(shù)值設(shè)置的大一些。
  • 去除reads長度小于50bp的序列,這個(gè)數(shù)值也可以自行調(diào)整强挫。去除小片段reads和高度降解reads岔霸,減少非特異性比對(duì)。
  • 如果測(cè)序過程中存在污染序列可以通過--contam去除特定污染序列纠拔,比如支原體污染序列秉剑。

4. 全長轉(zhuǎn)錄本序列鑒定 -- Pychopper

Pychopper是鑒定泛豪,定向和修剪全長Nanopore cDNA序列的工具稠诲,該工具還可以修復(fù)融合的序列。

  • 使用軟件

Pychopperhttps://github.com/epi2me-labs/pychopper

  • 軟件安裝
$ conda install -c nanoporetech -c conda-forge -c bioconda "nanoporetech::pychopper"
  • 軟件使用
#官方使用示例
#Example usage with default PCS109/DCS109 primers using the default pHMM backend.
$ pychopper -r report.pdf -u unclassified.fq -w rescued.fq input.fq full_length_output.fq

#實(shí)際樣本
$ mkdir 2_pychopper

$ nohup pychopper -t 8 -r 2_pychopper/ERR3218373_report.pdf \
  -u 2_pychopper/ERR3218373_unclassified.fq \
  -w 2_pychopper/ERR3218373_rescued.fq \
  1_chopper/ERR3218373.fastq.gz 2_pychopper/ERR3218373_full_length.fq \
  1> 2_pychopper/ERR3218373.pychopper.log 2>&1 &

$ nohup pychopper -t 8 -r 2_pychopper/ERR3218377_report.pdf \
  -u 2_pychopper/ERR3218377_unclassified.fq \
  -w 2_pychopper/ERR3218377_rescued.fq \
  1_chopper/ERR3218377.fastq.gz 2_pychopper/ERR3218377_full_length.fq \
  1> 2_pychopper/ERR3218377.pychopper.log 2>&1 &


# -r report_pdf        Report PDF (pychopper_report.pdf).
# -u unclass_output    Write unclassified reads to this file
# -w rescue_output     Write rescued reads to this file.
#  -Q min_qual          Minimum mean base quality (7.0).
# -z min_len           Minimum segment length (50).
  • pychopper只有檢測(cè)到雙端的引物才能識(shí)別定義為全長完整(full length)的序列诡曙,所以在這之前不要對(duì)序列兩端的引物(primers)進(jìn)行裁剪去除臀叙,包括在用Dorado電信號(hào)轉(zhuǎn)化堿基的時(shí)候。
  • 通過-Q-z可以實(shí)現(xiàn)chopper的功能价卤,所以如果沒有污染序列去除的話劝萤,可以跳過第二部直接使用pychopper
  • -k 可以指定試劑盒和protocol慎璧。kit{PCS109,PCS110,PCS111,LSK114}床嫌。
  • 最后得到的全長轉(zhuǎn)錄本序列 full_lenght.fastq 可用于后續(xù)的分析。
圖4. pychopper結(jié)果文件

參考文獻(xiàn):

  1. 新品發(fā)布 | Nanopore三代全長轉(zhuǎn)錄組
  1. ONT全長轉(zhuǎn)錄組測(cè)序系列一:初識(shí)篇

  2. 基因結(jié)構(gòu)預(yù)測(cè)新利器-ONT全長轉(zhuǎn)錄組

  3. Park, Eddie et al. "The expanding landscape of alternative splicing variation in human populations." The American Journal of Human Genetics (2018).

  4. Mestre-Tomás, Jorge, et al. "SQANTI-SIM: a simulator of controlled transcript novelty for lrRNA-seq benchmark." Genome Biology 24.1 (2023): 286.

  5. Nanopore全長轉(zhuǎn)錄組測(cè)序

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末胸私,一起剝皮案震驚了整個(gè)濱河市厌处,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌岁疼,老刑警劉巖阔涉,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異捷绒,居然都是意外死亡瑰排,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門暖侨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來椭住,“玉大人,你說我怎么就攤上這事字逗【┲#” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵扳肛,是天一觀的道長傻挂。 經(jīng)常有香客問我,道長挖息,這世上最難降的妖魔是什么金拒? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上绪抛,老公的妹妹穿的比我還像新娘资铡。我一直安慰自己,他們只是感情好幢码,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布笤休。 她就那樣靜靜地躺著,像睡著了一般症副。 火紅的嫁衣襯著肌膚如雪店雅。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天贞铣,我揣著相機(jī)與錄音闹啦,去河邊找鬼。 笑死辕坝,一個(gè)胖子當(dāng)著我的面吹牛窍奋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播酱畅,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼琳袄,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了纺酸?” 一聲冷哼從身側(cè)響起窖逗,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎吁峻,沒想到半個(gè)月后滑负,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡用含,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年矮慕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片啄骇。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡痴鳄,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出缸夹,到底是詐尸還是另有隱情痪寻,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布虽惭,位于F島的核電站橡类,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏芽唇。R本人自食惡果不足惜顾画,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一取劫、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧研侣,春花似錦谱邪、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至末誓,卻和暖如春扯俱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背基显。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國打工蘸吓, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留善炫,地道東北人撩幽。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像箩艺,于是被迫代替她去往敵國和親窜醉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容