RNA-seq?轉(zhuǎn)錄組測序
? ? ? ? 與cfDNA體細(xì)胞突變檢測相比乖订,基因表達(dá)相關(guān)的RNA-seq轉(zhuǎn)錄組測序在常規(guī)的mRNA否过、非編碼RNA?(lncRNA葡幸、circRNA邻奠、microRNA/piRNA等)以及腫瘤融合基因鑒定方面應(yīng)用較為成熟稚伍,業(yè)內(nèi)價格透明且相當(dāng)?shù)土鄱辍5簧俎D(zhuǎn)化醫(yī)學(xué)項目往往選擇傳統(tǒng)的polyA富集建庫罗洗,只拿到mRNA數(shù)據(jù)而丟掉了其它非編碼RNA信息(常規(guī)的mRNA甚至單細(xì)胞RNA-seq已經(jīng)發(fā)布有IRIS,GEPIA等免費(fèi)在線分析工具)愉舔;另外拿到的mRNA數(shù)據(jù)又往往是在數(shù)據(jù)質(zhì)控信息不明確的前提下使用古董級生信流程分析得到的;最后腫瘤樣本轉(zhuǎn)錄組數(shù)據(jù)差異比較時的腫瘤純度評估?伙菜,與樣本表型轩缤、DNA層面以及表觀遺傳層面的關(guān)聯(lián)等深度挖掘都區(qū)別于常規(guī)RNA-seq流水線業(yè)務(wù)。 接下來就對轉(zhuǎn)化醫(yī)學(xué)方向的RNA-seq項目注意事項及質(zhì)控和結(jié)果判讀等內(nèi)容做簡單介紹:
?一. 測序分析前--RNA-seq建庫測序策略的選擇及實(shí)驗(yàn)設(shè)計
1.1. RNA-seq轉(zhuǎn)錄組建庫方法(見圖1)
? ? ??10多年來非編碼RNA(lncRNA贩绕、circRNA火的、microRNA/PiRNA)在腫瘤等疾病發(fā)生發(fā)展過程中調(diào)控作用的報道越來越多,采用去核糖體RNA方法建庫相對于傳統(tǒng)PolyA富集建庫淑倾,可同時對mRNA以外的其它多種非編碼RNA進(jìn)行分析馏鹤,性價比較高。
1.2. 實(shí)驗(yàn)設(shè)計中的生物學(xué)重復(fù)問題
? ? ? ?有/無生物學(xué)重復(fù)的實(shí)驗(yàn)設(shè)計在各種類型的RNA差異比較分析步驟中選取的方法是完全不同的娇哆,建議各差異比較分組均設(shè)置3個以上生物學(xué)重復(fù)以排除技術(shù)因素對差異比較結(jié)果的干擾湃累;
1.3 . RNA提取質(zhì)控
? ? ? RIN(RNA完整性)值應(yīng)在6.5以上,輕度降解的RNA屬于風(fēng)險建庫測序碍讨,重度降解RNA的建庫測序及任何分析均無意義治力;
1.4. 參考轉(zhuǎn)錄本/基因組版本的選取
? ? ? 根據(jù)自己目的,選擇refseq/Ensembl上對應(yīng)的轉(zhuǎn)錄本版本和參考基因組垄开;
1.5. 轉(zhuǎn)錄組下機(jī)數(shù)據(jù)質(zhì)控應(yīng)包含的內(nèi)容
? ?? ?以下質(zhì)控指標(biāo)適用于Rnase酶消化建庫以外其它類型RNA建庫數(shù)據(jù):
? ? ?a. 比對nr數(shù)據(jù)庫檢查外源污染琴许;b. GC比例及均一性分布情況税肪;c. coding/intron等區(qū)域reads比例溉躲;d. 插入片段長度的均值/中位數(shù);e. mapping(Uniqe/Multi/Total)到參考基因組上的reads比例(Multi mapped>10%會干擾后續(xù)的表達(dá)后續(xù)定量及差異比較等分析)益兄; f. BLAST過濾raw data中的rRNA后的clean data數(shù)據(jù)量及Q30等指標(biāo)锻梳;?
? ? ? 對于小RNA下機(jī)數(shù)據(jù),需要額外關(guān)注其長度分布峰值等信息;
? ? ?備注:培養(yǎng)的細(xì)胞樣本容易存在外源污染需要排污檢查净捅;各種類型的RNA建庫都存在rRNA是否去除干凈的問題疑枯,需要比對rRNA數(shù)據(jù)庫進(jìn)一步排除raw data中的rRNA』琢總之荆永,RNA-seq數(shù)據(jù)質(zhì)控部分需要關(guān)注的內(nèi)容更多一些废亭。
二.? 測序后--不同類型 RNA的測序分析
2.1. 非編碼RNA的篩選
? ? ? ?lncRNA:根據(jù)長度、外顯子數(shù)目具钥、表達(dá)量豆村、編碼潛能預(yù)測等信息篩選;circRNA:根據(jù)反式剪接位點(diǎn)篩選骂删;小RNA:根據(jù)長度掌动、數(shù)據(jù)庫比對、首位堿基偏好性等特征篩選宁玫;
2.2. 比對粗恢、拼接、定量欧瘪、差異與富集的標(biāo)準(zhǔn)分析流程
2.2.1 比對眷射、拼接、定量恋追、差異:
? ? ? ?目前各主流公司在RNA-seq?質(zhì)控后的比對凭迹、拼接、定量苦囱、差異步驟的分析方法差異較大嗅绸,不同分析流程對拼接出來的轉(zhuǎn)錄本數(shù)目、基因的表達(dá)定量及差異分析結(jié)果也都有影響撕彤,2017年有相關(guān)文章對這部分內(nèi)容進(jìn)行了系統(tǒng)全面的比較鱼鸠,部分內(nèi)容見圖2、圖3和圖4羹铅。綜合來看 蚀狰,HISAT2/STAR(比對)+stringtie(拼接定量)+DEseq2(基于負(fù)二項分布的差異表達(dá)分析)的方法得到的結(jié)果與測序質(zhì)量控制聯(lián)盟(SEQC)的qPCR檢測結(jié)果一致性較高。相比之下,傳統(tǒng)的tophat2-cufflinks-cuffdiff 分析流程確實(shí)有些過時了职员。
2.2.2 RNA層面的腫瘤純度評估
? ? ? 差異表達(dá)分析前有無基因表達(dá)層面的腫瘤純度評估麻蹋,是衡量外包公司在腫瘤方面專業(yè)水平的一個不錯的標(biāo)準(zhǔn)。但鑒于不同方法評估出的腫瘤純度差異較大焊切,差異及富集分析對計算資源要求不高扮授,腫瘤樣本RNA-seq數(shù)據(jù)的差異和富集分析可采用引入和不引入純度評估兩套方法并行進(jìn)行。
2.2.3 差異表達(dá)基因篩選及生物學(xué)功能和代謝通路的富集分析?
? ? ??對于關(guān)注的目的基因不在當(dāng)前閾值下的情況:? a. 適當(dāng)放寬閾值;b.換用其它分析方法;c.? 要回用于測序的剩余樣本直接做RT-PCR驗(yàn)證专肪;
? ? ? 當(dāng)前大部分公司都在用DAVID,GOseq刹勃,KEGG等10年前的經(jīng)典軟件對RNA-seq差異表達(dá)基因進(jìn)行富集,雖然這些軟件雖然富集分析原理基本上都是超幾何分布嚎尤,但后臺的數(shù)據(jù)庫大多已經(jīng)多年沒有更新荔仁,對于轉(zhuǎn)化醫(yī)學(xué)相關(guān)的研究,最好使用近幾年新發(fā)布,后臺數(shù)據(jù)庫更新及時的基因生物學(xué)通路富集數(shù)據(jù)庫乏梁,如g:profiler次洼,clusterProfiler等,對差異表達(dá)基因(主要關(guān)注BP--生物學(xué)通路和KEGG,其它MF--分子功能和CC--細(xì)胞組分兩部分的結(jié)果參考即可)進(jìn)行富集分析遇骑;
2.3. 差異表達(dá)基因過多的情況:
? ? ?對于有生物學(xué)重復(fù)的實(shí)驗(yàn)設(shè)計滓玖,如果得到的差異表達(dá)基因占到本次表達(dá)基因總數(shù)的10%左右甚至更高,這樣的結(jié)果可能存在異常质蕉,需要排查原因后后再查往下進(jìn)行分析: a.差異比較組合弄錯(差異比較組合往往是人工填寫势篡,出錯的幾率較大);b.? 檢查數(shù)據(jù)質(zhì)控情況模暗;c. 實(shí)際差異表達(dá)基因可能確實(shí)有這么多禁悠;
2.4. 各樣本表達(dá)情況的PCA聚類:
? ? ? 當(dāng)差異比較分組內(nèi)樣本基因表達(dá)情況的相關(guān)性應(yīng)高于組外樣本時,后續(xù)的差異比較分析才有意義兑宇,否則應(yīng)考慮本身實(shí)驗(yàn)設(shè)計的合理性碍侦;
2.5. mRNA/lncRNA/microRNA/circRNA的全轉(zhuǎn)錄組關(guān)聯(lián)分析
? ? ??去核糖體建庫+小RNA建庫兩種方法結(jié)合獲得的RNA-seq數(shù)據(jù),可同時分析lncRNA隶糕、mRNA瓷产、circRNA和microRNA/piRNA,并結(jié)合其表達(dá)量的上下調(diào)情況進(jìn)行全轉(zhuǎn)錄組關(guān)聯(lián)分析枚驻;
2.6 基因表達(dá)與基因突變相關(guān)聯(lián)
? ? ? 一維DNA層面上的突變濒旦、二維RNA層面上的表達(dá)以及三維蛋白層面上的結(jié)構(gòu)信息,這些信息在時間層面上規(guī)律性的互作和影響就是基本的生命現(xiàn)象再登。與早些年eQTL(表達(dá)數(shù)量性狀位點(diǎn)) 研究相比尔邓,腫瘤RNA+DNA層面的關(guān)聯(lián)分析可研究的內(nèi)容更多,當(dāng)然干擾因素也就更多锉矢,也就更需要分析前保證DNA和RNA數(shù)據(jù)集有相當(dāng)高的可信度梯嗽;
2.7. RNA水平的突變檢測及腫瘤融合基因分析
? ? ? ?對于腫瘤組織樣本,一方面無Normal配對樣本沽损,另一方面由于RNA編輯和可變剪切的影響,RNA水平上檢測到的突變位點(diǎn)可信度不并高;即便是常規(guī)germline突變檢測绵估,最好直接用WES/WGS測序數(shù)據(jù)來分析;
? ? ? ?腫瘤組織樣本的RNA-seq數(shù)據(jù)還可以充分利用數(shù)據(jù)---用STAR等軟件對RNA水平上的基因融合進(jìn)行檢測炎疆;
2.8. 樣本clean data數(shù)據(jù)量比合同上高很多
? ? ?組內(nèi)個別樣本異常高的數(shù)據(jù)量會對差異表達(dá)分析帶來干擾,跟Panel一樣,數(shù)據(jù)太多并不是福利;
2.9. 外泌體lncRNA/小RNA測序
? ? ? ?尚處于基礎(chǔ)科研階段蔓纠;
2.10.?單細(xì)胞RNA-seq
? ? ? 不同的測序平臺(C1(分析前需去polyA)纯出、10Xgenome等)的下機(jī)數(shù)據(jù)預(yù)處理及后續(xù)分析方法各不相同,此外還有2018年浙大郭國驥老師團(tuán)隊開發(fā)的Microwell-seq單細(xì)胞測序技術(shù)等卫漫;
2.11. RNA-seq相關(guān)公司產(chǎn)品及報價
? ? ? ?電話詢問業(yè)內(nèi)主流測序公司比較即可源葫!
三. 腫瘤體細(xì)胞突變和RNA-seq項目總結(jié)
? ? ?不管是DNA層面的突變檢測還是RNA層面的基因表達(dá)分析床未,個人認(rèn)為抓住以下三點(diǎn)就可以在很大程度上避免走彎路:
? ? ? ? ? ? ? ? 1. 先花些時間理清自己的研究目的以及候選公司產(chǎn)品的具體內(nèi)容宏娄;
? ? ? ? ? ? ? ? 2. 組織/cfDNA樣本體細(xì)胞突變檢測以及RNA-seq產(chǎn)品在轉(zhuǎn)產(chǎn)前有沒有驗(yàn)證報告以及驗(yàn)證報告中關(guān)鍵內(nèi)容是否體現(xiàn);
? ? ? ? ? ? ? ? 3. 最后甲方最好對體細(xì)胞突變檢測/RNA-seq數(shù)據(jù)的質(zhì)控和變異分析兩部分有實(shí)質(zhì)性的理解蜒秤;
? ? ? 希望這兩篇文章能對轉(zhuǎn)化醫(yī)學(xué)研究中與NGS技術(shù)相關(guān)的----產(chǎn)品選擇吧兔、數(shù)據(jù)質(zhì)控、異常結(jié)果排查等工作提供幫助调缨。其中涉及到的測序技術(shù)原理等內(nèi)容可參考前言部分結(jié)尾提供的課件鏈接疮鲫。?隨著三代全長轉(zhuǎn)錄組、單細(xì)胞和nanopore測序技術(shù)逐漸從科研走向應(yīng)用弦叶,測序技術(shù)在藥物研發(fā)/轉(zhuǎn)化醫(yī)學(xué)方面的應(yīng)用也將越來越廣俊犯。歡迎大家留言交流指正!
寫于2019年3月13日