RNA-seq 數(shù)據(jù)分析最佳實(shí)戰(zhàn)（綜述）

一篇RNA-seq分析流程的綜述，全面而詳細(xì)埃元！深度好文涝涤，可用來反復(fù)閱讀。初學(xué)者用于把握RNA-seq真?zhèn)€流程及各個(gè)流程選擇上的差異岛杀。已經(jīng)開始學(xué)習(xí)者可用來查缺補(bǔ)漏和發(fā)現(xiàn)新的分析角度阔拳。

A survey of best practices for RNA-seq data analysis

摘要：

沒有任何一個(gè)RNA-seq分析流程可適用于所有的轉(zhuǎn)錄組分析。討論RNA-seq分析流程主要步驟：實(shí)驗(yàn)設(shè)計(jì)类嗤，質(zhì)控糊肠，比對辨宠，基因水平和轉(zhuǎn)錄組水平定量，可視化货裹，基因差異表達(dá)嗤形，可變剪接，功能分析弧圆，融合基因檢測赋兵，eQTL (expression quantification trait loci,表達(dá)數(shù)量性狀位點(diǎn))。展望轉(zhuǎn)錄組研究存在的問題搔预。

背景：

研究材料基因組信息已知霹期，通過將RNA-seq獲得的序列比對到基因組上獲得轉(zhuǎn)錄信息；研究材料無基因組信息則從頭拼接reads為contigs后將reads比對到轉(zhuǎn)錄組斯撮。

基因組注釋已知经伙，基于注釋基因組進(jìn)行轉(zhuǎn)錄組分析或發(fā)挖掘新的轉(zhuǎn)錄組及其調(diào)控通路扶叉。其次研究者可以對感興趣的mRNA亞型表達(dá)或microRNA水平或等位變異分析勿锅。在此分析過程中可以只進(jìn)行RNA-seq分析也可以聯(lián)合其他組學(xué)一起分析。

不同的RNA-seq分析有不同的轉(zhuǎn)錄組定量枣氧，均一化以及差異表達(dá)分析溢十，并且質(zhì)控可確保結(jié)果的可重復(fù)性和可靠性。圖一為Illumina sequencing實(shí)驗(yàn)設(shè)計(jì)达吞、分析流程圖张弛。簡單羅列一些數(shù)據(jù)及圖例來說明這些分析中潛在的不足。最后討論single cell RNA-seq（單細(xì)胞轉(zhuǎn)錄組）及測序長度比較（3代測序和2代測序）酪劫。

實(shí)驗(yàn)設(shè)計(jì)：

文庫類型吞鸭、測序深度、重復(fù)覆糟，準(zhǔn)確的實(shí)驗(yàn)操作以確保數(shù)據(jù)未被污染刻剥。

首先：RNA提取中去除大量存在的rRNA，通常占總RNA的90%滩字，mRNA為1-2%造虏。

提取mRNA可選擇用ployA選擇性富集mRNA或刪除rRNA。ployA通過RNA intergrity number （RIN麦箍，RNA完整度）來表示mRNA的比例漓藕，對于不能產(chǎn)生高質(zhì)量和足夠數(shù)量的材料則用刪除rRNA法來獲得mRNA（例如細(xì)菌mRNA無多聚A）。

另一個(gè)問題是：是否產(chǎn)生strand-preserving libraries挟裂， strand-specific protocols 如dUTP法享钞，通過在第二條cDNA合成時(shí)加入U(xiǎn)TP，先于接頭連接隨后含有dUTP的鏈被降解诀蓉。測序長度小于500bp栗竖，分單端測序（single end寝姿，SE）和雙端測序（paired-end，PE）划滋。讀長較長（long reads）的序列及雙端序列更有利于注釋信息較差的轉(zhuǎn)錄組分析饵筑。

其次：測序深度及文庫大小。測序較深的到的轉(zhuǎn)錄組信息及轉(zhuǎn)錄本數(shù)量更加詳細(xì)处坪，但不是越深越好根资。?

5百萬條比對序列對中到高表達(dá)基因的量化分析足夠，100萬條序列足以分析低表達(dá)基因分析同窘，單細(xì)胞轉(zhuǎn)錄組通常為1百萬玄帕，高表達(dá)基因測序5萬，脾組織只需2萬想邦。

文庫大小取決于目標(biāo)轉(zhuǎn)錄組的復(fù)雜程度裤纹，測序深度有利于轉(zhuǎn)錄本的數(shù)量和鑒定，但同時(shí)增加了雜質(zhì)信息和脫靶轉(zhuǎn)錄本丧没。飽和曲線可以用來評估給定測序深度下轉(zhuǎn)錄組的覆蓋度鹰椒。

最后：樣本重復(fù)，包括測序時(shí)不同批次的差異及樣本的差異呕童。至少3個(gè)重復(fù)

box2

RNA-seq文庫準(zhǔn)備和測序過程中包擴(kuò)：RNA打段漆际，cDNA合成，接頭夺饲，PCR擴(kuò)增奸汇，bar-coding，lane loading往声，這些過程可能會(huì)增加測序結(jié)果的偏好性擂找。

外源參考轉(zhuǎn)錄組（exogenous reference transcripts，‘spike-ins’）可用來作為質(zhì)控以及文庫大小矯正浩销。若測序量較大贯涎，降低技術(shù)誤差：文庫準(zhǔn)備時(shí)不同批次及l(fā)ane的樣本完全隨機(jī)，或每個(gè)樣本單獨(dú)進(jìn)行barcoding撼嗓，然后在多個(gè)illumina lane中柬采，加入所有的樣本進(jìn)行測序。

圖1.pn

RNA-seq數(shù)據(jù)分析

數(shù)據(jù)分析的主要步驟：質(zhì)控且警，比對（分：有參考基因組粉捻、無參考基因組），獲得基因及轉(zhuǎn)錄本表達(dá)矩陣斑芜，基因差異分析肩刃。也討論可變剪接，轉(zhuǎn)錄本融合，小RNA表達(dá)盈包，可視化工具沸呐。

1. 質(zhì)控檢測

1.1 原始序列

包括：序列質(zhì)量，GC含量呢燥，接頭崭添，過高k-mers，重復(fù)reads叛氨。同一研究中重復(fù)度呼渣，k-mer或是GC含量應(yīng)該已知，不一致性大于30%則剔除寞埠。常用FastQC屁置。

準(zhǔn)則：3‘末端序列質(zhì)量下降時(shí)需要?jiǎng)h除以增加比對率。FASTX-Toolkit 和Trimmomatic用來去除低質(zhì)量序列仁连，去接頭蓝角，去掉低質(zhì)量堿基。

1.2 比對

最重要的是比對到：基因組或是轉(zhuǎn)錄組上的比對率饭冬。

人類基因組的比對率期望值是70-90%使鹅，會(huì)出現(xiàn)多個(gè)序列比對在有限的序列區(qū)稱之為“多重比對序列”（multi-mapping reads）；

轉(zhuǎn)錄組上的比對率較低伍伤，由于未注釋的轉(zhuǎn)錄本會(huì)被過濾且“多重比對序列”增加并徘，由于同一個(gè)基因不同亞型共有外顯子區(qū)遣钳。

另一個(gè)參數(shù)：序列覆蓋度在外顯子和比對鏈上的均一性扰魂。3‘末端轉(zhuǎn)錄本聚集表明序列質(zhì)量差，GC含量可以顯示PCR偏好性蕴茴，指控工具包括：Picard劝评，RSeQC，Qualimap倦淀。

1.3 量化

樣本內(nèi)轉(zhuǎn)錄本定量后需檢測GC含量以及基因長度偏好性來居定是否進(jìn)行矯正蒋畜。確認(rèn)無rRNA，smallRNA（R 包NOISeq或EDASeq 對計(jì)數(shù)進(jìn)行質(zhì)控）撞叽。

1.4 重復(fù)

整個(gè)RNA-seq數(shù)據(jù)的可重復(fù)性檢測來排除批次效應(yīng)（技術(shù)重復(fù)系數(shù)Spearman R2 > 0.9）姻成。若相同條件下基因表達(dá)量有差異則主成分分析（principle component analysis，PCA）應(yīng)聚在一支愿棋。

圖2.png

2. 轉(zhuǎn)錄本

有參分析時(shí)將序列比對到參考基因組或是轉(zhuǎn)錄組上獲得表達(dá)轉(zhuǎn)錄本科展。比對到轉(zhuǎn)錄組上會(huì)屏蔽新的未注釋的轉(zhuǎn)錄本，只對已知轉(zhuǎn)錄本進(jìn)行定量分析糠雨。

無參時(shí)先組裝為長contigs后已contig作為表達(dá)轉(zhuǎn)錄組將reads比對上去進(jìn)行定量分析才睹，或者覆蓋度可用于對轉(zhuǎn)錄本進(jìn)行定量。區(qū)別在于轉(zhuǎn)錄和定量同時(shí)完成還是順序完成。

2.1? 比對

有參比對分兩種：基因組比對和轉(zhuǎn)錄組比對（圖2a琅攘，b）垮庐，一條或多條序列（multireads）都可以比對在特定的位點(diǎn)。

多比對由于重復(fù)序列或是有共同結(jié)構(gòu)域的旁系同源基因而導(dǎo)致坞琴，在比對在基因組上會(huì)產(chǎn)生顯著性的比對結(jié)果哨查，在轉(zhuǎn)錄組為參考基因組時(shí)由于基因異構(gòu)體（insoform）含有共同的外顯子而更顯著，結(jié)果保留剧辐。在基因表達(dá)變化時(shí)轉(zhuǎn)錄本的發(fā)現(xiàn)和定量更加困難解恰。

box3 比對到參考序列

比對到參考基因組可發(fā)現(xiàn)新的轉(zhuǎn)錄本和基因，需要gap或剪接map由于序列可能跨越剪接區(qū)浙于。要發(fā)現(xiàn)正確的剪接區(qū)尤其是參考基因組中存在錯(cuò)誤或差異或者無保守區(qū)和融合轉(zhuǎn)錄本护盈。

?Tophat分兩步進(jìn)行無剪接序列先比對到外顯子，沒比對的序列被分開比對來尋找外顯子區(qū)羞酗。比對時(shí)參數(shù)設(shè)置取決于文庫腐宋，錯(cuò)配數(shù)，reads的長度和類型及測序長度檀轨。

2.1 轉(zhuǎn)錄本發(fā)現(xiàn)

新轉(zhuǎn)錄本的發(fā)現(xiàn)困難在于：Illumina讀長短(short reads)胸竞，難跨越剪接區(qū)不能直接的到轉(zhuǎn)錄本全長；轉(zhuǎn)錄本的起始和終止位點(diǎn)難確定参萄。

PE reads(雙端測序）和該覆蓋率有利于發(fā)現(xiàn)低表達(dá)轉(zhuǎn)錄本卫枝，重復(fù) 有利于解決假陽性率（false-positive call）。

Cufflinks, iReckon , SLIDE和StringTie與注釋相結(jié)合將其加到可能的異構(gòu)體（insoform）中讹挎，Montebello將異構(gòu)體的發(fā)現(xiàn)與定量用似然法比對校赤，Augustus可講轉(zhuǎn)錄組數(shù)據(jù)與編碼蛋白轉(zhuǎn)錄本注釋很好的結(jié)合，但非編碼轉(zhuǎn)錄本較差筒溃。

2.2 從頭合成轉(zhuǎn)錄本重建

無參序列組裝為轉(zhuǎn)錄本马篮，SOAPdenovoTrans， Oases怜奖，Trans-ABySS或Trinity浑测。無參轉(zhuǎn)錄組需PE reads和讀長較長的序列。無參分析在計(jì)算機(jī)分析時(shí)測序較深時(shí)要降低序列的數(shù)量歪玲。樣本間比較分析時(shí)迁央，建議將多個(gè)樣本的所有序列都合并為一個(gè)輸入文件來的到一個(gè)穩(wěn)健的contigs（transcripts），然后比對回短序列進(jìn)行表達(dá)量評估滥崩。

從頭組裝導(dǎo)致產(chǎn)生十或上百的contigs作為轉(zhuǎn)錄本片段岖圈，長測序技術(shù)如Bioscience 的SMRT提供讀長可以為多數(shù)基因提供完整的轉(zhuǎn)錄本。

3. 轉(zhuǎn)錄本定量

RNA-seq分析核心為基因和轉(zhuǎn)錄本的定量分析夭委，基于比對到轉(zhuǎn)錄本上的數(shù)量幅狮。

最簡單的定量方法是用HTSeq-count或featureCounts累積原始數(shù)量募强。

基因水平定量使用GTF（genome transfer format ）文件，包含外顯子和基因崇摄，通常丟棄很多序列擎值。原始序列數(shù)量不能用于比較樣本與樣本間的表達(dá)水平，由于受到轉(zhuǎn)錄本長度逐抑，總測序數(shù)以及測序偏好性的影響鸠儿。

RPKM是樣本內(nèi)均一化方法，用于去除長度和樣本大小的影響（RPKM：reads per kilobases of exon model per millions reads）,FPKM(fragments per kilobase of exon model per million mapped read)與RPKs和TPM（transcripts per million）類似厕氨，都用于樣本內(nèi)歸一化进每，F(xiàn)PKM可以與TPM相互轉(zhuǎn)化。

樣本內(nèi)和樣本間的區(qū)分導(dǎo)致在文章中較為混亂命斧。相同基因在樣本與樣本之間的表達(dá)量比較時(shí)田晚，其長度不需要矯正。但同一個(gè)樣本內(nèi)對基因表達(dá)排序時(shí)必須的由于較長的序列回累積更多的reads国葬。樣本之間Cufflinks得到基因長度顯著不同不同忽略贤徒。？汇四？接奈？？（備注：到底應(yīng)該怎么辦通孽？）

轉(zhuǎn)錄水平表達(dá)計(jì)算基于相同的轉(zhuǎn)錄本共有多數(shù)序列來進(jìn)行計(jì)算序宦。TopHat用最大期望值來對轉(zhuǎn)錄本的豐富度進(jìn)行計(jì)算。Cufflinks使用GTF信息來發(fā)現(xiàn)轉(zhuǎn)錄本或只從比對序列提供從頭合成的轉(zhuǎn)錄本背苦。從轉(zhuǎn)錄本比對量化表達(dá)包括SEM (RNA-Seqby Expectation Maximization)互捌，eXpress，Sailfish糠惫，kallisto疫剃。

轉(zhuǎn)錄本中容許多比對reads以及將序列偏好性矯正后樣本內(nèi)均一化值輸出。RSEM使用最大期望值并返回TPM值硼讽。NURD為SE reads提供轉(zhuǎn)錄組表達(dá)評估，占內(nèi)存低牲阁。

4. 差異基因表達(dá)分析

差異表達(dá)分析需要將樣本與樣本之間的基因表達(dá)值進(jìn)行比較固阁。

RPKM，F(xiàn)PKM和TPM在樣本間進(jìn)行比較時(shí)將測序深度進(jìn)行歸一化城菊，但當(dāng)樣本有雜合性轉(zhuǎn)錄本分布即高且差異表達(dá)特性偏離count分布時(shí)結(jié)果較差备燃。NOISeq R包包含大量的分析plots對每種情況進(jìn)行合適的歸一化步驟。除樣本內(nèi)凌唬，樣本間差異并齐，批次效應(yīng)可能會(huì)產(chǎn)生影響，COMBAT或ARSyN可以剔除批次效應(yīng)。

RNA-seq定量分析基于reads counts絕對或可能匹配到轉(zhuǎn)錄本上（波松或負(fù)二項(xiàng)分布）况褪。絕對-離散概率分布-小片段樣本變異不同的表達(dá)包括在內(nèi)時(shí)不適合撕贞。

edgeR將原始輸入reads計(jì)數(shù)及可能的偏好性帶入數(shù)據(jù)模型，將歸一化和差異分析同時(shí)進(jìn)行测垛，類似的為DESeq2（負(fù)二項(xiàng)分布）捏膨。baySeq和EBSeq為貝葉斯法（負(fù)二項(xiàng)分布），不同實(shí)驗(yàn)組內(nèi)的差異以及每組內(nèi)每個(gè)基因的后驗(yàn)概率食侮。

無參法NOISeq或SAMseq做最小假設(shè)号涯，從真實(shí)數(shù)據(jù)中為理論分析做空值分布估算。最小生物學(xué)重復(fù)為3锯七。不同算法顯著性的影響分析的結(jié)果链快，因此要表明參數(shù)設(shè)置，版本眉尸，以及考慮生物學(xué)重復(fù)久又。

5. 可變剪接分析：差異異構(gòu)體表達(dá)。

同一基因轉(zhuǎn)錄本異構(gòu)體的表達(dá)為可變剪接效五。分析方法分兩類：將異構(gòu)體表達(dá)評估與差異表達(dá)檢測結(jié)合來對總基因表達(dá)中每個(gè)異構(gòu)體占比的變化進(jìn)行計(jì)算地消，兩步結(jié)合后第一步的不確定性考慮在內(nèi)：數(shù)據(jù)分析來尋找差異異構(gòu)體表達(dá)。

基于外顯子分析法（exon-based）省略異構(gòu)表達(dá)和可變剪接的信號(hào)檢測通過比較兩個(gè)比對樣本之間基因外顯子和連接區(qū)序列分布DEXseq和 DSGSeq （基因外顯子count）畏妖，rMATS（連接區(qū)reads）脉执，rDiff（可變區(qū)域基因readscounts），DiffSplice用比對圖來發(fā)現(xiàn)可變剪接模型戒劫。優(yōu)點(diǎn)：exon或junction法可精準(zhǔn)的發(fā)現(xiàn)單個(gè)可變剪接半夷；exon-based適合特殊的外顯子和功能結(jié)構(gòu)域，不適合整個(gè)異構(gòu)體分析迅细。

6. 可視化

可視化可以在reads水平（ReadXplorer)或在處理深度(read pileup), 未均一化 (總count) 或均一化后（基因組瀏覽器 UCSC browser巫橄，Integrative Genomics Viewer (IGV) , Genome Maps 或Savant，RNAseqViewer查看多個(gè)RNA-seq樣本茵典，展示風(fēng)豐富的外顯子湘换，轉(zhuǎn)錄本，連接區(qū)统阿，但比IGV慢彩倚。

7. 發(fā)現(xiàn)融合基因

染色體重排產(chǎn)生融合基因與新異構(gòu)體基因鑒定方法類似，但跨度更大扶平。

假的融合基因由于多態(tài)性帆离，同源異記序列錯(cuò)誤而導(dǎo)致的比對錯(cuò)誤而產(chǎn)生。過濾多態(tài)性豐富和同源配對基因结澄，也過濾掉不可能參與基因融合的高表達(dá)基因如rRNA哥谷。另外野生型中在近融合區(qū)存在低頻的二體可能以為著高表達(dá)基因的錯(cuò)配岸夯。

若得到正確的chimeric，下一步是得到有生物學(xué)功能的融合基因们妥。當(dāng)融合出現(xiàn)在對照數(shù)據(jù)中時(shí)可能會(huì)被過濾猜扮，當(dāng)無對照數(shù)據(jù)時(shí)，大量不相關(guān)聯(lián)的數(shù)據(jù)庫同時(shí)出現(xiàn)王悍，且過濾后出現(xiàn)真正的融合時(shí)則表明artifacts破镰。

8. Small RNAs

sRNA通常包含18-34堿基，有miRNA, siRNA（小干擾RNA）压储，PIWI-交互RNAs（PIWI-interacting RNA鲜漩，piRNAs）以及其他類型的調(diào)控分子。由于其復(fù)雜度小測序通常為2-10 百萬reads集惋，于RNA-seq分析方法有不同孕似。去接頭：動(dòng)物中，長度為22和23bp刮刑，植物種21和24bp喉祭。

sRNA需用Bowtie2，STAR雷绢，Burrows-Wheeler Aligner (BWA)比對到參考基因組上泛烙。未比對上的潛在的重復(fù)序列需要剔除。每個(gè)基因組上通常容許5-20個(gè)不同的mapping翘紊。保證無mRNA降解污染蔽氨。

下一步的分析步驟包括與已知sRNA比較以及從頭發(fā)現(xiàn)sRNAs。miRDeep用于動(dòng)物分析帆疟，miRDeep-P用于植物鹉究，or the trans-acting siRNA預(yù)測工具 UEA sRNA Workbench。miRTools 2.0踪宠，ShortStack和 iMir能為sRNA文庫綜合注釋自赔，并鑒定多種 sRNAs分類

9. RNA-seq功能注釋

標(biāo)準(zhǔn)轉(zhuǎn)錄組分析最后一步：差異表達(dá)基因（differentially expressed genes，DEGs）的功能和通路分析柳琢。

兩個(gè)主要的方法：比較差異表達(dá)基因與剩余基因組绍妨，基因富集分析（gene set enrichment analysis, GSEA）基于差異表達(dá)轉(zhuǎn)錄本排序。

功能分析需要對研究的材料有可用及豐富的功能注釋染厅。

Gene Ontology痘绎，Bioconductor，DAVID或Babelomics包含多數(shù)模式物種的注釋數(shù)據(jù)肖粮。

從頭組裝所得到的新轉(zhuǎn)錄本缺乏注釋信息，編碼蛋白注釋可以基于序列相似性用旁系同源功能注釋（SwissProt）尔苦，以及保守蛋白結(jié)構(gòu)域用Pfam和InterPro涩馆。一般有50-80%的轉(zhuǎn)錄本可以被注釋行施。缺少編碼蛋白的轉(zhuǎn)錄本為長非編碼RNA（long non-coding RNA）,相似性注釋可用于短非編碼RNA，而對于長非編碼RNA還沒有相應(yīng)的注釋魂那。

與其他數(shù)據(jù)類型相結(jié)合

1. 與DNA測序結(jié)合

RNA與DNA測序相結(jié)合可用來發(fā)現(xiàn)單堿基多態(tài)性（single nucleotide polymorphism, SNP）RNA-編輯蛾号，表達(dá)數(shù)量性狀位點(diǎn)（expression quantitative trait loci，eQTL）涯雅。

經(jīng)典的eQTL研究中鲜结，同一類型的組織基因型和轉(zhuǎn)錄組測序數(shù)量大于50，然后檢測基因型和表達(dá)水平的關(guān)系活逆，用來解釋復(fù)雜性狀基因偏好性精刷。大量的eQTL研究表明基因變異影響多數(shù)基因的表達(dá)

RNA-seq在檢測eQTL方面有兩個(gè)優(yōu)勢：發(fā)現(xiàn)影響轉(zhuǎn)錄過程的變異；雜合性SNP可以分布比對到父本和母本上蔗候，對個(gè)體內(nèi)等位基因特異性表達(dá)進(jìn)行定量分析怒允。

2. DNA甲基化

DEGs和甲基化模型的相關(guān)分析，然而通過線性相關(guān)性锈遥，貝葉斯相關(guān)性纫事，邏輯相關(guān)性模型得出兩者的相關(guān)性較低。

網(wǎng)絡(luò)互作分析RNA-seq與DNA甲基化之間的關(guān)系所灸，發(fā)現(xiàn)一個(gè)或多個(gè)基因有差異表達(dá)和差異甲基化的協(xié)同性丽惶。

3. 染色質(zhì)特征

RNA-seq與轉(zhuǎn)錄元件（transcription factor，TF）染色質(zhì)免疫沉降測序（ChIP-seq）數(shù)據(jù)用來剔除ChIP-seq中的假陽性和表明目的基因上TF的激活或抑制爬立。

ChIP-seq數(shù)據(jù)組蛋白修飾用來表示表觀修飾對基因表達(dá)量的改變钾唬。DNase-seq可用于DNA結(jié)合因子的基因組印記，與基因的表達(dá)相結(jié)合可用于研究轉(zhuǎn)錄網(wǎng)絡(luò)活性懦尝。

4. MicroRNAs

兩種數(shù)據(jù)相結(jié)合可能用來解釋轉(zhuǎn)錄穩(wěn)定水平miRNA的調(diào)控作用知纷。

5. 蛋白組及代謝組

與蛋白組數(shù)據(jù)結(jié)合有爭議由于兩者的相關(guān)性低（～0.4）。然而仍可以用來發(fā)現(xiàn)新異構(gòu)體陵霉。用RNA-seq預(yù)測未報(bào)道的肽鍵或事轉(zhuǎn)錄后編輯琅轧。與代謝組結(jié)合可用來發(fā)現(xiàn)基因表達(dá)和代謝水平的調(diào)控通路。

6.多數(shù)據(jù)類型聯(lián)合及可視化

蛋白–蛋白, DNA–蛋白, miRNA–mRNA 互作網(wǎng)絡(luò)來發(fā)現(xiàn)miRNA–基因調(diào)控模型踊挠。

展望

目前轉(zhuǎn)錄組分析主要方面：少量的供試材料和長序列中更好的發(fā)現(xiàn)轉(zhuǎn)錄本

1. 單細(xì)胞轉(zhuǎn)錄組（single-cell RNA-seq）

前沿和火熱的研究區(qū)域乍桂。Smart-seq和Smart-seq2只需極少量的供試材料，可通過單個(gè)細(xì)胞的擴(kuò)增得到效床《米茫可用于發(fā)現(xiàn)組織中新的未分類的細(xì)胞類型。一類單細(xì)胞文庫與細(xì)胞群相比剩檀，發(fā)現(xiàn)多細(xì)胞亞群與表達(dá)基因相結(jié)合憋沿。

少量的供試材料以及PCR擴(kuò)增限制了測序深度，因而一般測序少于1百萬reads沪猴。scRNA-seq測序深度增加可能有利于同源特異性表達(dá)基因的挖掘辐啄，但表達(dá)量的增加鮮有提高采章。

scRNA含有3000-8000個(gè)表達(dá)基因，加入?yún)⒖嫁D(zhuǎn)錄本以及特異性分子標(biāo)記（uniqe molecule identifiers壶辜，UMI）有利于克服偏好性擴(kuò)增并提高基因定量悯舟。

scRNA-seq比對在轉(zhuǎn)錄組參考基因組上不能發(fā)現(xiàn)新的基因，若研究目的未基因表達(dá)量則用轉(zhuǎn)錄組未參考基因組來減少工作量砸民。

2.長測序

短序列限制性在于不能精準(zhǔn)的沖否完整的轉(zhuǎn)錄本抵怎。Pacific-Bioscience（PacBio）SMRT和Oxford Nanopore獲得長序列。PacBio在cDNA分子上加接頭形成一個(gè)環(huán)形結(jié)構(gòu)岭参，此單鏈用來多次測序反惕。Nanopore GridION可直接用RNA合成酶和RNA特異性堿基進(jìn)行測序。Moleculo技術(shù)準(zhǔn)備文庫時(shí)復(fù)合和限制DNA分子長度冗荸，將這些特定長度的鏈分開標(biāo)記然后重新融合測序承璃。 PacBio最常見。

缺點(diǎn)：測序錯(cuò)誤率高蚌本，不能用于從頭合成需要參考基因組盔粹；SMRT細(xì)胞數(shù)量較低阻礙了轉(zhuǎn)錄本定量分析。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末程癌，一起剝皮案震驚了整個(gè)濱河市舷嗡，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌嵌莉，老刑警劉巖进萄，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異锐峭，居然都是意外死亡中鼠，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門沿癞，熙熙樓的掌柜王于貴愁眉苦臉地迎上來援雇，“玉大人，你說我怎么就攤上這事椎扬”共” “怎么了？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵蚕涤，是天一觀的道長筐赔。經(jīng)常有香客問我，道長揖铜，這世上最難降的妖魔是什么茴丰？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上较沪，老公的妹妹穿的比我還像新娘鳞绕。我一直安慰自己失仁，他們只是感情好尸曼，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著萄焦，像睡著了一般控轿。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上拂封，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天茬射，我揣著相機(jī)與錄音，去河邊找鬼冒签。笑死在抛，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的萧恕。我是一名探鬼主播刚梭，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼票唆！你這毒婦竟也來了朴读？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤走趋，失蹤者是張志新（化名）和其女友劉穎衅金，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體簿煌，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡氮唯，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了姨伟。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片惩琉。...
茶點(diǎn)故事閱讀 37,989評論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖授滓，靈堂內(nèi)的尸體忽然破棺而出琳水，到底是詐尸還是另有隱情，我是刑警寧澤般堆，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布在孝，位于F島的核電站，受9級(jí)特大地震影響淮摔，放射性物質(zhì)發(fā)生泄漏私沮。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一和橙、第九天我趴在偏房一處隱蔽的房頂上張望仔燕。院中可真熱鬧造垛，春花似錦、人聲如沸晰搀。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽外恕。三九已至杆逗，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間鳞疲，已是汗流浹背罪郊。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留尚洽，地道東北人悔橄。一個(gè)月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像腺毫，于是被迫代替她去往敵國和親癣疟。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評論 2贊 345

RNA-seq 數(shù)據(jù)分析最佳實(shí)戰(zhàn)（綜述）

推薦閱讀更多精彩內(nèi)容