轉(zhuǎn)錄組(transcriptome),額定類型細(xì)胞中全體轉(zhuǎn)錄本(transcript)的集合银受,是細(xì)胞特定時刻基因表達(dá)譜的一個快照(snapshot of expression profile)笋庄。
在轉(zhuǎn)錄組中,既包括編碼蛋白的信使RNA(mRNA),也包括不編碼蛋白的mirRNA,long non-coding RNA(lncRNA)等非編碼RNA袖肥。
這些RNA轉(zhuǎn)錄本彼此協(xié)同作用,共同來調(diào)控細(xì)胞的生長,發(fā)育惹资,凋亡等一系列重要的生理過程哮兰。因此毛萌,對于轉(zhuǎn)錄本的研究通常包括定性和定量兩個方面。
Real-Time qRT-PCR通過對經(jīng)典PCR擴(kuò)增反應(yīng)中每一個循環(huán)產(chǎn)物熒光信號的實時檢測奠蹬,我們可以實現(xiàn)對其實模板的定量分析朝聋。通過正確設(shè)定引物(primer)和探針(probe),qRT-PCR技術(shù)可以很大范圍內(nèi)定量的檢測目標(biāo)轉(zhuǎn)錄本的拷貝數(shù),也即表達(dá)水平囤躁。因此長被作為轉(zhuǎn)錄組分析中的金標(biāo)準(zhǔn)(Gold Standard).qRT-PCR只能測定一個轉(zhuǎn)錄本的表達(dá)水平冀痕,同時也需要知道待檢測轉(zhuǎn)錄本的序列,難以用來發(fā)現(xiàn)未知的轉(zhuǎn)錄本狸演。
Microarray在高通量測序之前是主要的高通量轉(zhuǎn)錄本表達(dá)分析技術(shù)言蛇。
微陣列(microarray),也稱基因芯片(gene chip),通過將幾十萬個不等的探針(probe)分子固定在約1cm見方的固體片基上制成的宵距。
利用核苷酸分子在形成雙鏈時堿基互補(bǔ)配對原理腊尚,microarray可以一次性檢測出樣本中所有與探針互補(bǔ)的核苷酸片段,從而快速得到樣本中基因的表達(dá)譜(expression profile),因此满哪,microarray從上世紀(jì)90年代問世以來婿斥,在生物,醫(yī)學(xué)哨鸭,農(nóng)學(xué)等領(lǐng)域快速獲得了廣泛應(yīng)用民宿。與qRT-PCR相比,micoarray雖然在通量上有了顯著的提高像鸡,但仍然需要實現(xiàn)確定待測轉(zhuǎn)錄本的序列活鹰。
EST(表達(dá)序列標(biāo)簽)技術(shù)通過對一個隨機(jī)選擇的cDNA克農(nóng)進(jìn)行單次測序來獲得cDNA的部分序列。與microarray不同只估,EST是基于測序的志群,并不需要事先知道待檢測轉(zhuǎn)錄本的序列』赘疲可以被用來發(fā)現(xiàn)新的轉(zhuǎn)錄本锌云。
早在1991年,當(dāng)時還在NIH的Craig Venter等就開始利用EST來尋找人類的新基因吁脱。然而宾抓,由于當(dāng)時測序技術(shù)通量的限制子漩,一次EST通常只能得到幾千個轉(zhuǎn)錄本的序列,遠(yuǎn)遠(yuǎn)無法進(jìn)行全轉(zhuǎn)錄本水平的profiling.
RNA-seq深度測序技術(shù)的出現(xiàn)石洗,使得研究人員首次可以幢泼,在全轉(zhuǎn)錄組水平利用測序技術(shù)同時進(jìn)行定量與定性的分析。
首先讲衫,對生物樣品中的RNA反轉(zhuǎn)錄為cDNA而后將這些cDNA打碎成較小片段后缕棵,上機(jī)測序。
一方面涉兽,RNA-seq技術(shù)使得研究人員可以快速確定轉(zhuǎn)錄本招驴,進(jìn)而鑒定存在的可變剪切體(Alternative splicing isoform),這是傳統(tǒng)的microarray等技術(shù)很難做到的。
另一方面枷畏,對基因組特定位點上reads深度的計算别厘,可以對表達(dá)量水平進(jìn)行估計。所以拥诡,RNA-seq技術(shù)使得研究人員可以同時對轉(zhuǎn)錄組進(jìn)行定性和定量的研究触趴。需要注意的是,RNA-seq本質(zhì)上是對轉(zhuǎn)錄本序列的隨機(jī)抽樣(random sampling),因此渴肉,其檢測效力(power)和靈敏度(sensitivity)高度以來于測序深度冗懦。如果測序深度不夠,就難以檢測出低拷貝的基因仇祭。原則上披蕉,只有在飽和曲線(saturation curve)達(dá)到平臺期(plateau)后,才能認(rèn)為深度足夠乌奇。對于哺乳動物轉(zhuǎn)錄組來說没讲,一個經(jīng)驗規(guī)則是通常要做到100-150X的coverage
在隨機(jī)抽樣的情況下(random sampling)情況下,map到轉(zhuǎn)錄本上的read數(shù)目正比于其表達(dá)量(transcript abundance),因此礁苗,我們可以利用落在某個轉(zhuǎn)錄本上reads的總數(shù)目來估計其表達(dá)量爬凑。
但另一方面,落在一個轉(zhuǎn)錄本上reads的書面寂屏,也于其長度和總測序深度成正比。例如有A,B兩個基因娜搂,假定他們表達(dá)量相同迁霎,都轉(zhuǎn)錄2個轉(zhuǎn)錄本,但是A的長度是B的兩倍百宇,那么map到A的熱啊但是數(shù)目就是map到B的reads數(shù)目的兩倍考廉。如果我們只是看這些reads的數(shù)目,我們會認(rèn)為A的表達(dá)量是B的兩倍携御,但這顯然是不對的昌粤。
通量既绕,測序深度。
所以涮坐,我們在實際分析中凄贩,通常會將原始的reads數(shù)目(raw reads count)利用線性放縮(scaling),轉(zhuǎn)換為RPKM值來進(jìn)行歸一化(normalization)處理。
RPKM就是一個常用的歸一化的方法袱讹。
這個公式里面的C是貼到這段轉(zhuǎn)錄本上reads的總數(shù)目疲扎,N是這次試驗總reads數(shù)目(也就是測序深度),L是這段學(xué)列的長度捷雕。在假定不同樣本中RNA總體分布一致的前提下椒丧,RPKM就可以正確處理由于轉(zhuǎn)錄本長度和測序深度引起的artifact,從而使得來自不同基因救巷,不同sequencing run乃至不同樣本之間的表達(dá)數(shù)據(jù)彼此之間可以比較壶熏。需要注意的是,RPKM并不是唯一的歸一化方法浦译。通過考慮不同的誤差因素(bias effectors),引入不同的生物學(xué)假設(shè)棒假,可以構(gòu)造不同的歸一化方法。
事實上管怠,已有研究表明淆衷,相比于后續(xù)提出的TMM,DESeq等方法,RPKM方法在樣本差異基因表達(dá)檢驗等分析中的效果不是最理想渤弛。另一個需要在RNA-Seq技術(shù)中引起注意的地方是鏈特異性(strand-specific)祝拯。我們知道,DNA的兩條鏈都可以轉(zhuǎn)錄她肯,形成不同的轉(zhuǎn)錄本佳头,然而,常用的Illumina RNA-Seq kit是不分鏈的晴氨,也就是說康嘉,我們無法知道配對的reads哪個方向和轉(zhuǎn)錄本是一致的,那個和轉(zhuǎn)錄本方向互補(bǔ)籽前。對于分鏈的數(shù)據(jù)亭珍,又有兩種不同的情況。在利用dUTP技術(shù)進(jìn)行標(biāo)記(labeling)的方法–也就是illumina的strand-specific kit 使用的方法中枝哄,第二個read和轉(zhuǎn)錄本方向一致肄梨,的一個read和轉(zhuǎn)錄本反向互補(bǔ)。在另一種SOLID等平臺常用的secondstrand分鏈方法中挠锥,就剛好反過來了众羡。因此在分析之前,我們一定要弄清楚自己的數(shù)據(jù)有沒有分鏈蓖租,是怎樣分鏈的粱侣。
參考資料:
此博文內(nèi)容來自高歌老師的講課