通過一個小任務來幫助理解轉(zhuǎn)錄組測序的點滴
首先,設想手頭有一個物種的三個基因ABC,它們的長度分別是10bp、100bp狐援、1000bp钢坦,你想研究這個物種在兩種不同環(huán)境下(野生型WT,熱激發(fā)態(tài)HEAT)的差異緣由啥酱。
然后爹凹,你通過尋找其他文獻發(fā)現(xiàn),WT條件下镶殷,A基因的表達量要比B高兩倍禾酱;另外你知道還有一個基因在兩個不同條件下表達量是不同的,并且差異足夠檢測出來(但不知道是哪個基因)绘趋。其他基因在WT和HEAT中表達量一致颤陶。這時,你采用了轉(zhuǎn)錄組測序進行比較WT和HEAT樣本陷遮,但是每個樣本只有一個重復滓走。
不幸的是,你在做實驗過程中出了點差錯帽馋,發(fā)現(xiàn)得到的WT樣本mRNA反轉(zhuǎn)錄得到的DNA量是HEAT的2倍搅方,后來為了挽救,在上級測序前通過加測序標簽將二者區(qū)分開來绽族,然后將HEAT的DNA量也調(diào)整到了和WT一樣
問題來了:
- 怎樣從數(shù)據(jù)中看出你開始加了2倍的WT材料姨涡?
- 每個條件下的每個基因CPM值是什么意思?
- RPKM吧慢、TPM又是什么意思涛漂?
- 你怎么驗證WT樣本中A基因表達量是B基因的2倍?
- 怎么分辨在WT和HEAT中哪個基因產(chǎn)生了明顯的差異娄蔼?
- 如果要使CPM怖喻、RPKM、TPM得到一個比較合理的數(shù)字岁诉,那么應該測多少reads锚沸?
- 為了使它們看似合理,人工加上限制因子這種做法合適嗎涕癣?
這些問題都會在后面進行解釋
轉(zhuǎn)錄組測序前世今生
什么是轉(zhuǎn)錄組
轉(zhuǎn)錄組(transcriptome)廣義上指某一生理條件下哗蜈,細胞內(nèi)所有轉(zhuǎn)錄產(chǎn)物的集合,包括信使RNA坠韩、核糖體RNA距潘、轉(zhuǎn)運RNA及非編碼RNA;狹義上指所有mRNA的集合只搁。它連接了基因組遺傳信息與蛋白質(zhì)組的生物功能音比。我們?nèi)粘S玫霓D(zhuǎn)錄組測序一般是為了分析樣本間基因表達量差異,當然還可以尋找可變剪切位點氢惋,發(fā)現(xiàn)新轉(zhuǎn)錄本等洞翩。
為什么有了轉(zhuǎn)錄組測序
測序技術(shù)的首次應用就是用來檢測DNA分子的核酸組成的稽犁,但是后來人們除了組成成分以外,更想知道哪個成分有多少骚亿,這就是定量已亥。測定基因的表達量有許多種方式,比如基因芯片来屠、qPCR等虑椎。
基因芯片的開發(fā)使得一次性從一個基因組中獲得大批基因表達量成為可能,轉(zhuǎn)錄組測序在芯片基礎(chǔ)上俱笛,更加精準捆姜。芯片就像模擬信號,而轉(zhuǎn)錄組測序就是數(shù)字信號嫂粟,他能檢測到更多的差異表達基因(即動態(tài)范圍大)娇未。
什么是gene isoforms
isoforms翻譯的話可以翻譯成“亞型/異構(gòu)體”墨缘,gene isoforms可以理解為一個基因的不同形態(tài)星虹,就是由同一個基因座產(chǎn)生的mRNA,在轉(zhuǎn)錄起始位點(Transcription Start Sites, TSSs)镊讼,編碼蛋白序列(protein-coding DNA sequences, CDSs)宽涌,非翻譯區(qū)(Untranslated regions, UTRs)這些地方有差別,間接地改變了基因的功能蝶棋。
一個基因座可以是一個基因卸亮,一個基因的一部分,或具有某種調(diào)控作用的DNA序列玩裙〖婷常基因座是染色體上的固定部位,在相同基因座上編碼相同的DNA被稱為等位基因吃溅。同一基因座上有相同的等位基因就是純合子溶诞,相同基因座上是不同的等位基因就是雜合子。
圖中1决侈、2螺垢、3是mRNA的三個外顯子,由于連接方式不同赖歌,產(chǎn)生了三種isoforms
什么是可變剪切
它的學名是Alternative splicing, AS枉圃,又名選擇性剪切。大多數(shù)真核基因轉(zhuǎn)錄產(chǎn)生的mRNA 前體一般按一種方式剪接產(chǎn)生出一種mRNA庐冯,結(jié)果只產(chǎn)生一種蛋白質(zhì)孽亲。但有些基因產(chǎn)生的mRNA 前體可按不同的方式剪接,產(chǎn)生多于兩種的mRNA展父。
首先看一下真核細胞基因的結(jié)構(gòu)返劲。真核生物基因序列包含了外顯子exon赁酝、內(nèi)含子intron,二者相互間隔旭等。編碼蛋白的成熟mRNA是mRNA前體經(jīng)過剪切過的酌呆,外顯子可以不按其線性次序剪接,內(nèi)含子也可以不被切除而保留搔耕。因此成熟的mRNA中每一個外顯子隙袁、內(nèi)含子的存在與否都是不一定的。有5種類型:1弃榨、外顯子跳躍(Exon skipping or cassette exon)菩收;2、內(nèi)含子保留(Intron retention)鲸睛;3娜饵、5‘端可變剪切(Alternative donor 5' site);4官辈、3‘端可變剪切(Alternative acceptor 3' site)箱舞;5、特定外顯子可變剪切(比如第一個或者最后一個外顯子)(Mutually exclusive exons)
測序?qū)嵸|(zhì)
RNA反轉(zhuǎn)錄成cDNA(cDNA, complementary DNA)拳亿,測的就是cDNA晴股,通過檢測的cDNA表達量,可以推斷出RNA的數(shù)量肺魁〉缦妫看似流程很簡單,就是數(shù)一數(shù)有多少DNA的片段鹅经,如果特定條件下寂呛,某個基因cDNA片段數(shù)量比較多,那么也就意味著原始RNA的含量也很高瘾晃,即該基因表達量高贷痪。但是實際操作中,正是怎么計數(shù)酗捌,怎么比較才是分析的精髓呢诬。
分析的阻礙
- 測量標準:為了比較誰多誰少,一般都是采用相對定量的分析方法胖缤。但是同樣的絕對數(shù)量對于不同的基數(shù)來講尚镰,得到的相對值也是不同的。比如哪廓,第一次測A狗唉、B基因表達量是10,那么這一次中A基因的豐度就是10/(10+10)=50%涡真;第二次測A分俯、B肾筐、C表達量都是10,那么這一次缸剪,A的豐度就成了33.3%吗铐,但是能說第二次比第一次A基因的表達量豐度下降了嗎?因此杏节,只看表面的數(shù)字可能不能反映實際問題
- 測量方法:目前轉(zhuǎn)錄組測序采用的二代測序唬渗,還是測一段DNA的一小部分。由于可變剪切一般將內(nèi)含子去除奋渔,而拼接不同的外顯子镊逝,但畢竟它們“師出同門”,因此得到的轉(zhuǎn)錄本也是相似的嫉鲸,就像上面圖中1撑蒜、2組成的轉(zhuǎn)錄本a和1、3組成的轉(zhuǎn)錄本b都含有3玄渗,因此要將一小段比對到原始轉(zhuǎn)錄本就比較難(比如座菠,一條reads符合3的一小部分,那么這條reads是屬于轉(zhuǎn)錄本a還是轉(zhuǎn)錄本b呢捻爷?)
- 測量對象:mRNA不像DNA一樣穩(wěn)定辈灼,它很容易降解,因此它的豐度是時刻改變的也榄。因此測轉(zhuǎn)錄組之前需要這個時間節(jié)點確保觀察到了變化,并且這個變化與實驗條件有關(guān)系司志。一般為了證明這一點甜紫,需要測定一個狀態(tài)下的樣本好幾次,也就是所做的重復骂远。差異基因的確定也必須通過重復來驗證囚霸,也就是一個條件下幾個重復得到的值如果都與標準條件下幾個重復的值有差別,這才認為這個差異基因有效激才。
關(guān)于重復
推薦最少設置三個拓型,五個更好。關(guān)于樣本重復與測序深度的取舍瘸恼,這一篇文章給出了解釋:Comprehensive evaluation of differential gene expression analysis methods for RNA-seq data
- 樣本數(shù)的選取相比測序深度更能影響差異基因篩選的精確性劣挫;
- 表達量低的基因,reads數(shù)和樣本數(shù)的選取對差異基因篩選有更大影響东帅,而表達量高的基因压固,提高測序深度基本不會改變差異基因篩選的結(jié)果
總而言之,就尋找差異基因而言靠闭,還是建議多樣本量帐我;但是如果想研究可變剪切坎炼、發(fā)現(xiàn)新轉(zhuǎn)錄本的情況,還是要多測深度拦键,加大reads數(shù)量
最好用的轉(zhuǎn)錄組流程谣光?
看過這個就明白了:方案很多,幾十上百個軟件供你選擇芬为,其中好用的有很多抢肛,但是不會有最好的流程,只有自己搭配出適合自己的碳柱。與其選擇流程捡絮,不如熟悉原理,在結(jié)果不合常理時知道怎么去糾正莲镣。轉(zhuǎn)錄組的基本流程用兩套方法就能熟悉過來福稳。
一般流程
一般就是:質(zhì)控-》比對(alignment or mapping)-〉估算表達量(read counting)-》表達量比較(differential expression)。當然也有不需要比對就能進行量化分析的軟件瑞侮,比如kallisto【多說一句的圆,它之所以可以跳過序列比對的步驟,是基于一個已經(jīng)被論證的前提半火,即一條read具體比對到參考基因的什么位置上越妈,并不影響最終的表達量結(jié)果。kallisto主要是確定一個 read 屬于哪一個基因钮糖,而不關(guān)心這個 read 在基因上的位置】
比對環(huán)節(jié)有兩個選擇:一是比對參考基因組(genome)梅掠,可以幫助發(fā)現(xiàn)新轉(zhuǎn)錄本以及gene isoforms;二是比對參考轉(zhuǎn)錄組(transcriptome)店归,也就是在已知基因的前提下阎抒,更準確的定量樣本中信息
有一種比對叫splice-aware
有許多測序reads是來自兩個外顯子的連接處(也就是剪切位點),如果要比對會參考基因組消痛,reads的中間肯定會被加入一段空白(也就是原來的內(nèi)含子)且叁。相當于原來reads是腳踏兩條船,現(xiàn)在兩條船要回家秩伞,reads的腿就開始劈叉了逞带。因此,對比軟件必須要考慮到這一點纱新,容許reads比對回去后展氓,中間含有大大的空隙。
加入這種比對模式的軟件有:
- Hisat2:與Bowtie2/Tophat2算法相似怒炸,但速度大提升
- Subjunc:專為基因表達分析打造
- BWA:它的mem算法支持剪切位點比對
- BBMap:支持非常長的剪切比對
- STAR:準確带饱,提供counts定量數(shù)據(jù)
比對完如何定量?
最常用的三種進行相對定量的方法:
Counts:與轉(zhuǎn)錄本重疊的reads數(shù)
-
RPKM/FPKM:Reads/Fragments per kilobase of transcript per millions of read mapped【落在一個基因區(qū)域內(nèi)的read counts數(shù)目取決于基因長度和測序深度,換句話說勺疼,一個基因越長教寂,測序深度越高,落在其內(nèi)部的reads數(shù)目就會相對越多执庐。而為了比較不同樣本中不同基因的表達量酪耕,就去除測序深度和基因長度的的影響。采用了兩個標準化:reads數(shù)標準化和長度標準化】RPKM(A)=C/(N/106*L/103) 轨淌,其中C是唯一比對到轉(zhuǎn)錄本A的reads數(shù)迂烁,N是唯一比對到所有轉(zhuǎn)錄本的reads數(shù),L是轉(zhuǎn)錄本A的長度递鹉。
建庫測序是一個隨機抽樣的過程盟步,而這個抽取的樣品實際上是以 Fragments 為單位,而不是 Reads躏结。因此却盘,使用FPKM更為合理。當 single-end 測序的時候媳拴,RPKM 與 FPKM 是等價的黄橘;當 pair-end 測序的時候(一個fragment對應兩條reads),應該使用 FPKM屈溉。
TPM: Transcripts per million reads塞关。當樣本差異過大,要強調(diào)準確度或者定量目標基因的表達量的時候子巾,TPM是最有效的帆赢。TMP先處理基因長度問題,再處理測序深度
基因表達量的比較
- 樣品內(nèi)比較:比較同一個實驗中基因表達量砰左。例如匿醒,這個樣本中A基因表達量高于B嗎?
- 樣品間比較:比較不同實驗條件的樣品缠导。例如,不同實驗條件下溉痢,A基因的表達量變化了嗎僻造?
一些名詞
- sample:樣本(包含了實驗條件和重復),例如孩饼,我們說測10個樣髓削,也就是1個處理一個對照,各5個重復
- normalization:標準化镀娶,將各個樣本的結(jié)果放在同一維度上立膛,賦予它們可比性
- library size normalization:文庫大小標準化,用來矯正不同實驗條件下的測序深度(覆蓋度)。例如宝泵,條件A相對B加了2倍的材料進行測序好啰,這時就需要平衡兩者
- effective length:有效長度,其實也就是長度越長的轉(zhuǎn)錄本儿奶,reads落在上面的數(shù)量越多框往,因此計算時需要平衡
- gene level:在基因?qū)哟紊希瑢⒚總€基因視作獨立的轉(zhuǎn)錄本闯捎,而且均包含基因的所有外顯子椰弊。但是還有一些情況需要更細致的分析,因此基因表達量需要建立在轉(zhuǎn)錄本層次上(transcript level)
- TMM(edegR) normalization: Trimmed mean of M values瓤鼻。edgeR軟件使用的標準化算法叫TMM秉版,它排除了一對實驗條件下reads counts比率比較極端或者表達量的平均值比較極端的基因,從而估算的測序深度
- DESeq normalization:DEseq包使用的算法茬祷。它選出所有基因reads counts中位數(shù)的基因清焕,估算它的測序深度
歡迎關(guān)注我們的公眾號~_~
我們是兩個農(nóng)轉(zhuǎn)生信的小碩,打造生信星球牲迫,想讓它成為一個不拽術(shù)語耐朴、通俗易懂的生信知識平臺。需要幫助或提出意見請后臺留言或發(fā)送郵件到Bioplanet520@outlook.com