本文為學(xué)習(xí)RNA-seq中** Transcript quantification / Differential gene expression analysis **過程記錄米酬。
Transcript quantification
轉(zhuǎn)錄本的定量是RNA-seq的基礎(chǔ),其接受的輸入是 raw counts of mapped reads加派,輸出是 the number of reads that map to each transcript跳芳。
這個(gè)步驟的主要困難是同一個(gè)基因的不同轉(zhuǎn)錄本之間的差別很小,他們之間的很多外顯子都是共用的娄琉,因此桨啃,同一個(gè)read并不能完全確定是來自于哪一個(gè)轉(zhuǎn)錄本照瘾。
解決這個(gè)問題的主流算法是Expectation Maximization。Top hat 和RSEM的核心算法都是最大似然析命。這里以RSEM為例鹃愤,RSEM并不是只用到了最大似然,而是也用到了先驗(yàn)概率
The primary parameters of the model are given by the vector θ, which represents the prior probabilities of a fragment being derived from each transcript.
根據(jù)文章的說法瘩将,輸入模型的參數(shù)是每一個(gè)read出自transcript的先驗(yàn)概率。
The model consists of N sets of random variables, one per sequenced RNA-Seq fragment. For fragment n, its parent transcript, length, start position, and orientation are represented by the latent variables G n , F n , S n and O n respectively.
模型中用到的變量分為觀測(cè)變量和隱變量肠仪。通過對(duì)隱變量的迭代备典,算出可以使出現(xiàn)觀測(cè)變量可能性達(dá)到最大的組合。
在獲得raw count之后吮蛹,還不能直接用來差異表達(dá)拌屏,因?yàn)檫@些值之間差別的原因不僅有各個(gè)基因之間表達(dá)量的差異槐壳,還會(huì)受到轉(zhuǎn)錄本長(zhǎng)度,測(cè)序深度雳攘,測(cè)序系統(tǒng)偏差等的影響枫笛。
這個(gè)問題的解決方法是normalize標(biāo)準(zhǔn)化。目前有幾種常用的標(biāo)準(zhǔn)化方法:FPKM,RPKM,TPM,TMM等等喧兄。其中前兩個(gè)只能用于樣品內(nèi)部表達(dá)量的比較啊楚,后兩種可以用來進(jìn)行樣品間的比較恭理。
通過一系列的方法得到每個(gè)transcript的count之后,可以進(jìn)行下一步的分析涯保。
Differential gene expression analysis
這一過程的任務(wù)是找出在樣品間周伦,由于受到控制變量的影響而出現(xiàn)了差異表達(dá)的基因。接受的輸入是比對(duì)到每個(gè)transcript的read count及志。
為什么不能直接用read count的比例來作為差異表達(dá)的依據(jù)呢?這是因?yàn)镽NA-seq相當(dāng)于一個(gè)抽樣的過程划纽,我們得到的只是總體的樣本锌畸,我們要做的是根據(jù)這個(gè)樣本對(duì)總體的情況進(jìn)行推斷靖避。這個(gè)總體值得就是某個(gè)基因的表達(dá)情況幻捏,在目前主流的假設(shè)條件下,這個(gè)總體服從的是泊松分布或是負(fù)二項(xiàng)分布谐岁,我們的任務(wù)就是推斷這個(gè)總體的均值榛臼,方差等等,并根據(jù)這些信息檢測(cè)兩個(gè)總體是否有差異航揉。
將總體假設(shè)為泊松分布或是負(fù)二項(xiàng)分布的理由是:從一個(gè)樣品池中隨機(jī)抽取一個(gè)read屬于某一個(gè)transcript的概率很小金刁,且每次抽取之間相互不影響尤蛮。負(fù)二項(xiàng)分布可以看作是泊松分布的擴(kuò)展版,它增添了一個(gè)新的參數(shù)产捞,disperison,這個(gè)參數(shù)可以描述總體的離散情況轧葛。
利用這些模型和假設(shè)搂抒,可以在每個(gè)transcript的read count和表達(dá)比例之間建立聯(lián)系,并求解出abundance尿扯。(線性模型)
另外求晶,有些方法沒有使用離散分布的模型,而是直接對(duì)read count執(zhí)行一些標(biāo)準(zhǔn)化的處理衷笋,變化后作為abundance使用芳杏。
還有些方法使用的是non-parametric approaches矩屁。這些檢驗(yàn)方法不要求或者不假定總體是一個(gè)什么樣的分布,但同時(shí)也會(huì)因此而損失一些信息爵赵。
鑒于目前存在的很多種不同的方法吝秕,靠譜的做法是使用不同的方法,并依據(jù)不同的實(shí)驗(yàn)需求使用這些結(jié)果烁峭。比如,保守的方法:可以區(qū)并集秕铛,激進(jìn)的方法:可以取交集等等约郁。