問題的描述
RSEM 是典型的基于轉(zhuǎn)錄本定量的方法页藻,它的比對(duì)需要下載參考轉(zhuǎn)錄本的fa序列,與基因組比對(duì)不同沸毁,轉(zhuǎn)錄本比對(duì)往往是一個(gè)基因?qū)?yīng)多個(gè)轉(zhuǎn)錄本序列殿漠,因此相同基因的不同轉(zhuǎn)錄本之間有很大的overlap
如上圖所示,當(dāng)reads比對(duì)到這些isoform的overlap區(qū)卤妒,如何確定每個(gè)isoform上的reads數(shù)呢甥绿?換句話來(lái)說有的reads可以mapping到isoform 1上,而有一些可以mapping到isoform 2上则披,所以需要解決的問題是確定isoform 1和isoform 2上reads的相對(duì)比例
類比雙硬幣模型來(lái)理解RSEM
假設(shè)在已知reads可以mapping到isoform的條件下共缕, reads mapping到 isoform 1的概率是 θ1 ;而在已知reads可以mapping到isoform的條件下士复, reads mapping到 isoform 2的概率是 θ2(針對(duì)于 isoform 1 和 isoform 2 的overlap區(qū))
假設(shè)我們一共有5組觀測(cè)值图谷,每組10個(gè)值,并且我們所觀測(cè)到的值只是是否mapping到isoform上,而并不清楚是mapping到 isoform 1 還是 isoform 2 上便贵,并且mapping到 isoform 上了的用 Y 表示隅茎,沒有mapping上的用 N 表示:
上表代表的是每一組reads mapping到isoform上的情況,記錄每一組mapping到isoform上的reads數(shù)和沒有mapping到isoform上的reads數(shù)
step 1
隨機(jī)設(shè)定初始值嫉沽,θ1=0.6辟犀,θ2=0.5,假設(shè)在已知reads可以mapping到isoform的條件下绸硕, reads mapping到 isoform 1的概率是 θ1 堂竟;而在已知reads可以mapping到isoform的條件下, reads mapping到 isoform 2的概率是 θ2(針對(duì)于 isoform 1 和 isoform 2 的overlap區(qū))
step 2
對(duì)于第一組數(shù)據(jù)玻佩,設(shè)某reads分配給 isoform 1 的概率為0.45出嘹,記為p1:
其中,指數(shù) θ15 5次方代表有5條reads mapping到 isoform 1 上咬崔;那么某reads分配給 isoform 1 的概率為0.45(分配但不一定mapping)税稼; (1-θ1)5 代表有5條reads 沒有 mapping 到 isoform 1 上 。同理可理解 θ2
那么垮斯,該reads分配(分配但不一定mapping)給 isoform 2 的概率為0.55郎仆,記為p2
這里的"分配"作為隱含變量,在實(shí)際的意義中可以表示start position 等一些潛在變量兜蠕,分配可以這樣理解扰肌,reads會(huì)分配給isoform 1(或isoform 2),分配完成后會(huì)有兩種可能性熊杨,一種是mapping到該isoform上曙旭,另一種是沒有mapping到該isoform上
其中,指數(shù) θ19 9次方代表有5條reads mapping到 isoform 1 上晶府;那么某reads分配給 isoform 1 的概率為0.8(分配但不一定mapping)桂躏; (1-θ1)1 代表有1條reads 沒有 mapping 到 isoform 1 上 。同理可理解 θ2
同理川陆,依次計(jì)算第3到第5組:
step 3
由step 2計(jì)算的第一組剂习,reads分配給isoform 1(isoform 2)的概率為p1=0.45(p2=0.55)
那么對(duì)于第一組的 isoform 1 :
mapping:5 × 0.45 = 2.25(mapping 到 isoform 的有5條reads,其中有2.25條分配給 isoform 1)书劝; unmapping: 5 × 0.45 = 2.25(沒有mapping 到 isoform 的也有5條reads进倍,其中有2.25條分配給 isoform 1)
對(duì)于第一組的 isoform 2 :
mapping:5 × 0.55 = 2.75(mapping 到 isoform 的有5條reads,其中有2.75條分配給 isoform 2)购对; unmapping: 5 × 0.55 = 2.75(沒有mapping 到 isoform 的也有5條reads猾昆,其中有2.75條分配給 isoform 2)
同理對(duì)于第二組:
那么對(duì)于第二組的 isoform 1 :
mapping:9 × 0.8 = 7.2(mapping 到 isoform 的有9條reads,其中有7.2條分配給 isoform 1)骡苞; unmapping: 1 × 0.8 = 0.8(沒有mapping 到 isoform 的也有1條reads垂蜗,其中有0.8條分配給 isoform 1)
那么對(duì)于第二組的 isoform 2 :
mapping:9 × 0.2 = 1.8(mapping 到 isoform 的有9條reads楷扬,其中有1.8條分配給 isoform 2); unmapping: 1 × 0.2 = 0.2(沒有mapping 到 isoform 的也有1條reads贴见,其中有0.2條分配給 isoform 2)
并且依次計(jì)算第3-5組的:
e.g:
以第三組為例:
對(duì)于第三組的 isoform 1 :
mapping:8 × 0.73 = 5.86(mapping 到 isoform 的有8條reads烘苹,其中有5.86條分配給 isoform 1); unmapping: 2 × 0.73 = 1.47(沒有mapping 到 isoform 的有2條reads片部,其中有1.47條分配給 isoform 1)
對(duì)于第二組的 isoform 2 :
mapping:8 × 0.27 = 2.13(mapping 到 isoform 的有8條reads镣衡,其中有2.13條分配給 isoform 2); unmapping: 2 × 0.27 = 0.53(沒有mapping 到 isoform 的有2條reads档悠,其中有0.53條分配給 isoform 2)
step 4
重新定義θ1 和 θ2
θ1 = 21.30 / (21.30 + 8.57) =0.713廊鸥;θ2 = 11.70 / (11.70+8.43) =0.581
將重新定義的θ1 和 θ2返回step 1—step 4,直至算法收斂辖所,即θ1 和 θ2收斂惰说,那么θ1 和 θ2就分別代表 isoform 1 和 isoform 2 的表達(dá)量
假設(shè)在已知reads可以mapping到isoform的條件下, reads mapping到 isoform 1的概率是 θ1 缘回;而在已知reads可以mapping到isoform的條件下吆视, reads mapping到 isoform 2的概率是 θ2(針對(duì)于 isoform 1 和 isoform 2 的overlap區(qū))。換句話說酥宴,當(dāng)有1條 reads mapping 到對(duì)應(yīng)位置啦吧,那么有 θ1 條來(lái)自于 isoform 1,有 θ2 條來(lái)自于 isoform 2