用簡(jiǎn)單的EM算法模型理解RSEM算法

問題的描述

RSEM 是典型的基于轉(zhuǎn)錄本定量的方法页藻,它的比對(duì)需要下載參考轉(zhuǎn)錄本的fa序列,與基因組比對(duì)不同沸毁,轉(zhuǎn)錄本比對(duì)往往是一個(gè)基因?qū)?yīng)多個(gè)轉(zhuǎn)錄本序列殿漠,因此相同基因的不同轉(zhuǎn)錄本之間有很大的overlap



如上圖所示,當(dāng)reads比對(duì)到這些isoform的overlap區(qū)卤妒,如何確定每個(gè)isoform上的reads數(shù)呢甥绿?換句話來(lái)說有的reads可以mapping到isoform 1上,而有一些可以mapping到isoform 2上则披,所以需要解決的問題是確定isoform 1和isoform 2上reads的相對(duì)比例

類比雙硬幣模型來(lái)理解RSEM

假設(shè)在已知reads可以mapping到isoform的條件下共缕, reads mapping到 isoform 1的概率是 θ1 ;而在已知reads可以mapping到isoform的條件下士复, reads mapping到 isoform 2的概率是 θ2(針對(duì)于 isoform 1 和 isoform 2 的overlap區(qū))

假設(shè)我們一共有5組觀測(cè)值图谷,每組10個(gè)值,并且我們所觀測(cè)到的值只是是否mapping到isoform上,而并不清楚是mapping到 isoform 1 還是 isoform 2 上便贵,并且mapping到 isoform 上了的用 Y 表示隅茎,沒有mapping上的用 N 表示:


上表代表的是每一組reads mapping到isoform上的情況,記錄每一組mapping到isoform上的reads數(shù)和沒有mapping到isoform上的reads數(shù)

step 1

隨機(jī)設(shè)定初始值嫉沽,θ1=0.6辟犀,θ2=0.5,假設(shè)在已知reads可以mapping到isoform的條件下绸硕, reads mapping到 isoform 1的概率是 θ1 堂竟;而在已知reads可以mapping到isoform的條件下, reads mapping到 isoform 2的概率是 θ2(針對(duì)于 isoform 1 和 isoform 2 的overlap區(qū))

step 2

對(duì)于第一組數(shù)據(jù)玻佩,設(shè)某reads分配給 isoform 1 的概率為0.45出嘹,記為p1:

其中,指數(shù) θ15 5次方代表有5條reads mapping到 isoform 1 上咬崔;那么某reads分配給 isoform 1 的概率為0.45(分配但不一定mapping)税稼; (1-θ1)5 代表有5條reads 沒有 mapping 到 isoform 1 上 。同理可理解 θ2

那么垮斯,該reads分配(分配但不一定mapping)給 isoform 2 的概率為0.55郎仆,記為p2
這里的"分配"作為隱含變量,在實(shí)際的意義中可以表示start position 等一些潛在變量兜蠕,分配可以這樣理解扰肌,reads會(huì)分配給isoform 1(或isoform 2),分配完成后會(huì)有兩種可能性熊杨,一種是mapping到該isoform上曙旭,另一種是沒有mapping到該isoform上

其中,指數(shù) θ19 9次方代表有5條reads mapping到 isoform 1 上晶府;那么某reads分配給 isoform 1 的概率為0.8(分配但不一定mapping)桂躏; (1-θ1)1 代表有1條reads 沒有 mapping 到 isoform 1 上 。同理可理解 θ2

同理川陆,依次計(jì)算第3到第5組:


step 3

由step 2計(jì)算的第一組剂习,reads分配給isoform 1(isoform 2)的概率為p1=0.45(p2=0.55)

那么對(duì)于第一組的 isoform 1 :
mapping:5 × 0.45 = 2.25(mapping 到 isoform 的有5條reads,其中有2.25條分配給 isoform 1)书劝; unmapping: 5 × 0.45 = 2.25(沒有mapping 到 isoform 的也有5條reads进倍,其中有2.25條分配給 isoform 1)

對(duì)于第一組的 isoform 2 :
mapping:5 × 0.55 = 2.75(mapping 到 isoform 的有5條reads,其中有2.75條分配給 isoform 2)购对; unmapping: 5 × 0.55 = 2.75(沒有mapping 到 isoform 的也有5條reads猾昆,其中有2.75條分配給 isoform 2)

同理對(duì)于第二組:
那么對(duì)于第二組的 isoform 1 :
mapping:9 × 0.8 = 7.2(mapping 到 isoform 的有9條reads,其中有7.2條分配給 isoform 1)骡苞; unmapping: 1 × 0.8 = 0.8(沒有mapping 到 isoform 的也有1條reads垂蜗,其中有0.8條分配給 isoform 1)

那么對(duì)于第二組的 isoform 2 :
mapping:9 × 0.2 = 1.8(mapping 到 isoform 的有9條reads楷扬,其中有1.8條分配給 isoform 2); unmapping: 1 × 0.2 = 0.2(沒有mapping 到 isoform 的也有1條reads贴见,其中有0.2條分配給 isoform 2)

并且依次計(jì)算第3-5組的:


e.g:
以第三組為例:
對(duì)于第三組的 isoform 1 :
mapping:8 × 0.73 = 5.86(mapping 到 isoform 的有8條reads烘苹,其中有5.86條分配給 isoform 1); unmapping: 2 × 0.73 = 1.47(沒有mapping 到 isoform 的有2條reads片部,其中有1.47條分配給 isoform 1)
對(duì)于第二組的 isoform 2 :
mapping:8 × 0.27 = 2.13(mapping 到 isoform 的有8條reads镣衡,其中有2.13條分配給 isoform 2); unmapping: 2 × 0.27 = 0.53(沒有mapping 到 isoform 的有2條reads档悠,其中有0.53條分配給 isoform 2)

step 4

重新定義θ1θ2
θ1 = 21.30 / (21.30 + 8.57) =0.713廊鸥;θ2 = 11.70 / (11.70+8.43) =0.581

將重新定義的θ1θ2返回step 1—step 4,直至算法收斂辖所,即θ1θ2收斂惰说,那么θ1θ2就分別代表 isoform 1 和 isoform 2 的表達(dá)量

假設(shè)在已知reads可以mapping到isoform的條件下, reads mapping到 isoform 1的概率是 θ1 缘回;而在已知reads可以mapping到isoform的條件下吆视, reads mapping到 isoform 2的概率是 θ2(針對(duì)于 isoform 1 和 isoform 2 的overlap區(qū))。換句話說酥宴,當(dāng)有1條 reads mapping 到對(duì)應(yīng)位置啦吧,那么有 θ1 條來(lái)自于 isoform 1,有 θ2 條來(lái)自于 isoform 2

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末幅虑,一起剝皮案震驚了整個(gè)濱河市丰滑,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌倒庵,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件炫刷,死亡現(xiàn)場(chǎng)離奇詭異擎宝,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)浑玛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門绍申,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人顾彰,你說我怎么就攤上這事极阅。” “怎么了涨享?”我有些...
    開封第一講書人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵筋搏,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我厕隧,道長(zhǎng)奔脐,這世上最難降的妖魔是什么俄周? 我笑而不...
    開封第一講書人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮髓迎,結(jié)果婚禮上峦朗,老公的妹妹穿的比我還像新娘。我一直安慰自己排龄,他們只是感情好波势,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著橄维,像睡著了一般艰亮。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上挣郭,一...
    開封第一講書人閱讀 51,624評(píng)論 1 305
  • 那天迄埃,我揣著相機(jī)與錄音,去河邊找鬼兑障。 笑死侄非,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的流译。 我是一名探鬼主播逞怨,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼福澡!你這毒婦竟也來(lái)了叠赦?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤革砸,失蹤者是張志新(化名)和其女友劉穎除秀,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體算利,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡册踩,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了效拭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片暂吉。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖缎患,靈堂內(nèi)的尸體忽然破棺而出慕的,到底是詐尸還是另有隱情,我是刑警寧澤挤渔,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布肮街,位于F島的核電站,受9級(jí)特大地震影響蚂蕴,放射性物質(zhì)發(fā)生泄漏低散。R本人自食惡果不足惜俯邓,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望熔号。 院中可真熱鬧稽鞭,春花似錦、人聲如沸引镊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)弟头。三九已至吩抓,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間赴恨,已是汗流浹背疹娶。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留伦连,地道東北人雨饺。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像惑淳,于是被迫代替她去往敵國(guó)和親额港。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容