Transcript quantification/differential exp

本文為學(xué)習(xí)RNA-seq中** Transcript quantification / Differential gene expression analysis **過程記錄米酬。

Transcript quantification

轉(zhuǎn)錄本的定量是RNA-seq的基礎(chǔ),其接受的輸入是 raw counts of mapped reads加派,輸出是 the number of reads that map to each transcript跳芳。
這個(gè)步驟的主要困難是同一個(gè)基因的不同轉(zhuǎn)錄本之間的差別很小,他們之間的很多外顯子都是共用的娄琉,因此桨啃,同一個(gè)read并不能完全確定是來自于哪一個(gè)轉(zhuǎn)錄本照瘾。
解決這個(gè)問題的主流算法是Expectation Maximization。Top hat 和RSEM的核心算法都是最大似然析命。這里以RSEM為例鹃愤,RSEM并不是只用到了最大似然,而是也用到了先驗(yàn)概率

The primary parameters of the model are given by the vector θ, which represents the prior probabilities of a fragment being derived from each transcript.

根據(jù)文章的說法瘩将,輸入模型的參數(shù)是每一個(gè)read出自transcript的先驗(yàn)概率。

The model consists of N sets of random variables, one per sequenced RNA-Seq fragment. For fragment n, its parent transcript, length, start position, and orientation are represented by the latent variables G n , F n , S n and O n respectively.

模型中用到的變量分為觀測(cè)變量和隱變量肠仪。通過對(duì)隱變量的迭代备典,算出可以使出現(xiàn)觀測(cè)變量可能性達(dá)到最大的組合。

在獲得raw count之后吮蛹,還不能直接用來差異表達(dá)拌屏,因?yàn)檫@些值之間差別的原因不僅有各個(gè)基因之間表達(dá)量的差異槐壳,還會(huì)受到轉(zhuǎn)錄本長(zhǎng)度,測(cè)序深度雳攘,測(cè)序系統(tǒng)偏差等的影響枫笛。
這個(gè)問題的解決方法是normalize標(biāo)準(zhǔn)化。目前有幾種常用的標(biāo)準(zhǔn)化方法:FPKM,RPKM,TPM,TMM等等喧兄。其中前兩個(gè)只能用于樣品內(nèi)部表達(dá)量的比較啊楚,后兩種可以用來進(jìn)行樣品間的比較恭理。
通過一系列的方法得到每個(gè)transcript的count之后,可以進(jìn)行下一步的分析涯保。

Differential gene expression analysis

這一過程的任務(wù)是找出在樣品間周伦,由于受到控制變量的影響而出現(xiàn)了差異表達(dá)的基因。接受的輸入是比對(duì)到每個(gè)transcript的read count及志。
為什么不能直接用read count的比例來作為差異表達(dá)的依據(jù)呢?這是因?yàn)镽NA-seq相當(dāng)于一個(gè)抽樣的過程划纽,我們得到的只是總體的樣本锌畸,我們要做的是根據(jù)這個(gè)樣本對(duì)總體的情況進(jìn)行推斷靖避。這個(gè)總體值得就是某個(gè)基因的表達(dá)情況幻捏,在目前主流的假設(shè)條件下,這個(gè)總體服從的是泊松分布或是負(fù)二項(xiàng)分布谐岁,我們的任務(wù)就是推斷這個(gè)總體的均值榛臼,方差等等,并根據(jù)這些信息檢測(cè)兩個(gè)總體是否有差異航揉。
將總體假設(shè)為泊松分布或是負(fù)二項(xiàng)分布的理由是:從一個(gè)樣品池中隨機(jī)抽取一個(gè)read屬于某一個(gè)transcript的概率很小金刁,且每次抽取之間相互不影響尤蛮。負(fù)二項(xiàng)分布可以看作是泊松分布的擴(kuò)展版,它增添了一個(gè)新的參數(shù)产捞,disperison,這個(gè)參數(shù)可以描述總體的離散情況轧葛。
利用這些模型和假設(shè)搂抒,可以在每個(gè)transcript的read count和表達(dá)比例之間建立聯(lián)系,并求解出abundance尿扯。(線性模型)
另外求晶,有些方法沒有使用離散分布的模型,而是直接對(duì)read count執(zhí)行一些標(biāo)準(zhǔn)化的處理衷笋,變化后作為abundance使用芳杏。
還有些方法使用的是non-parametric approaches矩屁。這些檢驗(yàn)方法不要求或者不假定總體是一個(gè)什么樣的分布,但同時(shí)也會(huì)因此而損失一些信息爵赵。
鑒于目前存在的很多種不同的方法吝秕,靠譜的做法是使用不同的方法,并依據(jù)不同的實(shí)驗(yàn)需求使用這些結(jié)果烁峭。比如,保守的方法:可以區(qū)并集秕铛,激進(jìn)的方法:可以取交集等等约郁。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市但两,隨后出現(xiàn)的幾起案子鬓梅,更是在濱河造成了極大的恐慌,老刑警劉巖谨湘,帶你破解...
    沈念sama閱讀 218,546評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件绽快,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡紧阔,警方通過查閱死者的電腦和手機(jī)坊罢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來寓辱,“玉大人艘绍,你說我怎么就攤上這事★ぃ” “怎么了诱鞠?”我有些...
    開封第一講書人閱讀 164,911評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)这敬。 經(jīng)常有香客問我航夺,道長(zhǎng),這世上最難降的妖魔是什么崔涂? 我笑而不...
    開封第一講書人閱讀 58,737評(píng)論 1 294
  • 正文 為了忘掉前任阳掐,我火速辦了婚禮,結(jié)果婚禮上冷蚂,老公的妹妹穿的比我還像新娘缭保。我一直安慰自己,他們只是感情好蝙茶,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,753評(píng)論 6 392
  • 文/花漫 我一把揭開白布艺骂。 她就那樣靜靜地躺著,像睡著了一般隆夯。 火紅的嫁衣襯著肌膚如雪钳恕。 梳的紋絲不亂的頭發(fā)上别伏,一...
    開封第一講書人閱讀 51,598評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音忧额,去河邊找鬼厘肮。 笑死,一個(gè)胖子當(dāng)著我的面吹牛睦番,可吹牛的內(nèi)容都是我干的类茂。 我是一名探鬼主播,決...
    沈念sama閱讀 40,338評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼托嚣,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼大咱!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起注益,我...
    開封第一講書人閱讀 39,249評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎溯捆,沒想到半個(gè)月后丑搔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,696評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡提揍,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,888評(píng)論 3 336
  • 正文 我和宋清朗相戀三年啤月,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片劳跃。...
    茶點(diǎn)故事閱讀 40,013評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡谎仲,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出刨仑,到底是詐尸還是另有隱情郑诺,我是刑警寧澤,帶...
    沈念sama閱讀 35,731評(píng)論 5 346
  • 正文 年R本政府宣布杉武,位于F島的核電站辙诞,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏轻抱。R本人自食惡果不足惜飞涂,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,348評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望祈搜。 院中可真熱鬧较店,春花似錦、人聲如沸容燕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽缰趋。三九已至捧杉,卻和暖如春陕见,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背味抖。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工评甜, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人仔涩。 一個(gè)月前我還...
    沈念sama閱讀 48,203評(píng)論 3 370
  • 正文 我出身青樓忍坷,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親熔脂。 傳聞我的和親對(duì)象是個(gè)殘疾皇子佩研,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,960評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容