bioinfo100 —— 第35題 RNA-Seq 數(shù)據(jù)的定量之RPKM和FPKM

https://zhuanlan.zhihu.com/p/50811365

Hello大家好！好久不見了吉嫩！

之前手頭上一直有很多事情，因此咱們的生物信息學(xué)100個(gè)基礎(chǔ)問題（BBQ100）也耽誤了一陣子唤殴，給大家鞠躬道歉斋攀，以后希望能夠保持一定的更新速度，早日填完我們這個(gè)立下的Flag弧哎！

根據(jù)之前的規(guī)劃雁比，我們將用接下來的幾期問題來探索一下RNA-Seq定量的問題，也就是要探索一下我們常說的RPKM撤嫩，F(xiàn)PKM偎捎，TPM，raw count 和RSEM，前面4個(gè)指標(biāo)都比較直觀茴她，方便理解寻拂，最后一個(gè)RSEM需要涉及到一些機(jī)器學(xué)習(xí)的知識(shí)，我們盡量給大家把比較復(fù)雜的問題簡(jiǎn)單化丈牢，方便大家的入門祭钉。

1. RNA-Seq定量過程中的比較問題

我們?cè)?a target="_blank">BBQ-34的時(shí)候討論過RNA-Seq的方法論相關(guān)的問題，就是RNA-Seq的基本假設(shè)是什么己沛？簡(jiǎn)單來說就是 細(xì)胞/組織/個(gè)體的兩種不同狀態(tài)進(jìn)行比較慌核，比較的目的就是尋找差異表達(dá)gene，然后從差異表達(dá)gene來推斷造成生理狀態(tài)不同的原因申尼。

而我們的RNA-Seq一般情況下是針對(duì)mRNA以及帶polyA的lncRNA進(jìn)行建庫(kù)測(cè)序分析的垮卓。那么理論上把測(cè)序的FASTQ文件mapping到參考基因組上，再結(jié)合參考基因組的GTF/GFF文件就可以找到全基因組的每一個(gè)gene上mapping到了多少個(gè)reads count师幕。

拿到了reads count以后粟按，我們就會(huì)嘗試著想要比較gene之間的表達(dá)量的關(guān)系，但是這時(shí)候往往會(huì)面臨兩個(gè)問題霹粥，舉個(gè)例子：

問題1: 比如我有g(shù)ene3灭将，有1000條測(cè)序reads，gene4有2000條測(cè)序reads蒙挑，那么我能否說gene4就一定比gene3的表達(dá)量高宗侦？（圖1 gene3 與 gene4）
問題2: 比如我有g(shù)ene1，有1000條測(cè)序reads忆蚀，我的另一個(gè)處理?xiàng)l件下gene2有2000條測(cè)序reads矾利，我能否就說geneA在處理?xiàng)l件下表達(dá)量降低了？（圖1 gene1與gene2）

在面臨這些比較問題的時(shí)候馋袜，我們就需要對(duì)mapping到gene的reads count進(jìn)行矯正男旗，至少根據(jù)問題1我們知道應(yīng)該在矯正的時(shí)候考慮過gene長(zhǎng)度的問題；根據(jù)問題2欣鳖，我們大概應(yīng)該能夠猜想到察皇，矯正的時(shí)候應(yīng)該需要考慮整體測(cè)序量的問題。到此泽台，RPKM和FPKM這兩個(gè)指標(biāo)就應(yīng)運(yùn)而生了什荣。

image

<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">圖1 ( Manuel Garber et al., Nature Methods, 2011 )</figcaption>

2. 什么是RPKM與FPKM？

RPKM = Reads Per Kilobase per Million mapped reads

假設(shè)回貼到geneA 的 reads count為 CountA怀酷，geneA的exon總長(zhǎng)度為L(zhǎng)en(A) Kbp稻爬，總的測(cè)序量為D兆reads，那么：

geneA RPKM = CountA / Len(A) / D * 10^9

那么什么是FPKM呢蜕依？先來看一下FPKM的定義：

FPKM = Fragments Per Kilobase per Million mapped reads

大家可以比較清楚看出來桅锄，RPKM中的R指的是Reads琉雳，F(xiàn)PKM中的F是指Fragments，Reads都比較好理解友瘤，就是我們的測(cè)序短的片段翠肘，那么fragment是什么呢？這是以為我們現(xiàn)在測(cè)序一般來說都是測(cè)雙端測(cè)序（paired-end sequencing）辫秧，那么在mapping回參考基因組的時(shí)候就會(huì)有兩條reads束倍，分別是read1和read2，分別來源于建庫(kù)打斷的5' 端和3'端茶没。那么這2條reads就可以在參考基因組上確定1個(gè)小的片段肌幽，這個(gè)片段就叫fragment（圖2所示）晚碾。

image

<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">圖2 （Frances S. Turner）</figcaption>

所以抓半，如果是現(xiàn)在最常用的雙端測(cè)序，1個(gè)gene的FPKM應(yīng)該等于RPKM / 2格嘁。

3. RPKM / FPKM有什么優(yōu)缺點(diǎn)笛求？

因?yàn)楝F(xiàn)在使用Illumina測(cè)序平臺(tái)，絕大多數(shù)的測(cè)序都是使用雙端測(cè)序糕簿，那么基本上我們一般對(duì)gene進(jìn)行定量都是使用FPKM來進(jìn)行探入。FPKM的優(yōu)點(diǎn)大家都很了解了，能夠矯正掉gene長(zhǎng)度以及測(cè)序深度對(duì)gene表達(dá)定量的影響懂诗，那么FPKM的缺點(diǎn)大家是否熟悉呢蜂嗽？

一個(gè)比較容易被人提及的問題是對(duì)于不同批次測(cè)序的結(jié)果，所有g(shù)ene的FPKM的總和不是一個(gè)固定的值殃恒。比如WT 測(cè)的所有g(shù)ene的FPKM總和可能是10000植旧，treat組測(cè)到的FPKM總和可能是15000，這樣對(duì)于WT和treat組之間的差異表達(dá)gene的尋找就有可能出現(xiàn)問題离唐，這個(gè)時(shí)候就需要用到我們常用的另一種矯正方法TPM病附。

4. 提問環(huán)節(jié)

好了，相信通過今天的介紹亥鬓，大家能夠?qū)PKM與RPKM有一個(gè)比較清楚的認(rèn)識(shí)了完沪。我做一個(gè)簡(jiǎn)單的小提問：請(qǐng)用最簡(jiǎn)單，最直白的語言描述“geneA的FPKM是10”的測(cè)序意義嵌戈。

最后編輯于：2020.05.26 15:43:54

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末覆积，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子熟呛，更是在濱河造成了極大的恐慌宽档，老刑警劉巖，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件惰拱，死亡現(xiàn)場(chǎng)離奇詭異雌贱，居然都是意外死亡啊送，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門欣孤，熙熙樓的掌柜王于貴愁眉苦臉地迎上來馋没，“玉大人，你說我怎么就攤上這事降传∨穸洌” “怎么了？”我有些...
開封第一講書人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵婆排，是天一觀的道長(zhǎng)声旺。經(jīng)常有香客問我，道長(zhǎng)段只，這世上最難降的妖魔是什么腮猖？我笑而不...
開封第一講書人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮赞枕，結(jié)果婚禮上澈缺，老公的妹妹穿的比我還像新娘。我一直安慰自己炕婶，他們只是感情好姐赡，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著柠掂，像睡著了一般项滑。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上涯贞，一...
開封第一講書人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說
那天枪狂，我揣著相機(jī)與錄音，去河邊找鬼肩狂。笑死摘完，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的傻谁。我是一名探鬼主播孝治，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼审磁！你這毒婦竟也來了谈飒？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,927評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤态蒂，失蹤者是張志新（化名）和其女友劉穎杭措，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體钾恢，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡手素，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年鸳址，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片泉懦。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡稿黍，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出崩哩，到底是詐尸還是另有隱情巡球，我是刑警寧澤，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布邓嘹，位于F島的核電站酣栈，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏汹押。R本人自食惡果不足惜矿筝，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望鲸阻。院中可真熱鬧跋涣，春花似錦缨睡、人聲如沸鸟悴。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評(píng)論 0贊 19
一樁弒父案奖年，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽细诸。三九已至，卻和暖如春陋守，著一層夾襖步出監(jiān)牢的瞬間震贵，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國(guó)打工水评，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留猩系，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓中燥，卻偏偏與公主長(zhǎng)得像寇甸，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子疗涉，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345