RNA-seq中的基因表達(dá)量計(jì)算和表達(dá)差異分析

原文鏈接：RNA-seq中的基因表達(dá)量計(jì)算和表達(dá)差異分析-生物知識(shí)學(xué)習(xí) (biotechknowledgestudy.com)

差異分析的步驟：

1）比對(duì)尉咕；

2） read count計(jì)算年缎；

3） read count的歸一化单芜；

4）差異表達(dá)分析洲鸠；

背景知識(shí)：

1）比對(duì)：

普通比對(duì)： BWA馋缅，SOAP

開(kāi)大GAP比對(duì)：Tophat（Bowtie2）萤悴；

2） Read count(多重比對(duì)的問(wèn)題）：

丟棄

平均分配

利用Unique region估計(jì)并重新分配

表達(dá)量計(jì)算的本質(zhì)

目標(biāo)基因表達(dá)量相對(duì)參照系表達(dá)量的數(shù)值覆履。

參照的本質(zhì)：

（ 1）假設(shè)樣本間參照的信號(hào)值應(yīng)該是相同的；

（ 2）將樣本間參照的觀測(cè)值校正到同一水平栖雾；

（ 3）從參照的數(shù)值析藕，校正并推算出其他觀測(cè)量的值噪径。

例如：Qpcr:目標(biāo)基因表達(dá)量（循環(huán)數(shù)）相對(duì)看家基因表達(dá)量（循環(huán)數(shù)）数初；RNA-seq:目標(biāo)基因的表達(dá)量（測(cè)序reads數(shù)）泡孩，相對(duì)樣本RNA總表達(dá)量（總測(cè)序量的reads數(shù)）仑鸥，這是最常用的標(biāo)準(zhǔn)。

歸一化的原因及處理原則：

1）基因長(zhǎng)度

2）測(cè)序量

3）樣本特異性（例如意狠，細(xì)胞mRNA總量环戈，污染等）前兩者使用普通的RPKM算法就可以良好解決院塞，關(guān)鍵是第三個(gè)問(wèn)題性昭，涉及到不同的算法處理糜颠。

RNA-Seq歸一化算法的意義：

基因表達(dá)量歸一化：在高通量測(cè)序過(guò)程中，樣品間在數(shù)據(jù)總量鞠抑、基因長(zhǎng)度搁拙、基因數(shù)目箕速、高表達(dá)基因分布甚至同一個(gè)基因的不同轉(zhuǎn)錄本分布上存在差別朋譬。因此不能直接比較表達(dá)量徙赢，必須將數(shù)據(jù)進(jìn)行歸一化處理探越。

RNA-seq差異表達(dá)分析的一般原則

1）不同樣品的基因總表達(dá)量相似

2）上調(diào)差異表達(dá)與下調(diào)差異表達(dá)整體數(shù)量相似（上下調(diào)差異平衡）

3）在兩組樣品中不受處理效應(yīng)影響的基因钦幔，表達(dá)量應(yīng)該是相近的（差異不顯著）鲤氢。

4）看家基因可作為表達(dá)量評(píng)價(jià)依據(jù)（待定）

不同的算法比較：

以什么數(shù)值來(lái)衡量表達(dá)量：RPKM卷玉、FPKM相种、TPM

以什么作為參照標(biāo)準(zhǔn)：TMM（edgeR軟件）品姓、De seq矯正

RPKM：是Reads Per Kilobase per Million mapped reads的縮寫(xiě)缭黔，代表每百萬(wàn)reads中來(lái)自于某基因每千堿基長(zhǎng)度的reads數(shù)。

本質(zhì)：1）以reads數(shù)為計(jì)算單位别渔；

2）對(duì)基因長(zhǎng)度（基因間的比較）和總數(shù)據(jù)量（樣本間的比較）做矯正哎媚；

RPKM的弊端

1）由于可變剪切拨与，同一基因有效轉(zhuǎn)錄區(qū)域長(zhǎng)度未必相同（這個(gè)一般情況下可以不考慮买喧，了解一下：Cufflinks軟件考慮了這個(gè)問(wèn)題）優(yōu)化策略：外顯子或轉(zhuǎn)錄本水平的表達(dá)量分析淤毛。

2）使用reads數(shù)計(jì)算基因表達(dá)量有輕微誤差（這里暫不展開(kāi)算柳，主要了解一下定義）優(yōu)化策略：FPKM或 TPM

3） mRNA的總量未必相等。

RPKM的優(yōu)化：FPKm

F = Fragment何荚，即測(cè)序片段數(shù)量餐塘。這些片段都是從完整的cDNA打碎而來(lái)的胁孙；

本質(zhì)：以文庫(kù)中的片段數(shù)量為計(jì)算單位在Paired-end測(cè)序中涮较，一個(gè)fragment就是兩條PE reads構(gòu)成的片段冈止。由于是PE比對(duì)熙暴，理論上比SE比對(duì)更可靠。

RPKM的優(yōu)化：TPM

T = Transcripts

本質(zhì)：以轉(zhuǎn)錄本的條數(shù)為計(jì)算單位掂器。使用轉(zhuǎn)錄本的條數(shù)（或者說(shuō)：轉(zhuǎn)錄本的測(cè)序深度）国瓮，代替reads數(shù)狞谱，在一定條件下定量更準(zhǔn)跟衅，尤其樣本間表達(dá)基因總數(shù)差異很大的時(shí)候（例如，對(duì)照樣本有1萬(wàn)個(gè)基因表達(dá)掰读，另外處理組僅有4000個(gè)基因表達(dá)）叭莫。

mRNA總量未必相等

mRNA總量不等——細(xì)胞本身不同

例如：活躍組織vs休眠的組織食寡；癌細(xì)胞vs正常細(xì)胞

mRNA總量不等——污染

例如：核糖體污染外源RNA污染

解決方法——不同算法比較

其中歸一化算法介紹：

1）Total Count（TC）：總reads數(shù)矯正

2）Upper Quartile（UQ）：上四分之一分位數(shù)（總reads）

矯正

3）Median（Med）；中位數(shù)（總reads數(shù)）矯正

4）Quantile (Q)：基因芯片軟件limma中的校正算法善榛；

5）RPKM：總reads數(shù)，但引入了基因長(zhǎng)度

6）幾何平均數(shù)：Deseq軟件中的算法悼院；

7）TMM：edgeR軟件中的算法咒循；

8）RPKM

邏輯1：不同位置數(shù)值的穩(wěn)定性不同

四分位數(shù)quartile:將數(shù)據(jù)按從小到大排列颖医，并分成四等分，這樣得到3個(gè)分割點(diǎn)熔萧，第一個(gè)分割點(diǎn)叫做lowerquartile佛致，第二個(gè)叫Media俺榆，第三個(gè)叫Upper quartile

很顯然装哆，極大值具有極大不穩(wěn)定性，而且可能會(huì)顯著影

響總體之和（假設(shè)爹殊，我們之中有個(gè)馬云梗夸，我們的總收入

有什么變化号醉？）

所以，Upper quartile和Median的數(shù)值铅碍，比總表達(dá)量之

和更加穩(wěn)定胞谈，更適合作為參照。

邏輯2：表達(dá)量居中的基因的表達(dá)量值卿捎，其數(shù)值應(yīng)該是相似的午阵。

DESeq與edgeR底桂，默認(rèn)情況下都使用這一的邏輯校正惧眠。（DESeq and edgeR Bioconductor packages）

Deseq：異常高表達(dá)的基因，會(huì)顯著影響細(xì)胞中的總mRNA的數(shù)量猫十。類(lèi)似的呆盖，如果樣本中受到不同程度的外源RNA应又，如病毒乏苦、真菌等的污染汇荐，也會(huì)顯著影響樣本總mRNA數(shù)，導(dǎo)致RPMK值的誤差旬蟋。對(duì)于這樣的問(wèn)題革娄，Deseq嘗試對(duì)數(shù)據(jù)進(jìn)行矯正（矯正因子）拦惋，使表達(dá)量處于中間位置的基因表達(dá)量應(yīng)該是基本相同的（即使用表達(dá)量處于中間的基因表達(dá)量值作為參照，而減少高表達(dá)基因的作用）首尼。

Deseq：?校正因子=樣本表達(dá)中位數(shù)/所有樣本表達(dá)量中位數(shù)：回答了一個(gè)關(guān)鍵的問(wèn)題：Deseq不同差異比較組間软能，計(jì)算得到的表達(dá)量值不同。因

為樣本在變化破加，“所有樣本表達(dá)量的中位數(shù)”也在變動(dòng)范舀。RPKM：總表達(dá)量為參照

Deseq：中位數(shù)為參照

TMM（edgeR）：與Deseq類(lèi)似锭环，在去除高表達(dá)基因和差異最大的基因后泊藕，TMM也是要找到一個(gè)加權(quán)系數(shù)娃圆，使剩余的基因在被矯正后差異倍數(shù)可能小讼呢。TMM的加權(quán)系數(shù)是基于兩兩樣本比較后推算獲得的（也就是兩組樣本的比較，將產(chǎn)生與這次比較相關(guān)的加權(quán)系數(shù)）节沦。然后將所有基因除以這個(gè)加權(quán)系數(shù)甫贯，從而保證大部分表達(dá)量居中的基因表達(dá)量最相似叫搁。

不同RNA-seq表達(dá)量歸一化算法的區(qū)別

Deseq類(lèi)的校正算法：理論上更加穩(wěn)定失乾；但不同批次的比較會(huì)得到不同的表達(dá)量值碱茁，不利于進(jìn)行多處理組/批次數(shù)據(jù)的統(tǒng)一分析（例如，趨勢(shì)分析墓贿、共表達(dá)分析）校正會(huì)掩蓋一些問(wèn)題（例如：樣本污染）

RPKM類(lèi)的算法：?容易受異常高表達(dá)基因聋袋、外源污染等的干擾；但也更容易從結(jié)果的異常中幽勒，發(fā)現(xiàn)潛在問(wèn)題嗜侮；得到的表達(dá)量值是恒定的，多處理組/批次的數(shù)據(jù)可以合并分析啥容。折中的方法：使用RPKM類(lèi)的算法锈颗，但需要人工檢查數(shù)據(jù)是否

異常。備注： Deseq軟件也可以關(guān)閉校正的功能咪惠。

實(shí)際經(jīng)驗(yàn)總結(jié)

總之：從多方面考慮击吱，RPKM類(lèi)算法，如果合理使用遥昧，依然是最優(yōu)的覆醇。具體問(wèn)題具體分析：在遇到問(wèn)題的時(shí)候，找到問(wèn)題的來(lái)源炭臭，從而給出解決方案（沒(méi)有完美的流程永脓，只有最佳解決方案）

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末憨奸，一起剝皮案震驚了整個(gè)濱河市似芝，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌寞奸，老刑警劉巖，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件割坠，死亡現(xiàn)場(chǎng)離奇詭異湘今，居然都是意外死亡蔫饰，警方通過(guò)查閱死者的電腦和手機(jī)蚪拦，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)括袒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)芥炭，“玉大人痢士，你說(shuō)我怎么就攤上這事善延≡奘” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵肤京，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我重斑，道長(zhǎng)漾脂，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任傲须，我火速辦了婚禮已卸，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘愧哟。我一直安慰自己，他們只是感情好端衰，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說(shuō)
那天伴挚，我揣著相機(jī)與錄音田弥，去河邊找鬼只泼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤谢谦，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體捉捅，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谈为。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤闸英，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響亲族，放射性物質(zhì)發(fā)生泄漏瓤帚。R本人自食惡果不足惜朝扼，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一懂缕、第九天我趴在偏房一處隱蔽的房頂上張望弱睦。院中可真熱鬧火惊，春花似錦张症、人聲如沸兆衅。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0贊 19
一樁弒父案鸠删，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)烘贴。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背官扣。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留嗦哆，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親尚骄。傳聞我的和親對(duì)象是個(gè)殘疾皇子鹉动，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345

RNA-seq中的基因表達(dá)量計(jì)算和表達(dá)差異分析

RNA-seq中的基因表達(dá)量計(jì)算和表達(dá)差異分析

RPKM的弊端

RPKM的優(yōu)化：TPM

推薦閱讀更多精彩內(nèi)容