前言
對跨物種的RNA-seq進(jìn)行標(biāo)準(zhǔn)化和差異分析已知是一個問題,而目前對此類問題的相關(guān)研究還比較少豆茫,有用RPKM進(jìn)行各物種之間標(biāo)準(zhǔn)化的牺氨,也有基于count文件利用DESeq2的標(biāo)準(zhǔn)化方法對各物種進(jìn)行標(biāo)準(zhǔn)化的锅铅,而今天介紹的方法來自于文章:《A statistical normalization method and differential expression analysis for RNA-seq data between different species》
跨物種基因
首先,對于同一物種相同基因的比較层玲,由于其基因長度和功能都一樣,因此可以直接比較反症;而對于跨物種的RNA-seq比較來說辛块,一般選取直系同源的基因來比較
跨物種RNA-seq基本模型
首先,作者定義基本模型如下:
其中:
- E(Xgkt) 代表物種 t 中文庫 k 基因 g 基因觀測到的count值的期望(均值铅碍;上式右邊可以看作為對 μgk 求均值的過程憨降,因此式子左邊用 E(Xgkt) 表示,另外一層意思參照下面的泊松分布模型)该酗;
- Xgkt 代表物種 t 中文庫 k 基因 g 觀測到的count
- μgkt 代表物種 t 中文庫 k 基因 g 的真實(shí)表達(dá)水平授药;
- Lgkt 代表物種 t 中文庫 k 基因 g 的基因長度;
- St 代表
Nt 代表物種 t 中呜魄,文庫 k 的所有基因count數(shù)總和悔叽;
上面的模型建立了物種 t 中文庫 k 基因 g 的真實(shí)表達(dá)水平與觀測值之間的關(guān)系,有助于下一步的標(biāo)準(zhǔn)化及差異分析
跨物種RNA-seq標(biāo)準(zhǔn)化及差異分析
首先對于兩個物種的直系同源基因的比較爵嗅,我們有如下假設(shè):
那么H0對應(yīng)該基因沒有差異表達(dá)娇澎,H1對應(yīng)該基因發(fā)生了差異表達(dá);之前我們說 Xgkt 代表物種 t 中文庫 k 基因 g 觀測到的count睹晒,那么事實(shí)上對于其中兩個物種的直系同源基因趟庄,我們需要對每一個基因的真實(shí)表達(dá)值(count值)假設(shè)一個分布,方便后續(xù)的假設(shè)檢驗(yàn)伪很,作者這里利用的是泊松分布
因此定義泊松分布的參數(shù):
這里的泊松分布模型可以理解為對 Xgkt 做多次測量戚啥,最終對 Xgkt 做的一個頻率分布(橫坐標(biāo)為 Xgkt ,縱坐標(biāo)為頻率)服從泊松分布
基于上面的模型锉试,我們可以對H0做恒等變換猫十,所以我們的假設(shè)問題就轉(zhuǎn)變成為了:
所以滿足H0的直系同源基因,我們認(rèn)為是沒有差異的呆盖;否則就是有差異的
跨物種RNA-seq差異分析p值計(jì)算
又由于當(dāng)我們獲得實(shí)際測的數(shù)據(jù)后拖云,對于兩個物種來說,滿足:
即 Xgk1 + Xgk2 等于一個定值应又,因此我們可以引入伯努利實(shí)驗(yàn)的思想宙项,構(gòu)建二項(xiàng)分布:
- Xgk1 代表物種 t 中文庫 k 基因 g 觀測到的count
- xgk1 代表從 1—ngk 的count數(shù)
其中:
則p值計(jì)算如下:
所謂p值,本質(zhì)上就是比較括號內(nèi)前一項(xiàng)比后一項(xiàng)大的概率
Xgkt 表示實(shí)際觀測到的在物種 1 中文庫 k 基因 g 觀測到的count數(shù)
xgk1 代表從 1—ngk 的count數(shù)株扛;即計(jì)算 xgk1 取從 1—ngk 的count數(shù)時尤筐,(1)比(2)大的概率邑贴,即為p值
最后附上該文章的R包鏈接:SCBN