一句話總結(jié):基于CNN糠雨,用啟動(dòng)子序列預(yù)測(cè)mRNA豐度
研究背景
穩(wěn)態(tài)的mRNA豐度由很多調(diào)控因子所決定辣恋,重點(diǎn)在于選用哪種關(guān)鍵機(jī)制來準(zhǔn)確預(yù)測(cè)mRNA豐度潘酗。相關(guān)研究表明啟動(dòng)子序列單獨(dú)解釋了人類大部分基因表達(dá)的變異瞭空。本文的方向是希望僅用基因序列的信息預(yù)測(cè)mRNA豐度,這里結(jié)合的是啟動(dòng)子序列和mRNA穩(wěn)定性相關(guān)序列特征的信息(圖1)揪阿。
圖1::Xpresso 輸入輸出概覽
模型結(jié)構(gòu)
Xpresso的結(jié)構(gòu)就是傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),先是兩個(gè)連續(xù)的卷積層和池化層咆畏,接著兩個(gè)全連接層南捂,最后輸出mRNA豐度的對(duì)數(shù)形式。輸入用的是在TSS(轉(zhuǎn)錄起始點(diǎn))周圍區(qū)域的基因序列(圖2)旧找。
圖2:Xpresso 架構(gòu)
后續(xù)實(shí)驗(yàn)
(關(guān)注模型泛化能力)
- 跨物種測(cè)試
選取了18377個(gè)人類基因和21856個(gè)小鼠基因溺健。先在一種物種上訓(xùn)練模型,之后在另一種物種上測(cè)試钮蛛,結(jié)果和在同種物種數(shù)據(jù)上測(cè)試結(jié)果相近鞭缭。這個(gè)發(fā)現(xiàn)表明所學(xué)到的調(diào)控原則在哺乳動(dòng)物物種中是普遍適用的。 - 細(xì)胞內(nèi)測(cè)試
用同樣的參數(shù)在三種細(xì)胞類型上訓(xùn)練模型魏颓,一些基因的預(yù)測(cè)值比真實(shí)值要低岭辣, 這里認(rèn)為是有其余調(diào)控因子未被考慮進(jìn)模型,比如距離TSS較遠(yuǎn)的基因片段(遠(yuǎn)端增強(qiáng)子等)甸饱。
總結(jié)
文章主要想強(qiáng)調(diào)DNA序列可以用來預(yù)測(cè)mRNA豐度沦童。之后做了很多生物上的insight。算是為后續(xù)這個(gè)方向的研究給了一個(gè)baseline叹话。