「文獻05」深度學(xué)習(xí)應(yīng)用于基因組學(xué)的入門指導(dǎo)

日期:2019年2月2日——2019-Week5
分類:「綜述+資源」
題目:A primer on deep learning in genomics
DOI: https://doi.org/10.1038/s41588-018-0295-5
雜志:Nature genetics,21 December 2018
關(guān)鍵詞: Deep learning仿村,genomics

深度學(xué)習(xí)是機器學(xué)習(xí)的一個變異愚争,其使用神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)集中自動提取新的特征缓溅。目前成功應(yīng)用于圖像識別纳寂、機器人(如無人駕駛)阵面,在大數(shù)據(jù)研究中也發(fā)揮著重要的作用芋齿。隨著測序技術(shù)的發(fā)展锥累,生命組學(xué)的數(shù)據(jù)爆發(fā)式增加,將深度學(xué)習(xí)作為基因組學(xué)領(lǐng)域的工具是完全合適的迈喉,雖然目前仍然處于研究初期階段绍刮,但是深度學(xué)習(xí)在癌癥診斷和治療、臨床遺傳學(xué)挨摸、作物改良录淡、流行病學(xué)和公共衛(wèi)生、人口遺傳學(xué)油坝、進化或系統(tǒng)發(fā)育分析以及功能基因組學(xué)等領(lǐng)域展現(xiàn)出巨大潛在應(yīng)用價值嫉戚。

這篇文章對深度學(xué)習(xí)在基因組學(xué)中的應(yīng)用提供了一個入門指導(dǎo),包括以下幾方面內(nèi)容:

  • 深度學(xué)習(xí)的基本概念和方法
  • 如何有效的使用深度學(xué)習(xí)
  • 解讀深度學(xué)習(xí)模型
  • 深度學(xué)習(xí)在基因組中的應(yīng)用
  • 深度學(xué)習(xí)的工具資源
  • 基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測DNA-binding motifs的交互教程

1. 深度學(xué)習(xí)的基本概念和方法

  • 監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)
    機器學(xué)習(xí)的任務(wù)可以歸結(jié)為兩類:監(jiān)督(supervised)和無監(jiān)督(unsupervised)澈圈。監(jiān)督學(xué)習(xí)的目標(biāo)是通過一個帶標(biāo)簽的訓(xùn)練集預(yù)測每個數(shù)據(jù)點的標(biāo)簽(分類)或者響應(yīng)(回歸)彬檀;無監(jiān)督學(xué)習(xí),像聚類和PCA瞬女,是學(xué)習(xí)數(shù)據(jù)本身的內(nèi)在模式和特點窍帝。大多數(shù)機器學(xué)習(xí)的最終目標(biāo)是優(yōu)化模型,使其不僅適用于訓(xùn)練集诽偷,也適用于其他數(shù)據(jù)集坤学,提高模型的普適性疯坤。
  • 訓(xùn)練集、驗證集和測試集
    基于以上目標(biāo)深浮,數(shù)據(jù)通常分為三種類型:訓(xùn)練集压怠、驗證集和測試集。訓(xùn)練集用于調(diào)整模型參數(shù)飞苇,驗證集用于選取最優(yōu)模型菌瘫,測試集用于評估模型的普適性效果。機器學(xué)習(xí)在模型靈活性和訓(xùn)練集數(shù)據(jù)量之間必須達到一個平衡布卡。
  • 深度學(xué)習(xí)
    大型神經(jīng)網(wǎng)絡(luò)—深度學(xué)習(xí)的一種主要形式是機器學(xué)習(xí)算法的一類雨让,可以用于預(yù)測和降維。用于基因組學(xué)中的深度學(xué)習(xí)和標(biāo)準(zhǔn)的機器學(xué)習(xí)方法的不同在于:深度學(xué)習(xí)模型有更高的能力和更多的靈活性忿等。
  • 神經(jīng)網(wǎng)絡(luò)
    神經(jīng)網(wǎng)絡(luò)的起點是一個人工神經(jīng)元栖忠,它以一個實數(shù)向量作為輸入,然后計算這些值的加權(quán)平均值贸街,然后進行非線性變換,可以得到一個簡單的閾值匾浪。權(quán)重是訓(xùn)練期間學(xué)習(xí)的模型參數(shù)卷哩。神經(jīng)網(wǎng)絡(luò)的力量源于高度模塊化和可組合單個神經(jīng)元蛋辈,一個神經(jīng)元的輸出可以直接作為另一個神經(jīng)元的輸入将谊,神經(jīng)元組合起來就形成一個神經(jīng)網(wǎng)絡(luò)。
  • 神經(jīng)網(wǎng)絡(luò)的三個主要架構(gòu):前饋尊浓、卷積和遞歸
    有三個常見的架構(gòu)家族用于連接神經(jīng)元網(wǎng)絡(luò)化:前饋、卷積和遞歸(feed-forward, convolutional and recurrent)栋齿。
    前饋是最簡單的架構(gòu),第i層的每一個神經(jīng)元只與第i+1層的神經(jīng)元相連瓦堵,并且所有的連接邊緣都可以有不同的權(quán)重。前饋結(jié)構(gòu)適用于輸入數(shù)據(jù)特征之間沒有特殊關(guān)系時的預(yù)測問題菇用。
    卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)在輸入矩陣中掃描一個神經(jīng)元惋鸥,在輸入的每個位置悍缠,CNN計算局部加權(quán)和并產(chǎn)生一個輸出值耐量。這個過程類似于從DNA序列中獲取motif時使用的位置權(quán)重矩陣。CNN適用于輸入數(shù)據(jù)中某些空間不變的模式拴鸵。
    遞歸神經(jīng)網(wǎng)絡(luò)(RNN玷坠,Recurrent neural networks ) 適用于順序或時間序列的數(shù)據(jù)。在序列中的每一點劲藐,可應(yīng)用一個前饋或卷積的神經(jīng)網(wǎng)絡(luò)來產(chǎn)生一個內(nèi)部信號八堡,該信號也被送入RNN的下一步。RNN的隱藏層可以被視為內(nèi)存狀態(tài)聘芜,它保留以前觀察到的序列中的信息兄渺,并在每個時間步驟中更新。
    有一些用于無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)汰现,最常見的是執(zhí)行非線性降維的自動編碼器挂谍。
深度學(xué)習(xí)的工作流

相關(guān)術(shù)語:

2. 如何有效的使用深度學(xué)習(xí)

  • 首先設(shè)計一個合適的訓(xùn)練數(shù)據(jù)集并選擇合適的評價指標(biāo)
  • 需要領(lǐng)域的專業(yè)知識

深度學(xué)習(xí)的主要元素和指導(dǎo):

  • 大的訓(xùn)練集(通常數(shù)千個樣本),去除混雜或污染
  • 主要架構(gòu):feed-forward, convolutional and recurrent
  • 大多數(shù)基因組數(shù)據(jù)不需要很深的網(wǎng)絡(luò)
  • 必須對數(shù)據(jù)的高精度保持警惕如由于不平衡或偏差使分類過于簡單的
  • 與簡單的機器學(xué)習(xí)比較在同一數(shù)據(jù)集上的模型
  • 深度學(xué)習(xí)可以實現(xiàn)高精度瞎饲,但是解釋的時候比標(biāo)準(zhǔn)的統(tǒng)計模型困難

3. 解讀深度學(xué)習(xí)模型

在基因組學(xué)中的應(yīng)用口叙,研究者更關(guān)心的是預(yù)測模型揭示的生物機制。
如對于CNN來說嗅战,還可以可視化每個卷積過濾器作為熱圖或位置權(quán)重矩陣圖像妄田,這些可視化有助于了解網(wǎng)絡(luò)正在學(xué)習(xí)的特征。

4.深度學(xué)習(xí)在基因組中的應(yīng)用

  • 染色質(zhì)可及性和轉(zhuǎn)錄調(diào)控
  • Khodabandelou, G., Mozziconacci, J. & Routhier, E. Genome functional
    annotation using deep convolutional neural network. Preprint at https://www.
    biorxiv.org/content/early/2018/05/25/330308 (2018).
  • Kelley, D. R., Snoek, J. & Rinn, J. L. Basset: learning the regulatory code of the accessible genome with deep convolutional neural networks. Genome Res. 26, 990–999 (2016).
  • Quang, D. & Xie, X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res. 44, e107 (2016).
  • Li, Y., Shi, W. & Wasserman, W. W. Genome-wide prediction of cis-regulatory regions using supervised deep learning methods. BMC Bioinformatics 19,202 (2018).
  • 從基因型數(shù)據(jù)預(yù)測基因表達的模型

Xie, R., Wen, J., Quitadamo, A., Cheng, J. & Shi, X. A deep auto-encoder
model for gene expression prediction. BMC Genomics 18 (Suppl. 9),
845 (2017)

  • 研究剪切模式模型

Jha, A., Gazzara, M. R. & Barash, Y. Integrative deep models for alternative
splicing. Bioinformatics 33, i274–i282 (2017).

  • 鑒定lncRNA
  • Tripathi, R., Patel, S., Kumari, V., Chakraborty, P. & Varadwaj, P. K.
    DeepLNC, a long non-coding RNA prediction tool using deep neural
    network. Netw. Model. Anal. Health Inform. Bioinform. 5, 21 (2016).
  • Yu, N., Yu, Z. & Pan, Y. A deep learning method for lincRNA detection using auto-encoder algorithm. BMC Bioinformatics 18 (Suppl. 15), 511 (2017).
  • Hill, S. T. et al. A deep recurrent neural network discovers complex biological rules to decipher RNA protein-coding potential. Nucleic Acids Res. 46, 8105–8113 (2018).
  • 研究單細(xì)胞中調(diào)控機制驮捍,如甲基化疟呐,亞型分析
  • Wang, Y. et al. Predicting DNA methylation state of CpG dinucleotide using
    genome topological features and deep networks. Sci. Rep. 6, 19598 (2016).
  • Angermueller, C., Lee, H. J., Reik, W. & Stegle, O. DeepCpG: accurate
    prediction of single-cell DNA methylation states using deep learning. Genome
    Biol. 18, 67 (2017).
  • Shaham, U. et al. Removal of batch effects using distribution-matching
    residual networks. Bioinformatics 33, 2539–2546 (2017).
  • Lin, C., Jain, S., Kim, H. & Bar-Joseph, Z. Using neural networks for reducing the dimensions of single-cell RNA-Seq data. Nucleic Acids Res. 45, e156 (2017).
  • 基因組高級結(jié)構(gòu)
  • Wang, Y. et al. Predicting DNA methylation state of CpG dinucleotide using
    genome topological features and deep networks. Sci. Rep. 6, 19598 (2016).
  • Schreiber, J., Libbrecht, M., Bilmes, J. & Noble, W. Nucleotide sequence and DNaseI sensitivity are predictive of 3D chromatin architecture. Preprint at
    https://www.biorxiv.org/content/early/2017/01/30/103614 (2017).
  • 基因組變異
    如:DeepVariant,從短讀長序列中利用CNN找變異

Poplin, R. et al. Creating a universal SNP and small indel variant caller with
deep neural networks. Preprint at https://www.biorxiv.org/content/
early/2018/03/20/092890 (2017).

還有基于長讀長的數(shù)據(jù)利用深度學(xué)習(xí)進行base calling的技術(shù)东且,如:

  • Bo?a, V., Brejová, B. & Vina?, T. DeepNano: deep recurrent neural networks for base calling in MinION nanopore reads. PLoS One 12, e0178751 (2017).
  • Teng, H., Hall, M.B., Duarte, T., Cao, M.D. & Coin, L. Chiron: translating

nanopore raw signal directly into nucleotide sequence using deep learning.
Preprint at https://www.biorxiv.org/content/early/2017/08/23/179531 (2017).

  • 預(yù)測非編碼元件變異的功能結(jié)果
    DeepSEA除了可以預(yù)測非編碼元件變異的功能結(jié)果启具,還可以用于自閉癥譜系障礙的調(diào)節(jié)變異的研究。
    ExPecto可以從200多種組織和細(xì)胞類型中預(yù)測基因表達水平和序列的變異效應(yīng)
  • Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, 931–934 (2015).
  • Zhou, J. et al. Whole-genome deep learning analysis reveals causal role of
    noncoding mutations in autism. Preprint at https://www.biorxiv.org/content/
    early/2018/05/11/319681 (2018).
  • Zhou, J. et al. Deep learning sequence-based ab initio prediction of variant
    effects on expression and disease risk. Nat. Genet. 50, 1171–1179 (2018).

5. 深度學(xué)習(xí)的工具資源

6. 基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測DNA-binding motifs的交互教程

https://colab.research.google.com/drive/17E4h5aAOioh5DiTo7MZg4hpL6Z_0FyWr

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末珊泳,一起剝皮案震驚了整個濱河市鲁冯,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌色查,老刑警劉巖薯演,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異综慎,居然都是意外死亡涣仿,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來好港,“玉大人愉镰,你說我怎么就攤上這事钧汹。” “怎么了碗降?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵讼渊,是天一觀的道長尊剔。 經(jīng)常有香客問我,道長挨稿,這世上最難降的妖魔是什么京痢? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任祭椰,我火速辦了婚禮,結(jié)果婚禮上侣监,老公的妹妹穿的比我還像新娘臣淤。我一直安慰自己窃爷,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布医吊。 她就那樣靜靜地躺著卿堂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪草描。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天饿敲,我揣著相機與錄音逛绵,去河邊找鬼。 笑死瓢对,一個胖子當(dāng)著我的面吹牛胰苏,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播妓美,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼壶栋,長吁一口氣:“原來是場噩夢啊……” “哼普监!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起凯正,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎桑滩,沒想到半個月后允睹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡胁澳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年韭畸,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片胰丁。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖太防,靈堂內(nèi)的尸體忽然破棺而出酸员,到底是詐尸還是另有隱情,我是刑警寧澤酿愧,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布嬉挡,位于F島的核電站,受9級特大地震影響庞钢,放射性物質(zhì)發(fā)生泄漏基括。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望匠璧。 院中可真熱鬧,春花似錦夷恍、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽袋励。三九已至,卻和暖如春茬故,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背赁炎。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工徙垫, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人姻报。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓吴旋,卻偏偏與公主長得像厢破,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子褂傀,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容