日期:2019年2月2日——2019-Week5
分類:「綜述+資源」
題目:A primer on deep learning in genomics
DOI: https://doi.org/10.1038/s41588-018-0295-5
雜志:Nature genetics,21 December 2018
關(guān)鍵詞: Deep learning仿村,genomics
深度學(xué)習(xí)是機器學(xué)習(xí)的一個變異愚争,其使用神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)集中自動提取新的特征缓溅。目前成功應(yīng)用于圖像識別纳寂、機器人(如無人駕駛)阵面,在大數(shù)據(jù)研究中也發(fā)揮著重要的作用芋齿。隨著測序技術(shù)的發(fā)展锥累,生命組學(xué)的數(shù)據(jù)爆發(fā)式增加,將深度學(xué)習(xí)作為基因組學(xué)領(lǐng)域的工具是完全合適的迈喉,雖然目前仍然處于研究初期階段绍刮,但是深度學(xué)習(xí)在癌癥診斷和治療、臨床遺傳學(xué)挨摸、作物改良录淡、流行病學(xué)和公共衛(wèi)生、人口遺傳學(xué)油坝、進化或系統(tǒng)發(fā)育分析以及功能基因組學(xué)等領(lǐng)域展現(xiàn)出巨大潛在應(yīng)用價值嫉戚。
這篇文章對深度學(xué)習(xí)在基因組學(xué)中的應(yīng)用提供了一個入門指導(dǎo),包括以下幾方面內(nèi)容:
- 深度學(xué)習(xí)的基本概念和方法
- 如何有效的使用深度學(xué)習(xí)
- 解讀深度學(xué)習(xí)模型
- 深度學(xué)習(xí)在基因組中的應(yīng)用
- 深度學(xué)習(xí)的工具資源
- 基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測DNA-binding motifs的交互教程
1. 深度學(xué)習(xí)的基本概念和方法
- 監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)
機器學(xué)習(xí)的任務(wù)可以歸結(jié)為兩類:監(jiān)督(supervised)和無監(jiān)督(unsupervised)澈圈。監(jiān)督學(xué)習(xí)的目標(biāo)是通過一個帶標(biāo)簽的訓(xùn)練集預(yù)測每個數(shù)據(jù)點的標(biāo)簽(分類)或者響應(yīng)(回歸)彬檀;無監(jiān)督學(xué)習(xí),像聚類和PCA瞬女,是學(xué)習(xí)數(shù)據(jù)本身的內(nèi)在模式和特點窍帝。大多數(shù)機器學(xué)習(xí)的最終目標(biāo)是優(yōu)化模型,使其不僅適用于訓(xùn)練集诽偷,也適用于其他數(shù)據(jù)集坤学,提高模型的普適性疯坤。 - 訓(xùn)練集、驗證集和測試集
基于以上目標(biāo)深浮,數(shù)據(jù)通常分為三種類型:訓(xùn)練集压怠、驗證集和測試集。訓(xùn)練集用于調(diào)整模型參數(shù)飞苇,驗證集用于選取最優(yōu)模型菌瘫,測試集用于評估模型的普適性效果。機器學(xué)習(xí)在模型靈活性和訓(xùn)練集數(shù)據(jù)量之間必須達到一個平衡布卡。 - 深度學(xué)習(xí)
大型神經(jīng)網(wǎng)絡(luò)—深度學(xué)習(xí)的一種主要形式是機器學(xué)習(xí)算法的一類雨让,可以用于預(yù)測和降維。用于基因組學(xué)中的深度學(xué)習(xí)和標(biāo)準(zhǔn)的機器學(xué)習(xí)方法的不同在于:深度學(xué)習(xí)模型有更高的能力和更多的靈活性忿等。 - 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)的起點是一個人工神經(jīng)元栖忠,它以一個實數(shù)向量作為輸入,然后計算這些值的加權(quán)平均值贸街,然后進行非線性變換,可以得到一個簡單的閾值匾浪。權(quán)重是訓(xùn)練期間學(xué)習(xí)的模型參數(shù)卷哩。神經(jīng)網(wǎng)絡(luò)的力量源于高度模塊化和可組合單個神經(jīng)元蛋辈,一個神經(jīng)元的輸出可以直接作為另一個神經(jīng)元的輸入将谊,神經(jīng)元組合起來就形成一個神經(jīng)網(wǎng)絡(luò)。 - 神經(jīng)網(wǎng)絡(luò)的三個主要架構(gòu):前饋尊浓、卷積和遞歸
有三個常見的架構(gòu)家族用于連接神經(jīng)元網(wǎng)絡(luò)化:前饋、卷積和遞歸(feed-forward, convolutional and recurrent)栋齿。
前饋是最簡單的架構(gòu),第i層的每一個神經(jīng)元只與第i+1層的神經(jīng)元相連瓦堵,并且所有的連接邊緣都可以有不同的權(quán)重。前饋結(jié)構(gòu)適用于輸入數(shù)據(jù)特征之間沒有特殊關(guān)系時的預(yù)測問題菇用。
卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)在輸入矩陣中掃描一個神經(jīng)元惋鸥,在輸入的每個位置悍缠,CNN計算局部加權(quán)和并產(chǎn)生一個輸出值耐量。這個過程類似于從DNA序列中獲取motif時使用的位置權(quán)重矩陣。CNN適用于輸入數(shù)據(jù)中某些空間不變的模式拴鸵。
遞歸神經(jīng)網(wǎng)絡(luò)(RNN玷坠,Recurrent neural networks ) 適用于順序或時間序列的數(shù)據(jù)。在序列中的每一點劲藐,可應(yīng)用一個前饋或卷積的神經(jīng)網(wǎng)絡(luò)來產(chǎn)生一個內(nèi)部信號八堡,該信號也被送入RNN的下一步。RNN的隱藏層可以被視為內(nèi)存狀態(tài)聘芜,它保留以前觀察到的序列中的信息兄渺,并在每個時間步驟中更新。
有一些用于無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)汰现,最常見的是執(zhí)行非線性降維的自動編碼器挂谍。
相關(guān)術(shù)語:
2. 如何有效的使用深度學(xué)習(xí)
- 首先設(shè)計一個合適的訓(xùn)練數(shù)據(jù)集并選擇合適的評價指標(biāo)
- 需要領(lǐng)域的專業(yè)知識
深度學(xué)習(xí)的主要元素和指導(dǎo):
- 大的訓(xùn)練集(通常數(shù)千個樣本),去除混雜或污染
- 主要架構(gòu):feed-forward, convolutional and recurrent
- 大多數(shù)基因組數(shù)據(jù)不需要很深的網(wǎng)絡(luò)
- 必須對數(shù)據(jù)的高精度保持警惕如由于不平衡或偏差使分類過于簡單的
- 與簡單的機器學(xué)習(xí)比較在同一數(shù)據(jù)集上的模型
- 深度學(xué)習(xí)可以實現(xiàn)高精度瞎饲,但是解釋的時候比標(biāo)準(zhǔn)的統(tǒng)計模型困難
3. 解讀深度學(xué)習(xí)模型
在基因組學(xué)中的應(yīng)用口叙,研究者更關(guān)心的是預(yù)測模型揭示的生物機制。
如對于CNN來說嗅战,還可以可視化每個卷積過濾器作為熱圖或位置權(quán)重矩陣圖像妄田,這些可視化有助于了解網(wǎng)絡(luò)正在學(xué)習(xí)的特征。
4.深度學(xué)習(xí)在基因組中的應(yīng)用
- 染色質(zhì)可及性和轉(zhuǎn)錄調(diào)控
- Khodabandelou, G., Mozziconacci, J. & Routhier, E. Genome functional
annotation using deep convolutional neural network. Preprint at https://www.
biorxiv.org/content/early/2018/05/25/330308 (2018).- Kelley, D. R., Snoek, J. & Rinn, J. L. Basset: learning the regulatory code of the accessible genome with deep convolutional neural networks. Genome Res. 26, 990–999 (2016).
- Quang, D. & Xie, X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res. 44, e107 (2016).
- Li, Y., Shi, W. & Wasserman, W. W. Genome-wide prediction of cis-regulatory regions using supervised deep learning methods. BMC Bioinformatics 19,202 (2018).
- 從基因型數(shù)據(jù)預(yù)測基因表達的模型
Xie, R., Wen, J., Quitadamo, A., Cheng, J. & Shi, X. A deep auto-encoder
model for gene expression prediction. BMC Genomics 18 (Suppl. 9),
845 (2017)
- 研究剪切模式模型
Jha, A., Gazzara, M. R. & Barash, Y. Integrative deep models for alternative
splicing. Bioinformatics 33, i274–i282 (2017).
- 鑒定lncRNA
- Tripathi, R., Patel, S., Kumari, V., Chakraborty, P. & Varadwaj, P. K.
DeepLNC, a long non-coding RNA prediction tool using deep neural
network. Netw. Model. Anal. Health Inform. Bioinform. 5, 21 (2016).- Yu, N., Yu, Z. & Pan, Y. A deep learning method for lincRNA detection using auto-encoder algorithm. BMC Bioinformatics 18 (Suppl. 15), 511 (2017).
- Hill, S. T. et al. A deep recurrent neural network discovers complex biological rules to decipher RNA protein-coding potential. Nucleic Acids Res. 46, 8105–8113 (2018).
- 研究單細(xì)胞中調(diào)控機制驮捍,如甲基化疟呐,亞型分析
- Wang, Y. et al. Predicting DNA methylation state of CpG dinucleotide using
genome topological features and deep networks. Sci. Rep. 6, 19598 (2016).- Angermueller, C., Lee, H. J., Reik, W. & Stegle, O. DeepCpG: accurate
prediction of single-cell DNA methylation states using deep learning. Genome
Biol. 18, 67 (2017).- Shaham, U. et al. Removal of batch effects using distribution-matching
residual networks. Bioinformatics 33, 2539–2546 (2017).- Lin, C., Jain, S., Kim, H. & Bar-Joseph, Z. Using neural networks for reducing the dimensions of single-cell RNA-Seq data. Nucleic Acids Res. 45, e156 (2017).
- 基因組高級結(jié)構(gòu)
- Wang, Y. et al. Predicting DNA methylation state of CpG dinucleotide using
genome topological features and deep networks. Sci. Rep. 6, 19598 (2016).- Schreiber, J., Libbrecht, M., Bilmes, J. & Noble, W. Nucleotide sequence and DNaseI sensitivity are predictive of 3D chromatin architecture. Preprint at
https://www.biorxiv.org/content/early/2017/01/30/103614 (2017).
- 基因組變異
如:DeepVariant,從短讀長序列中利用CNN找變異
Poplin, R. et al. Creating a universal SNP and small indel variant caller with
deep neural networks. Preprint at https://www.biorxiv.org/content/
early/2018/03/20/092890 (2017).
還有基于長讀長的數(shù)據(jù)利用深度學(xué)習(xí)進行base calling的技術(shù)东且,如:
- Bo?a, V., Brejová, B. & Vina?, T. DeepNano: deep recurrent neural networks for base calling in MinION nanopore reads. PLoS One 12, e0178751 (2017).
- Teng, H., Hall, M.B., Duarte, T., Cao, M.D. & Coin, L. Chiron: translating
nanopore raw signal directly into nucleotide sequence using deep learning.
Preprint at https://www.biorxiv.org/content/early/2017/08/23/179531 (2017).
- 預(yù)測非編碼元件變異的功能結(jié)果
DeepSEA除了可以預(yù)測非編碼元件變異的功能結(jié)果启具,還可以用于自閉癥譜系障礙的調(diào)節(jié)變異的研究。
ExPecto可以從200多種組織和細(xì)胞類型中預(yù)測基因表達水平和序列的變異效應(yīng)
- Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, 931–934 (2015).
- Zhou, J. et al. Whole-genome deep learning analysis reveals causal role of
noncoding mutations in autism. Preprint at https://www.biorxiv.org/content/
early/2018/05/11/319681 (2018).- Zhou, J. et al. Deep learning sequence-based ab initio prediction of variant
effects on expression and disease risk. Nat. Genet. 50, 1171–1179 (2018).
5. 深度學(xué)習(xí)的工具資源
6. 基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測DNA-binding motifs的交互教程
https://colab.research.google.com/drive/17E4h5aAOioh5DiTo7MZg4hpL6Z_0FyWr