「文獻05」深度學(xué)習(xí)應(yīng)用于基因組學(xué)的入門指導(dǎo)

日期：2019年2月2日——2019-Week5
分類：「綜述+資源」
題目：A primer on deep learning in genomics
DOI: https://doi.org/10.1038/s41588-018-0295-5
雜志：Nature genetics，21 December 2018
關(guān)鍵詞： Deep learning仿村，genomics

深度學(xué)習(xí)是機器學(xué)習(xí)的一個變異愚争，其使用神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)集中自動提取新的特征缓溅。目前成功應(yīng)用于圖像識別纳寂、機器人（如無人駕駛）阵面，在大數(shù)據(jù)研究中也發(fā)揮著重要的作用芋齿。隨著測序技術(shù)的發(fā)展锥累，生命組學(xué)的數(shù)據(jù)爆發(fā)式增加，將深度學(xué)習(xí)作為基因組學(xué)領(lǐng)域的工具是完全合適的迈喉，雖然目前仍然處于研究初期階段绍刮，但是深度學(xué)習(xí)在癌癥診斷和治療、臨床遺傳學(xué)挨摸、作物改良录淡、流行病學(xué)和公共衛(wèi)生、人口遺傳學(xué)油坝、進化或系統(tǒng)發(fā)育分析以及功能基因組學(xué)等領(lǐng)域展現(xiàn)出巨大潛在應(yīng)用價值嫉戚。

這篇文章對深度學(xué)習(xí)在基因組學(xué)中的應(yīng)用提供了一個入門指導(dǎo)，包括以下幾方面內(nèi)容：

深度學(xué)習(xí)的基本概念和方法
如何有效的使用深度學(xué)習(xí)
解讀深度學(xué)習(xí)模型
深度學(xué)習(xí)在基因組中的應(yīng)用
深度學(xué)習(xí)的工具資源
基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測DNA-binding motifs的交互教程

1. 深度學(xué)習(xí)的基本概念和方法

監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)
機器學(xué)習(xí)的任務(wù)可以歸結(jié)為兩類：監(jiān)督（supervised）和無監(jiān)督（unsupervised）澈圈。監(jiān)督學(xué)習(xí)的目標(biāo)是通過一個帶標(biāo)簽的訓(xùn)練集預(yù)測每個數(shù)據(jù)點的標(biāo)簽（分類）或者響應(yīng)（回歸）彬檀；無監(jiān)督學(xué)習(xí)，像聚類和PCA瞬女，是學(xué)習(xí)數(shù)據(jù)本身的內(nèi)在模式和特點窍帝。大多數(shù)機器學(xué)習(xí)的最終目標(biāo)是優(yōu)化模型，使其不僅適用于訓(xùn)練集诽偷，也適用于其他數(shù)據(jù)集坤学，提高模型的普適性疯坤。
訓(xùn)練集、驗證集和測試集
基于以上目標(biāo)深浮，數(shù)據(jù)通常分為三種類型：訓(xùn)練集压怠、驗證集和測試集。訓(xùn)練集用于調(diào)整模型參數(shù)飞苇，驗證集用于選取最優(yōu)模型菌瘫，測試集用于評估模型的普適性效果。機器學(xué)習(xí)在模型靈活性和訓(xùn)練集數(shù)據(jù)量之間必須達到一個平衡布卡。
深度學(xué)習(xí)
大型神經(jīng)網(wǎng)絡(luò)—深度學(xué)習(xí)的一種主要形式是機器學(xué)習(xí)算法的一類雨让，可以用于預(yù)測和降維。用于基因組學(xué)中的深度學(xué)習(xí)和標(biāo)準(zhǔn)的機器學(xué)習(xí)方法的不同在于：深度學(xué)習(xí)模型有更高的能力和更多的靈活性忿等。
神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)的起點是一個人工神經(jīng)元栖忠，它以一個實數(shù)向量作為輸入，然后計算這些值的加權(quán)平均值贸街，然后進行非線性變換，可以得到一個簡單的閾值匾浪。權(quán)重是訓(xùn)練期間學(xué)習(xí)的模型參數(shù)卷哩。神經(jīng)網(wǎng)絡(luò)的力量源于高度模塊化和可組合單個神經(jīng)元蛋辈，一個神經(jīng)元的輸出可以直接作為另一個神經(jīng)元的輸入将谊，神經(jīng)元組合起來就形成一個神經(jīng)網(wǎng)絡(luò)。
神經(jīng)網(wǎng)絡(luò)的三個主要架構(gòu)：前饋尊浓、卷積和遞歸
有三個常見的架構(gòu)家族用于連接神經(jīng)元網(wǎng)絡(luò)化：前饋、卷積和遞歸（feed-forward, convolutional and recurrent）栋齿。
前饋是最簡單的架構(gòu)，第i層的每一個神經(jīng)元只與第i+1層的神經(jīng)元相連瓦堵，并且所有的連接邊緣都可以有不同的權(quán)重。前饋結(jié)構(gòu)適用于輸入數(shù)據(jù)特征之間沒有特殊關(guān)系時的預(yù)測問題菇用。
卷積神經(jīng)網(wǎng)絡(luò)（CNN，convolutional neural network）在輸入矩陣中掃描一個神經(jīng)元惋鸥，在輸入的每個位置悍缠，CNN計算局部加權(quán)和并產(chǎn)生一個輸出值耐量。這個過程類似于從DNA序列中獲取motif時使用的位置權(quán)重矩陣。CNN適用于輸入數(shù)據(jù)中某些空間不變的模式拴鸵。
遞歸神經(jīng)網(wǎng)絡(luò)（RNN玷坠，Recurrent neural networks ) 適用于順序或時間序列的數(shù)據(jù)。在序列中的每一點劲藐，可應(yīng)用一個前饋或卷積的神經(jīng)網(wǎng)絡(luò)來產(chǎn)生一個內(nèi)部信號八堡，該信號也被送入RNN的下一步。RNN的隱藏層可以被視為內(nèi)存狀態(tài)聘芜，它保留以前觀察到的序列中的信息兄渺，并在每個時間步驟中更新。
有一些用于無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)汰现，最常見的是執(zhí)行非線性降維的自動編碼器挂谍。

深度學(xué)習(xí)的工作流

相關(guān)術(shù)語：

2. 如何有效的使用深度學(xué)習(xí)

首先設(shè)計一個合適的訓(xùn)練數(shù)據(jù)集并選擇合適的評價指標(biāo)
需要領(lǐng)域的專業(yè)知識

深度學(xué)習(xí)的主要元素和指導(dǎo)：

大的訓(xùn)練集（通常數(shù)千個樣本），去除混雜或污染
主要架構(gòu)：feed-forward, convolutional and recurrent
大多數(shù)基因組數(shù)據(jù)不需要很深的網(wǎng)絡(luò)
必須對數(shù)據(jù)的高精度保持警惕如由于不平衡或偏差使分類過于簡單的
與簡單的機器學(xué)習(xí)比較在同一數(shù)據(jù)集上的模型
深度學(xué)習(xí)可以實現(xiàn)高精度瞎饲，但是解釋的時候比標(biāo)準(zhǔn)的統(tǒng)計模型困難

3. 解讀深度學(xué)習(xí)模型

在基因組學(xué)中的應(yīng)用口叙，研究者更關(guān)心的是預(yù)測模型揭示的生物機制。
如對于CNN來說嗅战，還可以可視化每個卷積過濾器作為熱圖或位置權(quán)重矩陣圖像妄田，這些可視化有助于了解網(wǎng)絡(luò)正在學(xué)習(xí)的特征。

4.深度學(xué)習(xí)在基因組中的應(yīng)用

染色質(zhì)可及性和轉(zhuǎn)錄調(diào)控

Khodabandelou, G., Mozziconacci, J. & Routhier, E. Genome functional
annotation using deep convolutional neural network. Preprint at https://www.
biorxiv.org/content/early/2018/05/25/330308 (2018).

Kelley, D. R., Snoek, J. & Rinn, J. L. Basset: learning the regulatory code of the accessible genome with deep convolutional neural networks. Genome Res. 26, 990–999 (2016).

Quang, D. & Xie, X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res. 44, e107 (2016).

Li, Y., Shi, W. & Wasserman, W. W. Genome-wide prediction of cis-regulatory regions using supervised deep learning methods. BMC Bioinformatics 19,202 (2018).

從基因型數(shù)據(jù)預(yù)測基因表達的模型

Xie, R., Wen, J., Quitadamo, A., Cheng, J. & Shi, X. A deep auto-encoder
model for gene expression prediction. BMC Genomics 18 (Suppl. 9),
845 (2017)

研究剪切模式模型

Jha, A., Gazzara, M. R. & Barash, Y. Integrative deep models for alternative
splicing. Bioinformatics 33, i274–i282 (2017).

鑒定lncRNA

Tripathi, R., Patel, S., Kumari, V., Chakraborty, P. & Varadwaj, P. K.
DeepLNC, a long non-coding RNA prediction tool using deep neural
network. Netw. Model. Anal. Health Inform. Bioinform. 5, 21 (2016).

Yu, N., Yu, Z. & Pan, Y. A deep learning method for lincRNA detection using auto-encoder algorithm. BMC Bioinformatics 18 (Suppl. 15), 511 (2017).

Hill, S. T. et al. A deep recurrent neural network discovers complex biological rules to decipher RNA protein-coding potential. Nucleic Acids Res. 46, 8105–8113 (2018).

研究單細(xì)胞中調(diào)控機制驮捍，如甲基化疟呐，亞型分析

Wang, Y. et al. Predicting DNA methylation state of CpG dinucleotide using
genome topological features and deep networks. Sci. Rep. 6, 19598 (2016).

Angermueller, C., Lee, H. J., Reik, W. & Stegle, O. DeepCpG: accurate
prediction of single-cell DNA methylation states using deep learning. Genome
Biol. 18, 67 (2017).

Shaham, U. et al. Removal of batch effects using distribution-matching
residual networks. Bioinformatics 33, 2539–2546 (2017).

Lin, C., Jain, S., Kim, H. & Bar-Joseph, Z. Using neural networks for reducing the dimensions of single-cell RNA-Seq data. Nucleic Acids Res. 45, e156 (2017).

基因組高級結(jié)構(gòu)

Wang, Y. et al. Predicting DNA methylation state of CpG dinucleotide using
genome topological features and deep networks. Sci. Rep. 6, 19598 (2016).

Schreiber, J., Libbrecht, M., Bilmes, J. & Noble, W. Nucleotide sequence and DNaseI sensitivity are predictive of 3D chromatin architecture. Preprint at
https://www.biorxiv.org/content/early/2017/01/30/103614 (2017).

基因組變異
如：DeepVariant，從短讀長序列中利用CNN找變異

Poplin, R. et al. Creating a universal SNP and small indel variant caller with
deep neural networks. Preprint at https://www.biorxiv.org/content/
early/2018/03/20/092890 (2017).

還有基于長讀長的數(shù)據(jù)利用深度學(xué)習(xí)進行base calling的技術(shù)东且，如：

Bo?a, V., Brejová, B. & Vina?, T. DeepNano: deep recurrent neural networks for base calling in MinION nanopore reads. PLoS One 12, e0178751 (2017).

Teng, H., Hall, M.B., Duarte, T., Cao, M.D. & Coin, L. Chiron: translating

nanopore raw signal directly into nucleotide sequence using deep learning.
Preprint at https://www.biorxiv.org/content/early/2017/08/23/179531 (2017).

預(yù)測非編碼元件變異的功能結(jié)果
DeepSEA除了可以預(yù)測非編碼元件變異的功能結(jié)果启具，還可以用于自閉癥譜系障礙的調(diào)節(jié)變異的研究。
ExPecto可以從200多種組織和細(xì)胞類型中預(yù)測基因表達水平和序列的變異效應(yīng)

Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, 931–934 (2015).

Zhou, J. et al. Whole-genome deep learning analysis reveals causal role of
noncoding mutations in autism. Preprint at https://www.biorxiv.org/content/
early/2018/05/11/319681 (2018).

Zhou, J. et al. Deep learning sequence-based ab initio prediction of variant
effects on expression and disease risk. Nat. Genet. 50, 1171–1179 (2018).

5. 深度學(xué)習(xí)的工具資源

6. 基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測DNA-binding motifs的交互教程

https://colab.research.google.com/drive/17E4h5aAOioh5DiTo7MZg4hpL6Z_0FyWr

最后編輯于：2019.01.20 17:13:12

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末珊泳，一起剝皮案震驚了整個濱河市鲁冯，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌色查，老刑警劉巖薯演，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異综慎，居然都是意外死亡涣仿，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來好港，“玉大人愉镰，你說我怎么就攤上這事钧汹。” “怎么了碗降？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵讼渊，是天一觀的道長尊剔。經(jīng)常有香客問我，道長挨稿，這世上最難降的妖魔是什么京痢？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任祭椰，我火速辦了婚禮，結(jié)果婚禮上侣监，老公的妹妹穿的比我還像新娘臣淤。我一直安慰自己窃爷，他們只是感情好，可當(dāng)我...
茶點故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布医吊。她就那樣靜靜地躺著卿堂，像睡著了一般。火紅的嫁衣襯著肌膚如雪草描。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天饿敲，我揣著相機與錄音逛绵，去河邊找鬼。笑死瓢对，一個胖子當(dāng)著我的面吹牛胰苏，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播妓美，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼壶栋，長吁一口氣：“原來是場噩夢啊……” “哼普监！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起凯正，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎桑滩，沒想到半個月后允睹，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,400評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡胁澳，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年韭畸，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片胰丁。...
茶點故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖太防，靈堂內(nèi)的尸體忽然破棺而出酸员，到底是詐尸還是另有隱情，我是刑警寧澤酿愧，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布嬉挡，位于F島的核電站，受9級特大地震影響庞钢，放射性物質(zhì)發(fā)生泄漏基括。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望匠璧。院中可真熱鬧，春花似錦夷恍、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案执虹，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽袋励。三九已至，卻和暖如春茬故，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背赁炎。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工徙垫，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人姻报。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓吴旋，卻偏偏與公主長得像厢破，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子褂傀，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,722評論 2贊 345