必須要感嘆一下作者的牛逼,畢竟這年度一個人搞出一篇文章并且還發(fā)在頂刊上的獨行俠真的不多了,而且還不用帶任何一個人
Sequence-based modeling of three-dimensional genome architecture from kilobase to chromosome scale
Sequence-based modeling of three-dimensional genome architecture from kilobase to chromosome scale | Nature Genetics
從堿基序列到染色體尺度的基因組三維結(jié)構(gòu)序列建模
為了了解基因組序列如何影響多尺度三維(3D)基因組結(jié)構(gòu)窥翩,本手稿提出了一種基于序列的深度學(xué)習(xí)方法 Orca普泡,該方法可以直接從序列中預(yù)測從堿基序列到全染色體尺度的三維基因組結(jié)構(gòu)身腻。Orca 捕獲結(jié)構(gòu)的序列依賴性誊酌,包括染色質(zhì)區(qū)室和拓?fù)潢P(guān)聯(lián)結(jié)構(gòu)域,以及來自 CTCF 介導(dǎo)的增強子-啟動子相互作用和 Polycomb 介導(dǎo)的具有細胞類型特異性的相互作用的不同類型的相互作用分歇。Orca 能夠?qū)崿F(xiàn)各種應(yīng)用状您,包括預(yù)測結(jié)構(gòu)變異對多尺度基因組組織的影響勒叠,并概括了不同大小(300bp 至90Mb)的實驗研究變異的影響兜挨。此外,Orca 能夠在計算機上進行虛擬篩選眯分,以探測不同尺度的三維基因組組織的序列基礎(chǔ)拌汇。在亞兆堿基尺度上,它預(yù)測了細胞類型特異性基因組相互作用的特定轉(zhuǎn)錄因子基序弊决。在區(qū)室尺度上噪舀,序列活動的虛擬篩選提示了具有轉(zhuǎn)錄起始位點突出作用的染色質(zhì)區(qū)室序列基礎(chǔ)的模型。
Main
了解基因組序列如何在所有空間尺度上指導(dǎo)基因組折疊成3D 結(jié)構(gòu)將有助于解釋在正常和疾病狀態(tài)下基因組序列和基因組變異如何參與各種細胞過程(例如飘诗,基因表達調(diào)控与倡,DNA 復(fù)制和 DNA 修復(fù))。這種序列依賴性可能是多重的昆稿,因為3D 基因組組織的多個方面似乎對應(yīng)于不同的機制纺座。最顯著的是,染色質(zhì)區(qū)室通常以兆基尺度觀察到特征性的格子樣相互作用模式溉潭,其中區(qū)室 A 和 B 主要對應(yīng)于表達活性和非活性染色質(zhì)净响,其優(yōu)先與相同的區(qū)室相互作用。拓?fù)潢P(guān)聯(lián)域(TAD)通常位于100-kb 到1-Mb 的比例尺喳瓣,具有常見的嵌套結(jié)構(gòu)馋贤。
Orca 能夠預(yù)測不同類型的結(jié)構(gòu),包括 TAD夫椭,染色質(zhì) A/B 區(qū)室掸掸,Polycomb 介導(dǎo)的相互作用和啟動子-增強子相互作用氯庆。此外蹭秋,從基因組中的任何一對序列,染色體內(nèi)和染色體間的相互作用堤撵,可以用這種方法預(yù)測仁讨。
Orca 序列模型有效地提供了3D 基因組結(jié)構(gòu)的“計算觀察”,它的獨特在于:
(1)能夠預(yù)測任何大小的任何基因組變體在高通量下的多尺度3D 基因組組織效應(yīng)
(2)設(shè)計和執(zhí)行探測基于序列的多尺度基因組組織機制的“虛擬遺傳篩選”實驗实昨。
該模型在預(yù)測不同 SVs 的三維基因組效應(yīng)方面的能力得到了廣泛的研究洞豁,并應(yīng)用該模型為基于序列的局部基因組組織和染色質(zhì)區(qū)室形成的機制提供了設(shè)想。Orca序列建幕母框架為研究序列與多尺度三維基因組組織之間的相互作用提供了新的機遇丈挟。可通過過 https://github.com/jzhoulab/orca 查閱代碼及模型志电,亦可在 https://orca.zhoulab.io 使用方便易用的網(wǎng)頁版曙咽。
基于序列的多尺度三維基因組相互作用預(yù)測
多尺度的染色質(zhì)組織顯示出不同的特征,可能涉及不同的機制挑辆,通過深度學(xué)習(xí)捕獲從單個核苷酸到整個染色體的所有尺度的序列依賴性是一個前所未有的挑戰(zhàn)例朱。一個多尺度深度學(xué)習(xí)序列建男⑶椋框架,Orca洒嗤,首先被開發(fā)來解決這個挑戰(zhàn)箫荡。
為了預(yù)測整個基因組距離范圍,設(shè)計了一種“放大”樣級聯(lián)預(yù)測機制渔隶,以使超長距離相互作用能夠預(yù)測具有9種不同分辨率的較短距離相互作用(例如羔挡,1-Mb 距離4kb,2-Mb 距離8kb 和128-Mb 距離512kb)间唉。由于 Hi-C 型數(shù)據(jù)通常通過多分辨率矩陣表示 婉弹,并且通常基于較稀疏的測序讀數(shù)檢測較長距離的大規(guī)模結(jié)構(gòu)终吼,因此只能以較低的分辨率測量镀赌,所以設(shè)計了不同分辨率的多尺度結(jié)構(gòu)模型以適應(yīng)這些數(shù)據(jù)類型。
該模型結(jié)構(gòu)由層次式多分辨率序列編碼器和級聯(lián)式多級解碼器組成际跪。該編碼器采用多達256 Mb 的序列作為輸入商佛,并生成一系列分辨率從4到1,024 kb 的逐漸粗粒度的序列表示。多級解碼器預(yù)測頂級高達256-Mb 距離的相互作用姆打,其大于最長的人類染色體 chr1良姆,并且在底層的1-Mb 距離內(nèi)降至4-kb 分辨率的相互作用。通過使用多染色體輸入(Methods))幔戏,染色體間的相互作用也允許在32-256 Mb 水平玛追。補充圖1和代碼庫中提供了詳細的多尺度深度學(xué)習(xí)序列模型體系結(jié)構(gòu)規(guī)范。為了能夠擴展深度學(xué)習(xí)模型的訓(xùn)練和對大的染色體尺度序列的推斷闲延,設(shè)計了一種用于提高記憶效率的水平檢查點技術(shù)(Methods)痊剖,以允許訓(xùn)練模型即使當(dāng)內(nèi)部表示大小遠遠超過 GPU 內(nèi)存界限。
Orca 序列模型在 H1胚胎干細胞(H1-ESC)和人包皮成纖維細胞(HFFs)的micro-C 數(shù)據(jù)集上進行訓(xùn)練垒玲,這些數(shù)據(jù)集是迄今為止最高分辨率的數(shù)據(jù)集15陆馁。編碼器和解碼器分三個階段進行聯(lián)合訓(xùn)練,在這三個階段中合愈,前一階段訓(xùn)練的編碼器被凍結(jié)并用于后一階段的訓(xùn)練(Methods)叮贩。最終的模型預(yù)測從1到256Mb 在九個不同的尺度。每個模型由1-Mb佛析,1-32-Mb 和32-256-Mb 模塊組成益老,這些模塊可以一起使用或單獨使用以在應(yīng)用中提供靈活性: 1-32-Mb 模型是大多數(shù)應(yīng)用具有高精度和靈活性的主要模型; 32-256-Mb 模型對于預(yù)測染色體尺度和染色體間相互作用最有用; 1-Mb 模型對于快速篩選大量變體的局部基因組相互作用效應(yīng)是有用的。預(yù)測的交互矩陣得分表示基于距離的背景得分的對數(shù)倍寸莫,其中背景得分(也通常稱為預(yù)期得分)是相同基因組距離下的平均標(biāo)準(zhǔn)化接觸得分捺萌。在堅持測試染色體上,該模型與 H1-ESC 的所有尺度的實驗觀察結(jié)果一致地達到0.78 -0.85 Pearson 相關(guān)性储狭,與 HFF 的0.73 -0.79 Pearson 相關(guān)性互婿。預(yù)測染色體間相互作用的相關(guān)性為0.47 -0.74捣郊。編碼器序列表示用基因組相互作用預(yù)測和預(yù)測來自序列的相同細胞類型的染色質(zhì)可及性,CTCF 和組蛋白標(biāo)記峰的輔助任務(wù)進行訓(xùn)練慈参,這改善了性能呛牲。包含較大的序列上下文也提供了對局部基因組結(jié)構(gòu)的預(yù)測的一個小的改進。該模型還預(yù)測不同的細胞類型特異性基因組組織驮配。此外娘扩,在共享測試集上將亞兆基規(guī)模的預(yù)測與 Akita23進行比較眼滤,并觀察到 H1-ESC 和 HFF 的相關(guān)性改善向胡。為了更好地證明預(yù)測的準(zhǔn)確性和細胞類型特異性,在補充數(shù)據(jù)1中顯示了來自堅持染色體上位置的另外20個無偏見采樣的多尺度預(yù)測示例叮盘。
圖1: 從序列預(yù)測多尺度三維基因組結(jié)構(gòu)
A猜绣,用于基因組相互作用預(yù)測的深度學(xué)習(xí)模型體系結(jié)構(gòu)的示意圖概述灰殴。多分辨率的序列表示由分層編碼器以自下而上(高分辨率至低分辨率)的順序從序列開始計算,而基因組相互作用矩陣以自上而下的順序(低分辨率至高分辨率)從相應(yīng)級別的序列表示和更高級別的基因組相互作用預(yù)測預(yù)測掰邢。B牺陶,基于多尺度序列的預(yù)測實例從整個染色體放大到一個位置上的提供的測試染色體。從1-256-Mb 尺度的預(yù)測與micro-C實驗觀測進行了比較辣之。由于缺乏覆蓋率而導(dǎo)致的Micro-C 數(shù)據(jù)中的缺失值以灰色顯示掰伸,并且這些區(qū)域也在64-256-Mb 預(yù)測中表示,因為在主要裝配間隙或不可映射區(qū)域的預(yù)測具有未知的準(zhǔn)確性怀估。對于預(yù)測和實驗數(shù)據(jù)狮鸭,基因組相互作用用基于基因組距離的背景得分的對數(shù)倍表示。HFF 細胞類型的相同區(qū)域的預(yù)測也顯示在擴展數(shù)據(jù)圖1中多搀。C歧蕉,預(yù)測的相互作用分?jǐn)?shù)與Micro-C 測量的相互作用分?jǐn)?shù)在抗拒測試染色體上的散點圖比較。在每個面板中酗昼,顯示了10,000個隨機抽樣的分?jǐn)?shù)廊谓。整個測試染色體的皮爾遜相關(guān)性也被注釋。1-32-Mb 水平的預(yù)測來自 Orca 32-Mb 模型麻削,64-256-Mb 水平來自 Orca 256-Mb 模型。
Orca 序列模型能夠預(yù)測不同的基因組相互作用機制春弥,不僅包括基于 CTCF 的相互作用呛哟,還包括 Polycomb 介導(dǎo)的相互作用和啟動子-增強子相互作用。如來自提供染色體的幾個區(qū)域所示匿沛,Orca 模型以細胞類型特異性方式預(yù)測 Polycomb 介導(dǎo)的相互作用和啟動子-增強子相互作用扫责,這得到了相互作用和組蛋白標(biāo)記的實驗數(shù)據(jù)的支持。此外逃呼,本研究亦評估及比較由 CTCF 及組蛋白標(biāo)記染色質(zhì)免疫沉淀測序(ChIP-seq)數(shù)據(jù)注釋的不同基因組區(qū)域類型的基因組相互作用的模型預(yù)測表現(xiàn)鳖孤。這種預(yù)測非 CTCF 細胞類型特異性相互作用的能力可能有助于更好地理解細胞類型特異性調(diào)控的序列基礎(chǔ)者娱。
圖2: 基于多尺度序列的 SV 對基因組結(jié)構(gòu)影響的預(yù)測。
圖3: 基于亞兆堿基規(guī)模(submegabase-scale)基因組相互作用的細胞類型特異性基序的鑒定苏揣。
圖4: 染色質(zhì)區(qū)室序列依賴性的虛擬篩選分析確定了 TSS 序列的突出作用黄鳍。
討論
Orca 是一個基于基因組序列的全局預(yù)測模型框架,用于從堿基序列到整個染色體的跨空間尺度的三維基因組組織預(yù)測平匈。它可以預(yù)測任何基因組變異的基因組結(jié)構(gòu)影響框沟,包括大的結(jié)構(gòu)和拷貝數(shù)變異。Orca 準(zhǔn)確地概括了以前實驗研究過的變種的結(jié)構(gòu)影響增炭。隨著快速分析只需要序列的大量變異的潛力忍燥,它可以幫助加速研究 SVs 在健康和疾病中的作用。除了能夠大規(guī)模地預(yù)測變異效應(yīng)隙姿,這些捕獲3D 基因組相互作用結(jié)構(gòu)的序列依賴性的序列模型提供了用虛擬遺傳篩選探測基因組相互作用的序列水平機制的工具梅垄。
與三維基因組的多尺度空間組織一樣,序列依賴性預(yù)計會隨尺度而變化输玷。單個基序的序列決定因素似乎是強效 CTCF 基序和中到弱效組織特異性 TF 基序的組合哎甲,可能通過不同的機制。在數(shù)百個堿基對的長度上饲嗽,預(yù)測 TSS 序列具有建立區(qū)室 A 的活性炭玫。在6-12kb 及以上,擴展的 B 室序列或甚至隨機亂序列可以建立 B 室貌虾。最近實驗確定的最小長度的基因組片段維持室結(jié)構(gòu)是大約6-10 kb 吞加,這類似于誘導(dǎo)顯著的 A > B 區(qū)室變化所需的長度尺度。這可能表明這是區(qū)室化的潛在生物物理機制所需的一個關(guān)鍵長度尺度尽狠,可能是通過相分離衔憨。
從基于序列的角度來看,區(qū)室 A 似乎是需要特定序列模式的“活性”區(qū)室袄膏,因為廣泛的染色質(zhì)變化可能是由 TSS- 近端序列的插入引起的践图。相比之下,區(qū)室 B 似乎是“被動”區(qū)室沉馆,因為它需要沒有區(qū)室 A 活性的擴展序列码党,并且區(qū)室 B 結(jié)構(gòu)被預(yù)測為對序列的隨機排列具有魯棒性。請注意斥黑,這里的“主動”或“被動”的概念只表明序列依賴性特征揖盘,而不是分子機制,因為兩個區(qū)室的建立和維持可能涉及活性分子生物化學(xué)活動锌奴。這些假設(shè)仍有待于通過未來的實驗來驗證兽狭。此外,進一步的研究可能會擴展或修訂該模型中提出的染色質(zhì)區(qū)室的序列依賴性,例如對激活或抑制轉(zhuǎn)錄的序列的可能依賴性箕慧。
值得一提的是服球,這項研究存在一些局限性。盡管預(yù)測在大多數(shù)情況下密切重現(xiàn)了實驗觀察颠焦,但在某些情況下斩熊,它們?nèi)匀慌c觀察不同,超出了技術(shù)噪聲或校準(zhǔn)偽影所能解釋的范圍蒸健,如補充數(shù)據(jù)1所示座享。因此,在性能方面仍有進一步改進的空間似忧,并且新的基于序列的機制有望通過更高分辨率的數(shù)據(jù)和改進的模型被發(fā)現(xiàn)渣叛。其次,基于機器學(xué)習(xí)的方法盯捌,如 Orca淳衙,預(yù)計將捕獲在整個基因組中重復(fù)出現(xiàn)的序列模式依賴性,因此通過這種方法可能無法學(xué)習(xí)單獨適用于極少數(shù)甚至單個基因組基因座的基于序列的機制饺著。第三箫攀,當(dāng)“passenger”序列模式與driver驅(qū)動因素幾乎完全相關(guān)時,序列模型可能在學(xué)習(xí)正確的驅(qū)動序列模式方面面臨挑戰(zhàn)幼衰,即使該模型可以在相關(guān)性不太完美且訓(xùn)練數(shù)據(jù)足夠信息化的情況下識別正確的駕駛員靴跛。最后,由于目前Hi-C 讀數(shù)在高度重復(fù)區(qū)域的結(jié)構(gòu)的限制渡嚣,模型在這些區(qū)域中的預(yù)測無法被嚴(yán)格評估(模型通常預(yù)測這些區(qū)域的 B 室樣結(jié)構(gòu))梢睛。完整的人類基因組端到端組裝和長期閱讀測序技術(shù)可能允許在未來解決這一局限性。
Orca 序列模型還為設(shè)計基于序列的實驗提供了充足的新機會识椰,以用超出本手稿所探索的“虛擬遺傳篩選”來探測3D 基因組組織的序列依賴性绝葡,例如在特定基因座處以基對分辨率精細解剖序列以進行相互作用。這樣的分析可以通過這里發(fā)布的模型和代碼來完成腹鹉。更一般地說藏畅,我預(yù)計這種基于深度學(xué)習(xí)模型的方法,用于復(fù)雜生物過程的計算機模擬功咒,將成為生成生物系統(tǒng)假設(shè)的強大方法愉阎。
方法
用于多尺度三維基因組預(yù)測的 Orca 模型體系結(jié)構(gòu)
Orca 模型體系結(jié)構(gòu)由一個分層序列編碼器和一個多級級聯(lián)解碼器組成,旨在提供多尺度的一系列“縮放”預(yù)測(圖1)航瞭。分層序列編碼器將高達256Mb 的大輸入序列轉(zhuǎn)換為多分辨率的一系列序列表示形式诫硕。一系列級聯(lián)解碼器每個預(yù)測一個相互作用矩陣,它代表所有成對的基因組相互作用在一個窗口的不同大小從1到256 Mb 在不同的分辨率刊侯。所有預(yù)測的相互作用矩陣的大小為250 × 250,所有預(yù)測的分?jǐn)?shù)表示基于距離的背景下的對數(shù)倍锉走。每個級別的解碼器以相應(yīng)分辨率的序列編碼作為輸入滨彻。頂級解碼器以最低分辨率接收來自整個序列的輸入藕届,低級解碼器以較高分辨率接收序列表示。例如亭饵,32-Mb 級解碼器接收用于32-Mb 序列的128-kb 分辨率序列編碼休偶,1-Mb 級解碼器接收用于1-Mb 序列的4-kb 分辨率序列編碼。此外辜羊,除了頂級解碼器之外踏兜,低級解碼器還接收來自上級的預(yù)測作為輸入(例如,1-Mb 級解碼器接收2-Mb 級預(yù)測八秃,裁剪到1-Mb 區(qū)域) 碱妆,并且所有多級解碼器也接收距離編碼矩陣作為輸入。編碼器計算從自底向上通過(高分辨率到低分辨率)開始昔驱,從一個熱編碼的原始序列開始疹尾,然后是自頂向下通過以將更長的信息引入到更細的分辨率表示(補充圖1)。解碼器計算遵循自上而下的順序(長最大距離到短最大距離骤肛,低分辨率到高分辨率) 纳本,每個低級解碼器接收上級預(yù)測作為輸入。架構(gòu)和輸入在下面有更詳細的描述腋颠,模型的詳細架構(gòu)可以在補充圖1和代碼存儲庫中找到繁成。
編碼器和解碼器都是具有剩余連接的卷積網(wǎng)絡(luò)。層次序列編碼器在一維(1D)殘余卷積塊和最大合并層之間交替淑玫。更具體地說巾腕,序列編碼器的第一部分將一個熱序列編碼轉(zhuǎn)換為4-kb 分辨率的序列表示,其具有改編自 Sei 模型的卷積結(jié)構(gòu)42混移,其使用雙線性 + 非線性路徑設(shè)計祠墅,其在線性塊的頂部堆疊具有殘余連接的非線性塊(補充圖1)。編碼器的第一部分包含28個卷積層歌径,每個卷積層有64-128個通道毁嗦。以4-kb 分辨率的序列編碼作為輸入,編碼器的上部分創(chuàng)建了一系列4-kb回铛,8-kb狗准,... ,1,024-kb 分辨率的序列編碼茵肃,其因子為2腔长,具有類似的殘余塊結(jié)構(gòu),使用每分辨率4卷積層验残,128通道捞附。
為了在多尺度上預(yù)測二維(2D)相互作用矩陣,使用了一系列級聯(lián)序列解碼器,每個解碼器預(yù)測具有不同長度和分辨率的基因組相互作用矩陣鸟召。二維卷積體系結(jié)構(gòu)由二維殘余卷積塊組成胆绊,采用線性 + 非線性路徑設(shè)計。該二維卷積塊循環(huán)通過擴張因子1,2,4,8,16,32,64四個完整通道欧募,每個解碼器共有112個卷積層压状。較低級別的譯碼器接收來自相應(yīng)級別的序列表示的輸入、來自上一級別的交互矩陣預(yù)測以及作為輔助輸入的二維成對距離編碼矩陣跟继。通過成對和運算(Yij = Xi + Xj)將一維序列表示轉(zhuǎn)換為二維序列表示种冬。下層譯碼器預(yù)測一個子區(qū)域的窗口大小是上層預(yù)測窗口大小的一半,來自上層對應(yīng)于該區(qū)域的預(yù)測被上采樣2倍并作為輸入舔糖。對于編碼矩陣 D 的距離娱两,對于每種細胞類型,Dij 是染色體內(nèi)對{ i剩盒,j }的每個基因組距離 | i-j | 的基于對數(shù)距離的預(yù)期平衡接觸評分谷婆,并且染色體間對用平均染色體間對數(shù)的常數(shù)填充預(yù)期平衡接觸評分×闪模基于距離的期望得分為32-256Mb 單調(diào)轉(zhuǎn)換纪挎,使得得分較長的距離不高于較短的距離。距離編碼矩陣和來自上層的上采樣預(yù)測與二維序列表示相結(jié)合跟匆,通過串聯(lián)异袄,然后是卷積塊(補充圖1)。最終的模型預(yù)測是對稱的平均與其轉(zhuǎn)置玛臂。模型預(yù)測在正向補體序列和反向補體序列的預(yù)測之間取平均值烤蜕。
序列編碼器還輔以預(yù)測 DNase-seq 和 ChIP-seq 染色質(zhì)譜標(biāo)簽的輔助任務(wù),這提高了性能迹冤。為了同時預(yù)測染色質(zhì)譜標(biāo)簽和基因組相互作用讽营,引入了一個用于預(yù)測染色質(zhì)譜的一維卷積塊,該卷積塊接收來自序列編碼器的4-kb 分辨率輸出的輸入泡徙。
模型訓(xùn)練和評估
從4D Nucleome (4DN)數(shù)據(jù)門戶(登錄 ID 4DNFI9GMP2J8和4DNFI643OYP9)下載 H1-ESC 和 HFF 細胞的處理的micro-C 數(shù)據(jù)集橱鹏。從 GRCh38/hg38參考基因組中檢索到基因組序列。通過使用 Selene 深度學(xué)習(xí)序列建模庫從訓(xùn)練染色體中統(tǒng)一采樣基因組堪藐,在訓(xùn)練期間即時生成訓(xùn)練數(shù)據(jù)
Selene: a PyTorch-based deep learning library for sequence data | Nature Methods
為每個micro-C 數(shù)據(jù)集訓(xùn)練一個單獨的模型莉兰。動態(tài)采樣為每個訓(xùn)練步驟生成新的訓(xùn)練樣本。每個訓(xùn)練樣本包括一個序列(輸入)和相應(yīng)的多級距離歸一化接觸矩陣(目標(biāo)) 礁竞,這也被稱為基因組相互作用矩陣糖荒。
為了計算基因組相互作用矩陣,將迭代校正矩陣平衡算法和自適應(yīng)粗粒度程序應(yīng)用于從具有冷卻器和冷卻工具包的mirco-C 數(shù)據(jù)集中檢索的接觸矩陣模捂。自適應(yīng)粗链范洌化是一個預(yù)處理過程中實施的冷卻工具包蜘矢,平滑低覆蓋面積的接觸地圖與自適應(yīng)窗口大小和這一步驟消除零通過匯集讀取局部鄰域。沒有進一步的平滑應(yīng)用泉孩,以保持?jǐn)?shù)據(jù)的空間分辨率硼端。然后將處理后的矩陣除以背景矩陣并淋,背景矩陣是前一節(jié)描述的距離編碼矩陣的指數(shù)(所有操作都是單元操作) 寓搬,并將背景矩陣的最小值添加到數(shù)值穩(wěn)定性和分母中,以減少噪聲县耽。以距離為基礎(chǔ)的期望通過涼爽的工具計算每個染色體句喷,然后聚集在所有染色體上。距離-期望曲線超過1.6 Mb 的距離是平滑與低兔毙。將染色體分為訓(xùn)練集(除 chr8,9和10以外的所有染色體) 唾琼,驗證集(chr8)和測試集(chr9,10)。
主要的損失函數(shù)是預(yù)測和目標(biāo)之間的均方差澎剥,或者如下
其中預(yù)測和目標(biāo)都是250 × 250平方矩陣锡溯,N 表示矩陣中要平均的元素數(shù),范數(shù)符號表示 Frobenius 范數(shù)哑姚〖婪梗基因組相互作用矩陣中缺失的值,通常是由于覆蓋率低或沒有覆蓋叙量,在損失和梯度計算中被忽略倡蝙。還使用輔助的二進制交叉熵?fù)p失函數(shù)來訓(xùn)練4-kb 分辨率序列編碼以同時預(yù)測染色質(zhì)可及性和 ChIP-seq 染色質(zhì)配置文件標(biāo)簽,
其中targetc 是大小為 d × 250的二元染色質(zhì)配置文件目標(biāo)矩陣(d 是染色質(zhì)配置文件的數(shù)目) ,prediction_c 是相同大小的預(yù)測轉(zhuǎn)移矩陣绞佩,i 和 j 是矩陣的指數(shù)寺鸥,N 是矩陣中元素的總數(shù)。輔助損耗與主損耗函數(shù)同時訓(xùn)練在同一組序列上品山。使用的染色質(zhì)概況列表在補充表6中提供胆建。染色質(zhì)配置文件標(biāo)簽是為4-kb 箱生成的,并根據(jù)是否有任何峰與4-kb 箱重疊來標(biāo)記1或0肘交。
為了允許使用標(biāo)準(zhǔn)技術(shù)對不適合 GPU 內(nèi)存的大規(guī)模序列模型進行訓(xùn)練笆载,設(shè)計了一種水平檢查點方法,利用模型的層次結(jié)構(gòu)(Methods section ‘Scaling hierarchical deep-learning model training’ for details)酸些。其他訓(xùn)練優(yōu)化包括在 CPU 上并行生成訓(xùn)練數(shù)據(jù)宰译,以及隨機選擇正向補碼序列或反向補碼序列進行預(yù)測,這可以被視為從正向補碼序列和反向補碼序列平均預(yù)測的無偏隨機逼近魄懂。
考慮到模型應(yīng)用的靈活性和模型訓(xùn)練的有效性沿侈,將模型設(shè)計為三個可堆疊模塊(1 Mb,1-32 Mb市栗,32-256 Mb) 缀拭,分三個階段進行訓(xùn)練咳短。在第一階段,以4-kb 分辨率編碼的序列被預(yù)先訓(xùn)練蛛淋,任務(wù)是在4-kb 分辨率下預(yù)測1-Mb 距離內(nèi)的基因組相互作用咙好,并且輔助任務(wù)是預(yù)測相同分辨率下的染色質(zhì)譜標(biāo)簽(沒有輔助任務(wù)的粘附素耗盡的 HCT116模型被訓(xùn)練)。高達4kb 分辨率的編碼器和在第一階段訓(xùn)練的解碼器也稱為 Orca-1Mb褐荷。在第二階段勾效,使用來自1-Mb 模塊的序列編碼器的預(yù)先訓(xùn)練的第一部分,訓(xùn)練多尺度1-32-Mb 模型以預(yù)測1-Mb叛甫,2-Mb层宫,4-Mb,8-Mb其监,16-Mb 和32-Mb 水平萌腿。為了訓(xùn)練多尺度預(yù)測模型,選擇了一系列窗口尺寸越來越小抖苦、每個級別分辨率越來越高的子區(qū)域毁菱,或者稱為“縮放”系列。例如锌历,對于32-Mb 序列贮庞,隨機選擇16-Mb 次區(qū)域,然后隨機選擇16-Mb 區(qū)域內(nèi)的8-Mb 次區(qū)域辩涝,并持續(xù)到選擇1-Mb 區(qū)域贸伐。高達128kb 分辨率的編碼器和在第二階段訓(xùn)練的解碼器也稱為 Orca 32-Mb。在第三階段怔揩,對32-256-Mb 模型進行染色體內(nèi)和染色體間相互作用的訓(xùn)練捉邢,預(yù)先訓(xùn)練的序列編碼器從1-32-Mb 模型達到128-kb 分辨率。完整的編碼器和第三階段的解碼器也被稱為 Orca 256-Mb商膊。32-256-Mb 模型的訓(xùn)練數(shù)據(jù)通過以下過程從多條染色體中取樣: 首先取樣一條染色體伏伐,然后將該染色體的全長加入到序列中; 然后取樣另一條染色體,如果不超過256 Mb晕拆,則加入全長染色體藐翎,否則在該染色體上取樣總數(shù)為256 Mb 的一個分區(qū); 繼續(xù)添加新的染色體,直到256-Mb 序列被填滿; 隨機改變?nèi)有蛄衅蔚捻樞蚴的唬槊總€片段隨機選擇一個鏈方向; 檢索相應(yīng)的序列吝镣,染色體內(nèi)和染色體間基因組相互作用,以及如上所述的距離編碼昆庇。有隨機梯度下降的訓(xùn)練過程在第一階段大約需要480.000步(1-Mb 序列和批量大小16末贾,學(xué)習(xí)率0.002和動量0.98,最后1/3的步驟用隨機權(quán)重平均訓(xùn)練44) 整吆,第二階段需要150.000步(32-Mb 序列和批量大小4和學(xué)習(xí)率0.001和動量0.98) 拱撵,第三階段需要20.000步(256-Mb 序列和批量大小4和學(xué)習(xí)率0.001和動量0.98)辉川。培訓(xùn)硬件是一臺配備了四個 NVIDIA Tesla V10032 GB 圖形處理器的服務(wù)器。在代碼存儲庫中提供了用于訓(xùn)練 Orca 模型的代碼拴测,其中包含了實現(xiàn)的全部細節(jié)乓旗。
每個訓(xùn)練階段從處理到不同分辨率的Micro-C 數(shù)據(jù)中生成訓(xùn)練數(shù)據(jù)。從1-Mb 模型的1-kb 分辨率的Micro-C 接觸矩陣集索,1-32-Mb 模型的4-kb 分辨率和32-256-Mb 模型的32-kb 采樣訓(xùn)練數(shù)據(jù)屿愚,并且將這些高分辨率矩陣下采樣到解碼器的預(yù)測分辨率。下采樣是通過將折疊成一個的多個條目的平均值(不包括缺失的值)來執(zhí)行的抄谐。為了進一步減少過擬合渺鹦,訓(xùn)練的輸入序列通過1-Mb 模型的100bp 內(nèi)的隨機偏移移動,1-32-Mb 模型的1kb 和32-256-Mb 模型的4kb蛹含。
選擇的測試染色體的模型預(yù)測評估
為了評價模型對抗性測試染色體的預(yù)測性能,在測試染色體上系統(tǒng)地預(yù)測了多尺度基因組相互作用矩陣塞颁,并將預(yù)測結(jié)果與實測的micro-C 數(shù)據(jù)進行了比較浦箱。評估數(shù)據(jù)的處理過程與訓(xùn)練數(shù)據(jù)的生成過程相同。micro-C 目標(biāo)矩陣中缺少的值被排除在評估之外(缺少的值通常是由于覆蓋率低或沒有覆蓋)祠锣。由于通過上述分組過程從高分辨率矩陣中下采樣較低分辨率的目標(biāo)矩陣酷窥,所以通過從高分辨率矩陣中平均多個值來計算下采樣值,同時排除缺失值伴网,如果 > 25% 的這些值丟失蓬推,則在評估中也跳過下采樣值。具體而言澡腾,為了評估1-32-Mb 水平的預(yù)測沸伏,測試集染色體用32-Mb 窗口以0.5 Mb 的步長平鋪。對于每個32-Mb 窗口动分,通過依次放大到位于高級區(qū)域中心的每個16-Mb毅糟,8-Mb,4-Mb澜公,2-Mb姆另,1-Mb 子窗口,在從1Mb 到32Mb 的所有尺度上預(yù)測基因組相互作用坟乾。所有的預(yù)測矩陣被連接和平坦化迹辐,并且在預(yù)測和micro-C 觀測之間計算 Pearson 相關(guān)性。將1-32-Mb 模型的1-Mb 級性能與相同的1-Mb 窗口上的1-Mb 模塊預(yù)測進行了比較甚侣。
為了評估染色體內(nèi)32-256-Mb 尺度的預(yù)測明吩,首先產(chǎn)生兩個含有測試染色體的256-Mb 序列,其余的256-Mb 長度用來自 chr1的序列填充(僅評估染色體內(nèi)相互作用)渺绒。對于128-Mb贺喝、64-Mb 和32-Mb 水平的預(yù)測菱鸥,使用與步長為5,120 kb 的測試染色體平鋪相同的起始位置。超出測試染色體邊界的窗口將從計算中丟棄躏鱼。
為了評估32-256-Mb 尺度預(yù)測的染色體間預(yù)測氮采,多染色體256-Mb 序列是通過從測試染色體和串聯(lián)隨機取樣序列片段構(gòu)建的。具體而言染苛,每個序列片段的長度在64-128Mb 之間隨機均勻選擇鹊漠,當(dāng)總長度超過256Mb 時,將最后一個片段截斷為256Mb茶行,然后隨機改變采樣片段的順序躯概。據(jù)此構(gòu)造了距離編碼矩陣。然后畔师,構(gòu)建100個256Mb 序列娶靡,并產(chǎn)生放大到每個256Mb 序列中心的多尺度預(yù)測(選擇每個256Mb 序列中心的128-Mb,64-Mb看锉,32-Mb 區(qū)域)姿锭。只評估了染色體間的預(yù)測。
為了與 Akita 在submegabase-scale 的預(yù)測進行比較伯铣,來自 Akita 的預(yù)測是在其同樣位于 Orca 測試染色體9和10的測試集樣品上生成的呻此。然后用 Orca 1-32-Mb 模型生成相同基因組區(qū)域的虎鯨預(yù)測,并且只使用1-Mb 水平的預(yù)測腔寡。Orca 1-Mb 水平的預(yù)測和目標(biāo)基因組相互作用矩陣使用雙線性上采樣(因子為2)進行調(diào)整焚鲜,并裁剪到秋田輸出區(qū)域,然后應(yīng)用具有 Sigma 1和核大小5的額外高斯濾波并剪切到(- 2,2)以匹配秋田數(shù)據(jù)處理步驟放前。對于每個測試樣本忿磅,背景減去皮爾遜相關(guān)性計算秋田目標(biāo)和虎鯨目標(biāo)處理如上所述。為了計算背景減去皮爾遜相關(guān)性犀斋,對于任何預(yù)測或目標(biāo)矩陣贝乎,在計算相關(guān)性之前,每個得分被相同距離的同一矩陣中的平均得分減去叽粹。背景減法在保持基因組結(jié)構(gòu)信息方面效果最小览效,提高了對不同數(shù)據(jù)預(yù)處理的魯棒性。
分層深度學(xué)習(xí)模型的擴展訓(xùn)練
為了將深度學(xué)習(xí)序列模型擴展到數(shù)百兆字節(jié)虫几,設(shè)計了一種可擴展的高效記憶訓(xùn)練算法锤灿,以顯著降低記憶需求。如補充圖25所示辆脸,深度學(xué)習(xí)的常規(guī)訓(xùn)練過程是分層的但校,并將所有內(nèi)部表示存儲在計算梯度的內(nèi)存中,這導(dǎo)致對大型模型輸入的內(nèi)存需求極高啡氢。檢查點是一種節(jié)省內(nèi)存的技術(shù)状囱,首先用于高層數(shù)的剩余網(wǎng)絡(luò)45术裸。通過檢查點,只存儲檢查點層上的內(nèi)部表示亭枷,當(dāng)需要梯度計算時袭艺,可以動態(tài)地重新計算其他內(nèi)部表示。然而叨粘,即使使用檢查點技術(shù)猾编,對于非常大的序列輸入,訓(xùn)練仍然是不可行的升敲,因為計算的內(nèi)存需求甚至只有一個序列的第一層超出了目前可用的 GPU 的最大容量答倡。
利用序列模型的層次結(jié)構(gòu),通過在水平塊中執(zhí)行它們并只存儲塊的輸出驴党,可以大大減少使用最多內(nèi)存的底層的內(nèi)存消耗瘪撇。這種方法將下層的內(nèi)存使用固定到計算塊所需的內(nèi)存上,最小塊大小是塊輸出層的接收字段(為了計算效率鼻弧,推薦的大小至少是最小值的兩倍)设江。例如,Orca 序列編碼器的4-kb 分辨率層輸出的接收字段為212 kb攘轩,小于32 Mb 的1/150或256 Mb 的1/1,200,從而大大減少了內(nèi)存使用码俩。因為底層的內(nèi)存消耗數(shù)量級比上層大度帮,這基本上解決了 Orca 模型的內(nèi)存消耗問題,并允許我們擴展到和超越整個染色體尺度的輸入稿存。我將這種技術(shù)稱為水平檢查點笨篷。水平檢查點被用來允許模型擴展到大輸入,用于訓(xùn)練和預(yù)測 Orca 32-Mb 和 Orca 256-Mb 模型瓣履。水平檢查點還允許在模型訓(xùn)練期間進行梯度計算率翅,雖然由于訓(xùn)練時間的增加,這種能力在當(dāng)前模型中沒有得到利用袖迎,但是這種能力在未來的研究中可能是有用的冕臭。
未完待續(xù),好吧燕锥,又給自己留了坑