2021年5月,深圳華大生命科學(xué)研究院冀膝,青歐生命科學(xué)高等研究院的羅永倫團(tuán)隊(duì)與哥本哈根大學(xué)的Jan Gorodkin團(tuán)隊(duì)合作(青歐研究院向熙和渠坤麗博士, 哥本哈根大學(xué)Giulia Corsi和Christian Anthon博士為共同第一作者)浮庐,在Nature Communications發(fā)表了題為“Enhancing CRISPR-Cas9 gRNA efficiency prediction by dataintegration and deep learning”的研究文章甚负,介紹了目前已知最準(zhǔn)確的gRNA效率預(yù)測(cè)模型:CRISPRon。
此項(xiàng)研究的測(cè)序數(shù)據(jù)已存儲(chǔ)于國(guó)家基因庫生命大數(shù)據(jù)平臺(tái)(CNGBdb)审残,項(xiàng)目編號(hào)為:CNP0001031梭域。?
研究背景
CRISPR/Cas9作為最新一代的基因編輯技術(shù),以其簡(jiǎn)便和高效性搅轿,已被廣泛應(yīng)用于生命科學(xué)的各個(gè)領(lǐng)域病涨。攜帶有特異性靶向序列和保守二級(jí)結(jié)構(gòu)的引導(dǎo)RNA (guide RNA, gRNA),能特異性的結(jié)合spCas9蛋白形成核糖核蛋白復(fù)合物( Ribonucleoprotein, RNP)璧坟,并靶向切割目標(biāo)基因組序列既穆,從而進(jìn)行高效精準(zhǔn)的基因組編輯赎懦。除了內(nèi)源靶基因的表觀修飾及染色體3D結(jié)構(gòu)等影響因素,高效的基因組編輯很大程度上依賴于選擇效率高的gRNA幻工。因此励两,通過依賴于大數(shù)據(jù)的機(jī)器學(xué)習(xí)來建立精確的gRNA編輯效率預(yù)測(cè)模型,是近年來CRISPR/Cas9基因編輯領(lǐng)域的重要研究方向囊颅。
隨著基因編輯技術(shù)的飛速發(fā)展当悔,科學(xué)家們已開發(fā)出多種CRISPR/gRNA效率預(yù)測(cè)模型。這些模型基于不同的數(shù)據(jù)制備和采集方式踢代,結(jié)合不同策略的機(jī)器學(xué)習(xí)算法盲憎,訓(xùn)練得到可靠性不一的gRNA剪切效率預(yù)測(cè)模型。如Doench等[1, 2]開發(fā)的“Azimuth“胳挎,Kim等[3]的“DeepspCas9”饼疙,Wang等[4]的“DeepHF”,Shen等[5]的“inDelphi”等慕爬。這些算法在模型驗(yàn)證的參數(shù)和測(cè)試數(shù)據(jù)的選擇上不同宏多,直接影響了它們?cè)趃RNA效率預(yù)測(cè)上的可靠性和擬真度。一方面澡罚,不同算法模型的數(shù)據(jù)來源并不相同,有的基于“功能缺失”(loss of function)的方式采集數(shù)據(jù)[6, 7]肾请,有的則是基于高通量的替代性indel(surrogate indel)捕獲定量的方法[3, 4, 8]留搔。另一方面,目前基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)算法曲線也并不飽和铛铁。此外隔显,相較于采用更為高級(jí)的機(jī)器學(xué)習(xí)算法,增加基礎(chǔ)數(shù)據(jù)的規(guī)模和質(zhì)量能更顯著的提高預(yù)測(cè)模型的準(zhǔn)確性和可靠度饵逐。
研究?jī)?nèi)容
從上述角度出發(fā)括眠,研究團(tuán)隊(duì)采用高通量芯片合成及文庫篩選的方法,采集獲得了10,592個(gè)gRNA產(chǎn)生的高質(zhì)量替代性indel數(shù)據(jù)倍权。他們將這些數(shù)據(jù)與已發(fā)表的數(shù)據(jù)整合起來得到了23,902個(gè)基礎(chǔ)學(xué)習(xí)數(shù)據(jù)掷豺。通過這批高質(zhì)量數(shù)據(jù)的機(jī)器學(xué)習(xí)輸出得到了更精準(zhǔn)的gRNA效率預(yù)測(cè)模型——CRISPRon。通過對(duì)多組獨(dú)立數(shù)據(jù)的測(cè)試評(píng)估薄声,他們證實(shí)了CRISPRon的預(yù)測(cè)可靠度要顯著優(yōu)于已有的預(yù)測(cè)模型当船,是目前已知最準(zhǔn)確的gRNA效率預(yù)測(cè)模型。同時(shí)他們將該模型整合進(jìn)在線網(wǎng)站默辨,研究人員可通過登錄https://rth.dk/resources/crispr/crispron/?進(jìn)行基因組信息交互型的gRNA設(shè)計(jì)和效率預(yù)測(cè)德频。
作者針對(duì)3832個(gè)藥靶基因設(shè)計(jì)了12,000條靶向gRNA,隨后采用高通量芯片合成的方法缩幸,合成寡聚核苷酸文庫芯片壹置。研發(fā)團(tuán)隊(duì)開發(fā)更加簡(jiǎn)易芯片文庫構(gòu)建方法竞思,并通過第3代慢病毒感染方法將該文庫穩(wěn)定整合到表達(dá)spCas9蛋白的HEK293T細(xì)胞中。隨后采用藥物篩選的方法對(duì)感染細(xì)胞進(jìn)行富集钞护,最后采用靶向PCR擴(kuò)增和DNA納米球測(cè)序方法盖喷,將合成的12,000條位點(diǎn)進(jìn)行高通量測(cè)序分析。最終獲得了超過1萬多條高質(zhì)量的CRISPR gRNA基因編輯效率數(shù)據(jù)患亿。該數(shù)據(jù)集與目前已經(jīng)發(fā)表的inDelphi預(yù)測(cè)數(shù)據(jù)(圖1.e)传蹈,Kim2019和Wang2019的兩組獨(dú)立數(shù)據(jù)亦有較強(qiáng)的相關(guān)性(圖1.g)。進(jìn)一步證明了研究團(tuán)隊(duì)開發(fā)出來的高通量CRISPR基因編輯效率檢測(cè)方法的有效性步藕。
隨后作者將產(chǎn)生的高質(zhì)量的10,592個(gè)數(shù)據(jù)與Kim 2019數(shù)據(jù)整合起來惦界,形成超過2萬個(gè)數(shù)據(jù)的基礎(chǔ)數(shù)據(jù)庫,用于更高質(zhì)量的機(jī)器學(xué)習(xí)和預(yù)測(cè)模型的輸出(圖2.a)咙冗。作者將輸出得到的CRISPRon V1.0模型與現(xiàn)有的幾種模型進(jìn)行了橫向比較沾歪,發(fā)現(xiàn)在多組獨(dú)立數(shù)據(jù)的平行驗(yàn)證結(jié)果中,CRISPRon V1.0的效果均好于其他幾種模型(圖2.b)雾消,表明該模型有更佳的精準(zhǔn)性灾搏。?
作者基于CRISPRon V1.0預(yù)測(cè)模型構(gòu)架在線CRISPR gRNA設(shè)計(jì)網(wǎng)站,并采用基因組交互的可視化方式立润,清晰明了的展示出基因組中目標(biāo)靶點(diǎn)的所有可用gRNA及其預(yù)測(cè)效率狂窑。同時(shí),CRISPRon設(shè)計(jì)軟件整合了基因組交互可視方法桑腮,方便科研人員查看gRNA所處的基因元件性質(zhì)泉哈,包括基因間,內(nèi)含子內(nèi),外顯子內(nèi),3/5’UTR等信息把沼。
研究意義
該研究開發(fā)的高通量 CRISPR基因編輯技術(shù)和更精確深度學(xué)習(xí)設(shè)計(jì)方法呼畸,為系統(tǒng)性了解CRISPR編輯規(guī)律,提高基因編輯效率和促進(jìn)CRISPR基因治療提供關(guān)鍵研究工具。為今后科研人員應(yīng)用CRISPR cas9技術(shù)提供了可靠的數(shù)據(jù)基礎(chǔ),幫助科研人員能更好的進(jìn)行高效精準(zhǔn)的gRNA設(shè)計(jì)。
相關(guān)鏈接:
1.Enhancing CRISPR-Cas9 gRNA efficiency prediction by data integration and deep learning:https://www.nature.com/articles/s41467-021-23576-0
2.高通量CRISPR基因編輯效率文庫:http://www.crispratlas.com/crispr
3.基因CRISPRon深度學(xué)習(xí)方法開發(fā)的CRISPR設(shè)計(jì)平臺(tái):
https://rth.dk/resources/crispr/crispron/??
首發(fā)公號(hào):國(guó)家基因庫大數(shù)據(jù)平臺(tái)
參考文獻(xiàn)
1.?Doench,J.G., et al.,?Rational design of highlyactive sgRNAs for CRISPR-Cas9-mediated gene inactivation.?Nat Biotechnol,2014.?32(12): p. 1262-7.??
2.?Doench, J.G., et al.,Optimized sgRNA design to maximizeactivity and minimize off-target effects of CRISPR-Cas9.?Nat Biotechnol,2016.?34(2): p. 184-191.??
3.?Kim, H.K., et al.,?SpCas9 activity prediction by DeepSpCas9, adeep learning-based model with high generalization performance.?Sci Adv,2019.?5(11): p. eaax9249.??
4. Wang, D., et al.,?Optimized CRISPR guide RNA design for twohigh-fidelity Cas9 variants by deep learning.?Nat Commun, 2019.?10(1): p. 4284.??
5.?Shen, M.W., et al.,?Predictable and precise template-free CRISPRediting of pathogenic variants.?Nature, 2018.?563(7733): p. 646-651.??
6. Xu, H., et al.,?Sequence determinants of improved CRISPRsgRNA design.?Genome Res, 2015.?25(8):p. 1147-57.??
7.Hart, T., et al.,?High-Resolution CRISPR Screens RevealFitness Genes and Genotype-Specific Cancer Liabilities.?Cell, 2015.?163(6): p. 1515-26.??
8.?Kim,N., et al.,?Prediction of thesequence-specific cleavage activity of Cas9 variants.NatBiotechnol, 2020.?38(11): p.1328-1336.??
9.?Xiang, X., Corsi, G.I., Anthon, C.?et al.?Enhancing CRISPR-Cas9 gRNA efficiency prediction by data integration and deep learning.?Nat Commun?12,?3238 (2021).?
信息來源:“青歐生命科學(xué)高等研究院”公眾號(hào)锌蓄。
圖片源于NC官網(wǎng)和“青歐生命科學(xué)高等研究院”公眾號(hào)。