Nature子刊發(fā)表“高通量 CRISPR基因編輯技術(shù)和更精確深度學(xué)習(xí)設(shè)計(jì)方法”

2021年5月,深圳華大生命科學(xué)研究院冀膝,青歐生命科學(xué)高等研究院的羅永倫團(tuán)隊(duì)與哥本哈根大學(xué)的Jan Gorodkin團(tuán)隊(duì)合作(青歐研究院向熙和渠坤麗博士, 哥本哈根大學(xué)Giulia Corsi和Christian Anthon博士為共同第一作者)浮庐,在Nature Communications發(fā)表了題為“Enhancing CRISPR-Cas9 gRNA efficiency prediction by dataintegration and deep learning”的研究文章甚负,介紹了目前已知最準(zhǔn)確的gRNA效率預(yù)測(cè)模型:CRISPRon。

此項(xiàng)研究的測(cè)序數(shù)據(jù)已存儲(chǔ)于國(guó)家基因庫生命大數(shù)據(jù)平臺(tái)(CNGBdb)审残,項(xiàng)目編號(hào)為:CNP0001031梭域。?


研究背景

CRISPR/Cas9作為最新一代的基因編輯技術(shù),以其簡(jiǎn)便和高效性搅轿,已被廣泛應(yīng)用于生命科學(xué)的各個(gè)領(lǐng)域病涨。攜帶有特異性靶向序列和保守二級(jí)結(jié)構(gòu)的引導(dǎo)RNA (guide RNA, gRNA),能特異性的結(jié)合spCas9蛋白形成核糖核蛋白復(fù)合物( Ribonucleoprotein, RNP)璧坟,并靶向切割目標(biāo)基因組序列既穆,從而進(jìn)行高效精準(zhǔn)的基因組編輯赎懦。除了內(nèi)源靶基因的表觀修飾及染色體3D結(jié)構(gòu)等影響因素,高效的基因組編輯很大程度上依賴于選擇效率高的gRNA幻工。因此励两,通過依賴于大數(shù)據(jù)的機(jī)器學(xué)習(xí)來建立精確的gRNA編輯效率預(yù)測(cè)模型,是近年來CRISPR/Cas9基因編輯領(lǐng)域的重要研究方向囊颅。

隨著基因編輯技術(shù)的飛速發(fā)展当悔,科學(xué)家們已開發(fā)出多種CRISPR/gRNA效率預(yù)測(cè)模型。這些模型基于不同的數(shù)據(jù)制備和采集方式踢代,結(jié)合不同策略的機(jī)器學(xué)習(xí)算法盲憎,訓(xùn)練得到可靠性不一的gRNA剪切效率預(yù)測(cè)模型。如Doench等[1, 2]開發(fā)的“Azimuth“胳挎,Kim等[3]的“DeepspCas9”饼疙,Wang等[4]的“DeepHF”,Shen等[5]的“inDelphi”等慕爬。這些算法在模型驗(yàn)證的參數(shù)和測(cè)試數(shù)據(jù)的選擇上不同宏多,直接影響了它們?cè)趃RNA效率預(yù)測(cè)上的可靠性和擬真度。一方面澡罚,不同算法模型的數(shù)據(jù)來源并不相同,有的基于“功能缺失”(loss of function)的方式采集數(shù)據(jù)[6, 7]肾请,有的則是基于高通量的替代性indel(surrogate indel)捕獲定量的方法[3, 4, 8]留搔。另一方面,目前基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)算法曲線也并不飽和铛铁。此外隔显,相較于采用更為高級(jí)的機(jī)器學(xué)習(xí)算法,增加基礎(chǔ)數(shù)據(jù)的規(guī)模和質(zhì)量能更顯著的提高預(yù)測(cè)模型的準(zhǔn)確性和可靠度饵逐。


研究?jī)?nèi)容

從上述角度出發(fā)括眠,研究團(tuán)隊(duì)采用高通量芯片合成及文庫篩選的方法,采集獲得了10,592個(gè)gRNA產(chǎn)生的高質(zhì)量替代性indel數(shù)據(jù)倍权。他們將這些數(shù)據(jù)與已發(fā)表的數(shù)據(jù)整合起來得到了23,902個(gè)基礎(chǔ)學(xué)習(xí)數(shù)據(jù)掷豺。通過這批高質(zhì)量數(shù)據(jù)的機(jī)器學(xué)習(xí)輸出得到了更精準(zhǔn)的gRNA效率預(yù)測(cè)模型——CRISPRon。通過對(duì)多組獨(dú)立數(shù)據(jù)的測(cè)試評(píng)估薄声,他們證實(shí)了CRISPRon的預(yù)測(cè)可靠度要顯著優(yōu)于已有的預(yù)測(cè)模型当船,是目前已知最準(zhǔn)確的gRNA效率預(yù)測(cè)模型。同時(shí)他們將該模型整合進(jìn)在線網(wǎng)站默辨,研究人員可通過登錄https://rth.dk/resources/crispr/crispron/?進(jìn)行基因組信息交互型的gRNA設(shè)計(jì)和效率預(yù)測(cè)德频。

圖1.CRISPRon的數(shù)據(jù)制備采集流程及質(zhì)控分析結(jié)果


作者針對(duì)3832個(gè)藥靶基因設(shè)計(jì)了12,000條靶向gRNA,隨后采用高通量芯片合成的方法缩幸,合成寡聚核苷酸文庫芯片壹置。研發(fā)團(tuán)隊(duì)開發(fā)更加簡(jiǎn)易芯片文庫構(gòu)建方法竞思,并通過第3代慢病毒感染方法將該文庫穩(wěn)定整合到表達(dá)spCas9蛋白的HEK293T細(xì)胞中。隨后采用藥物篩選的方法對(duì)感染細(xì)胞進(jìn)行富集钞护,最后采用靶向PCR擴(kuò)增和DNA納米球測(cè)序方法盖喷,將合成的12,000條位點(diǎn)進(jìn)行高通量測(cè)序分析。最終獲得了超過1萬多條高質(zhì)量的CRISPR gRNA基因編輯效率數(shù)據(jù)患亿。該數(shù)據(jù)集與目前已經(jīng)發(fā)表的inDelphi預(yù)測(cè)數(shù)據(jù)(圖1.e)传蹈,Kim2019和Wang2019的兩組獨(dú)立數(shù)據(jù)亦有較強(qiáng)的相關(guān)性(圖1.g)。進(jìn)一步證明了研究團(tuán)隊(duì)開發(fā)出來的高通量CRISPR基因編輯效率檢測(cè)方法的有效性步藕。

圖2. CRISPRon的機(jī)器學(xué)習(xí)算法及與其他模型的基于獨(dú)立數(shù)據(jù)的測(cè)試比較


隨后作者將產(chǎn)生的高質(zhì)量的10,592個(gè)數(shù)據(jù)與Kim 2019數(shù)據(jù)整合起來惦界,形成超過2萬個(gè)數(shù)據(jù)的基礎(chǔ)數(shù)據(jù)庫,用于更高質(zhì)量的機(jī)器學(xué)習(xí)和預(yù)測(cè)模型的輸出(圖2.a)咙冗。作者將輸出得到的CRISPRon V1.0模型與現(xiàn)有的幾種模型進(jìn)行了橫向比較沾歪,發(fā)現(xiàn)在多組獨(dú)立數(shù)據(jù)的平行驗(yàn)證結(jié)果中,CRISPRon V1.0的效果均好于其他幾種模型(圖2.b)雾消,表明該模型有更佳的精準(zhǔn)性灾搏。?

圖3. CRISPRon的交互設(shè)計(jì)及效率預(yù)測(cè)網(wǎng)站頁面


作者基于CRISPRon V1.0預(yù)測(cè)模型構(gòu)架在線CRISPR gRNA設(shè)計(jì)網(wǎng)站,并采用基因組交互的可視化方式立润,清晰明了的展示出基因組中目標(biāo)靶點(diǎn)的所有可用gRNA及其預(yù)測(cè)效率狂窑。同時(shí),CRISPRon設(shè)計(jì)軟件整合了基因組交互可視方法桑腮,方便科研人員查看gRNA所處的基因元件性質(zhì)泉哈,包括基因間,內(nèi)含子內(nèi),外顯子內(nèi),3/5’UTR等信息把沼。


研究意義

該研究開發(fā)的高通量 CRISPR基因編輯技術(shù)和更精確深度學(xué)習(xí)設(shè)計(jì)方法呼畸,為系統(tǒng)性了解CRISPR編輯規(guī)律,提高基因編輯效率和促進(jìn)CRISPR基因治療提供關(guān)鍵研究工具。為今后科研人員應(yīng)用CRISPR cas9技術(shù)提供了可靠的數(shù)據(jù)基礎(chǔ),幫助科研人員能更好的進(jìn)行高效精準(zhǔn)的gRNA設(shè)計(jì)。


相關(guān)鏈接:

1.Enhancing CRISPR-Cas9 gRNA efficiency prediction by data integration and deep learning:https://www.nature.com/articles/s41467-021-23576-0

2.高通量CRISPR基因編輯效率文庫:http://www.crispratlas.com/crispr

3.基因CRISPRon深度學(xué)習(xí)方法開發(fā)的CRISPR設(shè)計(jì)平臺(tái):

https://rth.dk/resources/crispr/crispron/??


首發(fā)公號(hào):國(guó)家基因庫大數(shù)據(jù)平臺(tái)

參考文獻(xiàn)

1.?Doench,J.G., et al.,?Rational design of highlyactive sgRNAs for CRISPR-Cas9-mediated gene inactivation.?Nat Biotechnol,2014.?32(12): p. 1262-7.??

2.?Doench, J.G., et al.,Optimized sgRNA design to maximizeactivity and minimize off-target effects of CRISPR-Cas9.?Nat Biotechnol,2016.?34(2): p. 184-191.??

3.?Kim, H.K., et al.,?SpCas9 activity prediction by DeepSpCas9, adeep learning-based model with high generalization performance.?Sci Adv,2019.?5(11): p. eaax9249.??

4. Wang, D., et al.,?Optimized CRISPR guide RNA design for twohigh-fidelity Cas9 variants by deep learning.?Nat Commun, 2019.?10(1): p. 4284.??

5.?Shen, M.W., et al.,?Predictable and precise template-free CRISPRediting of pathogenic variants.?Nature, 2018.?563(7733): p. 646-651.??

6. Xu, H., et al.,?Sequence determinants of improved CRISPRsgRNA design.?Genome Res, 2015.?25(8):p. 1147-57.??

7.Hart, T., et al.,?High-Resolution CRISPR Screens RevealFitness Genes and Genotype-Specific Cancer Liabilities.?Cell, 2015.?163(6): p. 1515-26.??

8.?Kim,N., et al.,?Prediction of thesequence-specific cleavage activity of Cas9 variants.NatBiotechnol, 2020.?38(11): p.1328-1336.??

9.?Xiang, X., Corsi, G.I., Anthon, C.?et al.?Enhancing CRISPR-Cas9 gRNA efficiency prediction by data integration and deep learning.?Nat Commun?12,?3238 (2021).?

信息來源:“青歐生命科學(xué)高等研究院”公眾號(hào)锌蓄。

圖片源于NC官網(wǎng)和“青歐生命科學(xué)高等研究院”公眾號(hào)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末撑柔,一起剝皮案震驚了整個(gè)濱河市煤率,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌乏冀,老刑警劉巖蝶糯,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異辆沦,居然都是意外死亡昼捍,警方通過查閱死者的電腦和手機(jī)识虚,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來妒茬,“玉大人担锤,你說我怎么就攤上這事≌ё辏” “怎么了肛循?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)银择。 經(jīng)常有香客問我多糠,道長(zhǎng),這世上最難降的妖魔是什么浩考? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任夹孔,我火速辦了婚禮,結(jié)果婚禮上析孽,老公的妹妹穿的比我還像新娘搭伤。我一直安慰自己,他們只是感情好袜瞬,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布怜俐。 她就那樣靜靜地躺著,像睡著了一般邓尤。 火紅的嫁衣襯著肌膚如雪拍鲤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天裁赠,我揣著相機(jī)與錄音,去河邊找鬼赴精。 笑死佩捞,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蕾哟。 我是一名探鬼主播一忱,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼谭确!你這毒婦竟也來了帘营?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤逐哈,失蹤者是張志新(化名)和其女友劉穎芬迄,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體昂秃,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡禀梳,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年杜窄,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片算途。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡塞耕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出嘴瓤,到底是詐尸還是另有隱情扫外,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布廓脆,位于F島的核電站筛谚,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏狞贱。R本人自食惡果不足惜刻获,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望瞎嬉。 院中可真熱鬧蝎毡,春花似錦、人聲如沸氧枣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽便监。三九已至扎谎,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間烧董,已是汗流浹背毁靶。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留逊移,地道東北人预吆。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像胳泉,于是被迫代替她去往敵國(guó)和親拐叉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容