自從開始分享自己的CRISPR-Cas9學習筆記和記錄之后,收到了很多很有用的Tips以及一些未曾思考過的問題饺饭。分享學習筆記是一個非常好的學習方法砚哗,因每個人的背景知識、思維邏輯和思考角度都可能不一樣砰奕,因而在學習的側重點以及疑問點也會因此不同蛛芥。每當有人提出一個我未曾思考過的問題提鸟,就是我補充自己背景知識的機會,在來回交流過程中仅淑,經常得到許多意外收獲称勋。目前收到最多的問題是:
- 您好,我想要設計xx(非模式生物物種)的gRNA涯竟,你推薦的工具只能設計人和鼠的赡鲜,還有別的工具可以設計gRNA嗎?
- 您好庐船,我想知道怎么選擇一條合適的gRNA银酬。
這兩個問題可以說是直擊要害,非常關鍵筐钟。之前設計gRNA的時候是在張峰老師的網頁上隨手挑一個揩瞪,并根據網頁工具指示選擇gRNA,然而隨意確是最致命篓冲。今天我們要講的內容則是由基因編輯小伙伴蔣同學推薦的2020年CRISPR-Cas實驗設計和數(shù)據分析的最新綜述:Design and analysis of CRISPR–Cas experiments
文章主要分為以下兩部分:
- Software tools for guide design
- analysis of CRISPR editing experiments
由于內容性質和篇幅限制李破,我們今天只講第一部分。
1. 基因編輯器的譜系
說起CRISPR壹将,好像下意識的就接上Cas9嗤攻。然而Cas9(Streptococcus pyogenes ,SpCas9)并不是CIRSPR世界的唯一诽俯,但它是第一個被用于人類細胞基因編輯的Cas內切酶妇菱。既然我們學習基因編輯技術,即使用不上其他的工具暴区,也要了解它們世界大概都有誰恶耽。而這篇文章做了非常好的總結:
如圖可見:
(1)橫坐標代表年份,縱坐標則是這些基因編輯器在ClinVar數(shù)據庫中颜启,能編輯的致病相關的SNPs的分數(shù)偷俭。例如,在上半部分Cas核酸酶的部分缰盏,F(xiàn)nCas9出現(xiàn)的年份是2016年涌萤,它能夠靶向的致病相關SNPs比SpCas9要多。
(2)上半部分的Cas相關內容口猜,以張峰等人為主负溪。而下半部分的單堿編輯器主要以David Liu團隊為起始,他倆是好朋友济炎,他們和J. Keith Joung一起組成“CRISPR天團”川抡,并創(chuàng)立致力于單堿基編輯療法的公司Beam Therapeutics。我們都知道CRISPR最大的問題是脫靶,如果說CRISPR-Cas9是加農炮崖堤,那單堿基編輯器則是就是狙擊槍侍咱。對于單堿基突變引起的疾病,使用單堿基編輯技術糾正錯配的堿基密幔,是非常理想的治療手段楔脯。
(3)資源:ClinVar數(shù)據庫,ClinVar是NIH資助并有NCBI主導的共用數(shù)據庫胯甩,其收錄了人類基因變異和表型之間的關系昧廷。
既有這么多種基因編輯器,那gRNA的設計工具更是眼花繚亂偎箫,最近感覺CRISPR技術的更新木柬、進化速度遠遠大于我們學習的速度。
2. 常用的gRNA設計網站
一般來說淹办,會先打開張峰課題組的網站https://zlab.bio/guide-design-resources 眉枕,并在下方的“TOOLS FOR GUIDE DESIGN”隨意選擇一個gRNA設計工具(一般選用CRISPOR)。然而真的是隨便選一個就可以嗎娇唯?之前沒有思考和研究這些工具差異的原因是,由于研究的是人類基因寂玲,對于on-target以及off-target的預測方法已經趨于成熟塔插,因此個人主觀認為,不論是什么工具拓哟,大概都差不多吧想许。造成這種錯覺的原因是我對計算機科學、統(tǒng)計學的無知断序。試想一下流纹,on-target以及off-target的預測依賴于精妙的算法,而算法則依賴盡可能精準的模型违诗。不同的工具漱凝,很有可能使用不同的模型、算法以及判定標準诸迟。因此強烈推薦不要錯過這部分的解讀茸炒,本文是計算機科學家,從算法阵苇、統(tǒng)計學的角度解釋不同gRNA設計工具的差異壁公,這一點是我們濕實驗的人一直忽略或者是根本就沒想到的地方。
經統(tǒng)計绅项,目前至少有30中網頁gRNA設計工具紊册,還不包括一些需要自行下載代碼運行的設計工具。作者列舉了目前維護情況較好的幾個常用網頁工具進行介紹快耿,盈利性質的商業(yè)設計工具囊陡、需要自行運行代碼的工具以及有用途小眾的工具則不在此列芳绩。
縱觀這些工具可以很清晰的看到,不同的網站服務于不同的目的关斜,當一個網頁工具不能得到預期目的時示括,用戶需要混合搭配使用。以下是這些網頁工具的分點介紹:
2.1 input:信息輸入情況
在選擇好網頁工具之后痢畜,我們需要輸入一些關于目的基因或者序列的信息:
可上傳的數(shù)據類型:txt序列文檔垛膝,fastq序列文件,或者允許用戶輸入轉錄本ID丁稀,例如Ensemble ID 或者RefSeq吼拥。這對knockout來說非常方便,不然的話用用戶需要自行上傳外顯子或蛋白的CDS序列线衫。但這里需要注意轉錄本ID是有明確的序列凿可,而基因symbol則不是,其原因在于同一個基因可能會有N個轉錄本授账,因此需要特異性編輯某個轉錄本的實驗枯跑,網站工具允許選擇轉錄本ID是非常有用的,網頁工具的轉錄本序列源是Consensus CDS project (CCDS) 和APPRIS等權威源數(shù)據庫白热。
CHOPCHOP敛助、E-CRISP等一些工具會默認優(yōu)選選擇針對所有轉錄本的gRNA,而 CRISPick和GUIDES等工具可以定義更多參數(shù)屋确,例如纳击,gRNA的間隔、分布等等攻臀,因為可以設置gRNA分布焕数,因此可避免設計出來的高分gRNA集中在某個弱外顯子上,gRNA的分布自定義對設計library是非常有用的刨啸,通過提高gRNA的外顯子覆蓋度堡赔,從而保證基因編輯的效果。當目標基因的數(shù)目較少時设联,還可以手動依次設計加匈,而library的設計則無法將上萬的基因人工敲入,因此允許用戶批量定義目標基因的工具在library的設計中尤為便捷仑荐。
2.2 基因組和Cas酶多樣性雕拼、基因編輯目的
這部分可以很好的解答上面的第一個問題:
您好,我想要設計xx(非模式生物物種)的gRNA粘招,你推薦的工具只能設計人和鼠的啥寇,還有別的工具可以設計gRNA嗎?
通常這種情況,我的答案只能是抱歉辑甜,我不是很了解衰絮。
(1)基因組多樣性:根據上表可知,CHOPCHOP和CRISPOR可對hundreds的物種進行設計磷醋,而少數(shù)只有human and mouse這種模式生物召嘶。當這些工具都沒有包括實驗的目的物種時史简,需要找到支持用戶自行上傳參考基因組的工具子刮,例如:CRISPy-web (http://crispy.secondarymetabolites.org/) 毙沾。
(2)Cas酶多樣性:由于不同的Cas酶對應的PAM序列不同,因此期望所有工具都能涵蓋所有的Cas酶 gRNA序列設計不太實際骇陈。在這里CHOPCHOP就是最大的秀兒震庭,它可支持任何5′ or 3′ PAM,而CRISPOR你雌、RGEN Cas-Designer還能支持10中以上Cas酶器联。
(3)編輯目的: knockout、CRISPRa or CRISPRi婿崭?雖染CRISPR技術發(fā)展突飛猛進拨拓,但SpCas9仍然是目前使用最廣的Cas酶,而且Cas9相關的試劑是最全的(豐滿的現(xiàn)實)氓栈。目前來說渣磷,knockout還是最主流的應用,但有一些網頁工具還提供轉錄本起始位點颤绕,從而可以設計CRISPRa and i幸海。
2.3 可視化結果
看到就是實在祟身,有些用戶偏好可視化結果奥务,舉例CRISPOR。
粘貼序列后提交袜硫,可視化結果如下:
而GUIDES可提供依據GTEx數(shù)據庫的剪接體的可視化結果(想放圖來著氯葬,但是網頁結果太慢了),這一點用CHOPCHOP使用的UCSC基因組不同婉陷。
2.4 on-target和off-target的預測方法和能力
on-target:on-target的預測方法得益于基于SpCas9的CRISPR screens的發(fā)展帚称,目前有Rule Set 2、Moreno-Mateos score 秽澳、SAE score等方法闯睹。(1) 對于慢病毒傳遞系統(tǒng)以及RNA聚合酶III啟動子依賴的哺乳動物細胞,Rule Set 2是最好的方法担神;(2)而體外轉錄則Moreno-Mateos score表現(xiàn)更佳楼吃。因此需要依據自身實驗的特性選擇擁有更合適的on-target評價方法的gRNA設計工具。
off-target:目前有 CCTop、CFD score孩锡、Hsu-Zhang score和Elevation等可off-target活性酷宵,不僅僅是簡單計算錯配的數(shù)量。而不是所有的工具都使用了全面的脫靶預測方法躬窜,這將會導致存在“漏網之魚”浇垦,CRISPOR看起來是評價方式最多的方法。具體可參照上文中的table 1荣挨。
2.5 下游實驗設計也會影響gRNA的選擇
(1)對于構建單克隆細胞系的實驗來說男韧,可以在on-target的能力上讓步,從而避免脫靶的情況垦沉,而對于CRISPR library則在on-target上要求更高煌抒。
(2)對于使用U6啟動子的gRNA轉錄方式,使用帶有G為起始的gRNA可以增強U6啟動子轉錄能力厕倍。不過這方面我們在設計gRNA的oligo時寡壮,可以人為的加入G:
(3)此外,含有RNA聚合酶III終止序列(4 - 6個T)讹弯、與傳遞載體同源况既、或用于克隆的限制性酶切位點的gRNA,最好可以排除在外组民。著這里體現(xiàn)為Poly-T motif棒仍、Poly-N motif、hits in CpG islands臭胜、homology to delivery vector等多個評價選項莫其。具體仍可參照上表。
2.6 重點:基因注釋改變引起on-target的偏移
隨著人們對基因認知的不斷加深耸三,基因注釋不斷更新乱陡,原先認為是protein-coding的gene,可能會被重注釋為 長非編碼RNA(long noncoding RNAs仪壮,lncRNAs)憨颠,反之亦然,這種情況會造成targeting drift积锅。例如可在Addgene上購買到的CRISPR screens GeCKOv2爽彤,目前已經有少量偏移,而GeCKO的第一個版本缚陷,目前已經在Addgene上失去蹤跡适篙,大約是因為這個庫有“比較重大的缺陷”。
(小聲嘀咕箫爷,好似由于基因注釋引起的少量偏移對我們來說影響不大嚷节,畢竟只要篩到關鍵基因即可铆铆,不一定強求庫的完整性。而需要考慮的是丹喻,早期的libraries是在比較舊的on-target和off-target評價體系下設計的薄货,因此這些庫的on-target和脫靶情況需要重新評估。)
3. 使用不同工具設計同一個基因的gRNA
一個基因
作者使用3個網頁工具碍论,對人類 HPRT1 (hypoxanthine phosphoribosyltransferase1) 基因進行gRNA設計谅猾,結果如下:
(1)CHOPCHOP由于沒有ATG的排除標準,因此在起始位點ATG之前的gRNA也被囊括在內鳍悠。因此使用CHOPCHOP的時候税娜,要么自己粘貼某段特定的序列,不然就是在Snapgene中檢查gRNA的周邊情況藏研,以免在ATG之前敬矩。
(2)可見CRISPick正如前面所說,它設計的gRNA會有一定間隔的出現(xiàn)在基因的多個外顯子上蠢挡,并且覆蓋度可達protein coding序列的65%弧岳。而我們之前有說過gRNA越設計在后面,前面翻譯的蛋白就越完整业踏,很有可能前部分的蛋白就已經擁有生物學功能了禽炬,因此這里我們文章中提到的knockout的gRNA設計原則:gRNA要針對所有的isoform,并盡可能靠前勤家。這個原則并不是通用的腹尖,而是僅僅針對knockout,實際操作還需要各位自行考慮伐脖。
(3)GUIDES則主要依賴于基因注釋的結果热幔。
按照前面的介紹,我們不難發(fā)現(xiàn)讼庇,CRISPOR在多個方面都是比較優(yōu)秀的绎巨,但這里為什么沒有用CRISPOR的例子呢?
六個基因:一個基因不足以說明情況巫俺,則多試幾個认烁,根據下圖我們可以看到肿男,不同的網頁工具設計出來的gRNA有重疊部分介汹,究其原因則是因為使用了相似或者相同的on-target和off-target評價策略。例如:
(1)由于對基因isoform上的策略不同舶沛,CRISPick的168個gRNA被CHOPCHOP和E-CRISP排除在外嘹承,原因是當給定一個基因ID之后,CRISPick會自動選擇一個“最優(yōu)”轉錄本進行設計如庭,而CHOOCHOP傾向于針對所有轉錄本叹卷。
(2)三個網頁工具的重疊部分高達1169個gRNA撼港,因其有相似的on-target評價策略:Rule Set 2。但由于off-target策略差異骤竹,會導致有互相排除的部分帝牡。
(3)CHOPCHOP和E-CRISP有1082個重疊gRNA,因為他們都針對基因的5-65% coding序列蒙揣,而CHOPCHOP并不排除target在poly-T motif (RNA聚合酶III終止子)的gRNA靶溜,而CRISPick和E-CRISP則排除了,因此CHOPCHOP有一個較大的非重疊部分懒震。
這里要說一句老套的話罩息,具體問題具體分析,gRNA設計工具沒有孰優(yōu)孰劣个扰,在能拿到手的實驗資源條件下瓷炮,保證達到課題實驗目的和設計,綜合考慮設計gRNA递宅,是我們的最終目的娘香。該綜述非常值得一看,強推办龄。