8種特殊建庫測序
8種特殊建庫測序
1. RNA-seq
2. 外顯子測序
3. small RNA-seq
4. 單細(xì)胞DNA測序
5. 單細(xì)胞mRNA測序
6. 甲基化測序
7.Moleculo長測序
8. Ribozero和方向性RNA文庫
- RNA-seq
今天吶答渔,主要是給大家介紹一下RNA-seq(RNAsequencing)酝锅。也就是RNA的高通量測序技術(shù)。
因?yàn)槲覀冞@個(gè)節(jié)目主要是針對(duì)醫(yī)學(xué)方面的技術(shù)進(jìn)展,所以,我們今天對(duì)于RNA的介紹,也會(huì)側(cè)重于人的RNA測序方面的技術(shù)介紹偿洁,以及相關(guān)的生物信息學(xué)方面的工作。
RNA高通量測序(RNA-sequencing,縮寫為RNA-seq)是目前高通量測序技術(shù)中被用得最廣的
一種技術(shù)沟优,RNA-seq可以幫助我們了解:各種比較條件下涕滋,所有基因的表達(dá)情況的差異。
它可以檢測的差異有:正常組織和腫瘤組織的之間的差異挠阁;它吶宾肺,也可以檢測藥物治療前后,基因表達(dá)的差異鹃唯;它吶還可以檢測發(fā)育過程中爱榕,不同的發(fā)育階段,不同的組織之間的基因表達(dá)差異坡慌。諸如此類吶黔酥,很多。我們不一一列舉洪橘。
那么在所有檢測的差異類型中跪者,最常見的,就是檢測所有mRNA的表達(dá)量的差異熄求,這是最常用的一種檢測渣玲。
同時(shí)吶,我們還可以檢測 RNA 的結(jié)構(gòu)上的差異弟晚。例如:mRNA的剪接方式的差異忘衍,也就是我們一般說的“可變剪接”逾苫,還可以檢測“融合基因”,同時(shí)還可以檢測基因單點(diǎn)突變導(dǎo)致的SNP(Single Nucleotide Polymorphisom)枚钓。
接下來铅搓,我們分成“RNA-seq測序方法”和“RNA-seq測序數(shù)據(jù)分析”兩個(gè)部分,分別介紹RNA-seq搀捷。
RNA測序方法
在測mRNA的過程當(dāng)中星掰,首先要解決的問題,是如何去除核糖體RNA也就是去除“rRNA”(Ribosomal RNA)嫩舟。
那在通常抽提到的總RNA中氢烘,絕大部分都是核糖體RNA(rRNA)。以人類的細(xì)胞或組織為例家厌,一般抽提到的總RNA當(dāng)中播玖,95%都是核糖體RNA。剩下的2%到3%是mRNA像街。還有吶黎棠,2%到3%是Long non-coding RNA晋渺、或者tRNA镰绎、microRNA,這些RNA,也就是說mRNA只占了所有RNA中的一小部分木西。
如果我們把所有的RNA都拿來測序的話吶,測到的絕大部分的序列數(shù)據(jù)吶,都是核糖體RNA畜伐。而且這當(dāng)中(rRNA)比例會(huì)高達(dá)95%左右袖裕,但是吶,核糖體RNA在整個(gè)人類當(dāng)中都是非常保守的恋捆,而且在人的各個(gè)組織照皆、器官當(dāng)中也是極度穩(wěn)定的。也就是說沸停,測rRNA膜毁,它得到的數(shù)據(jù),并不能為我們實(shí)驗(yàn)者提供什么有用的信息愤钾,而mRNA才是RNA當(dāng)中信息含量最豐富的那個(gè)部分瘟滨。
我們一般的RNA-seq要測的,也是mRNA的各種變化能颁,所以吶杂瘸,在實(shí)驗(yàn)過程當(dāng)中,我們一般要把核糖體RNA先去掉伙菊。然后再進(jìn)行建庫測序败玉。
去除核糖體RNA敌土,并進(jìn)行建庫的方法,有許多種运翼。
今天吶纯赎,我們主要介紹一下應(yīng)用最廣泛的illumina公司的TruseqRNA建庫方法。其它的方法吶南蹂,以后我們?cè)僬覚C(jī)會(huì)再給大家做介紹犬金。
那么這張吶,就是mRNA測序的建庫過程圖六剥。首先吶晚顷,是利用高等生物的mRNA都有Poly(A)尾巴這個(gè)特點(diǎn),用帶有Poly(T)探針的磁珠與總RNA進(jìn)行雜交疗疟。然后吶该默,Poly(T)探針吶,就和帶Poly(A)尾巴的mRNA結(jié)合在一起策彤,接下來吶就回收磁珠栓袖,然后吶把這些帶Poly(A)的mRNA從磁珠上洗脫下來。
然后吶店诗,再把這些洗脫下來的mRNA用鎂離子溶液進(jìn)行處理裹刮。鎂離子溶液會(huì)把mRNA打斷。
被打斷的這些mRNA片段庞瘸,再用隨機(jī)引物進(jìn)行逆轉(zhuǎn)錄捧弃。
逆轉(zhuǎn)錄成(第一鏈)cDNA后,再合成出第二鏈(cDNA)擦囊。這樣就成為雙鏈的cDNA违霞。接下來吶,我們?cè)僭陔p鏈的cDNA的兩端接上“Y”型的接頭瞬场。這樣吶买鸽,就成了標(biāo)準(zhǔn)的測序文庫,然后吶贯被,這個(gè)標(biāo)準(zhǔn)的測序文庫就可以拿到HiSeq測序儀上進(jìn)行測序了眼五。
樣本質(zhì)量要求
在這里吶要說明一下,這個(gè)建庫方法對(duì)RNA的完整度有較高的要求刃榨。也就是說弹砚,只有在mRNA大部分是完整的狀態(tài)下,才能得到比較好的效果枢希。
這是因?yàn)閹oly(T)的磁珠桌吃,它所吸附的是Poly(A)的那些序列。那么如果mRNA發(fā)生了降解苞轿,也就是mRNA斷掉了茅诱,那么磁珠所吸附下來的片段逗物,都是那些靠近3'端的那些斷片,而那些5'端的斷片呢瑟俭,是吸附不下來的翎卓。會(huì)在富集過程中被洗脫掉。
那么這樣吶摆寄,接下來的數(shù)據(jù)分析當(dāng)中失暴,就會(huì)發(fā)生一定的數(shù)據(jù)偏差。
那么為了保證能夠測到盡可能完整的mRNA序列呢微饥,Illumina公司是這樣建議的:它建議先對(duì)總RNA進(jìn)行一次質(zhì)量檢測逗扒,一般是用Agilent公司出品的Bioanalyzer 2100毛細(xì)管電泳儀,對(duì)總RNA樣本進(jìn)行一次電泳質(zhì)檢欠橘。那Bioanalyzer吶會(huì)根據(jù)18S和28S這兩個(gè)核糖體RNA的電泳峰是否高矩肩、是否尖,來判斷RNA的質(zhì)量肃续。并且吶黍檩,會(huì)自動(dòng)打分。
這兩個(gè)峰越高始锚、越尖刽酱,也就說明RNA的降解就越少,完整度吶就越高疼蛾。那么打分吶肛跌,也會(huì)越高艺配。反之吶察郁,打分就會(huì)低。這個(gè)分值吶转唉,叫“RIN”值皮钠。也就是RNA的完整度評(píng)分值。是“RNA Integrity Number”的英文首字母縮寫赠法。RIN值最高是10分麦轰,最低吶是0分卢鹦。
Illumina公司推薦用RIN值在8.0以上的RNA進(jìn)行建庫和測序端蛆。測序完成之后吶傅联,就可以進(jìn)行數(shù)據(jù)分析了厘托。
數(shù)據(jù)分析
分析的第一步吶灌诅,一般是先把測到的RNA片段骚揍,先mapping(比對(duì))到基因組上宏榕,那么在比對(duì)完了之后吶治力,可以先看一下眶熬,有多少的RNA片段妹笆,是在靠近基因的5'端的位置块请,又有多少片段在是靠近基因的3'端的位置。
那么這張圖上吶拳缠,就是把所有的基因墩新,都按其外顯子的長度吶,拉直窟坐,然后吶海渊,歸一化到“0 - 100”的這樣一個(gè)長度。然后吶來看哲鸳,比對(duì)上的片段切省,有多少是落在這0到100的這一個(gè)軸的哪個(gè)位置上。
這樣一個(gè)比對(duì)的結(jié)果帕胆,就可以讓我們看見前面Poly(T)磁珠在抓mRNA的時(shí)侯朝捆。
捕獲下來的這些mRNA是不是完整的,如果捕獲下來的這些mRNA大部分是完整的話吶懒豹,那么這個(gè)圖形靠近5'端的曲線就會(huì)顯得比較飽滿芙盘。它的高度會(huì)和3'端的高度差不多。
反之脸秽,如果這根曲線的3'端是很高的儒老,而5'端是比較低的,我們就可以初步判斷记餐,這個(gè)RNA有一定程度的降解驮樊。
因此,我們可以推斷在捕獲過程當(dāng)中片酝,有相當(dāng)一部分(mRNA)囚衔,它的5'片段因?yàn)榕c3'片段的Poly(A)片段的尾巴斷開了,所以雕沿,沒有被捕獲下來练湿。所以,這個(gè)RNA吶审轮,是有一定程度降解的肥哎。
在知道了測序的質(zhì)量之后吶,接下大家來要關(guān)注的就是不同樣本之間疾渣、各個(gè)基因的mRNA的表達(dá)量的差異篡诽。
RPKM 指標(biāo)
那么在做這些比較的過程當(dāng)中,目前最常用的榴捡,對(duì)基因表達(dá)量進(jìn)行相對(duì)定量的一個(gè)指標(biāo)杈女,就是RPKM值。那么RPKM吶,是Reads Per Kilobase of exon model perMillion mapped reads的英文的首字母縮寫碧信。
RPKM翻譯成中文吶赊琳,就是每一百萬條可以比對(duì)到基因組上的Read當(dāng)中,有幾條是可以比對(duì)到某個(gè)特定基因的砰碴,
然后吶這數(shù)值再除以該基因的外顯子的長度躏筏,得到的這樣一個(gè)最終的比值。
這個(gè)公式吶呈枉,就是這樣的趁尼。
它的分子吶,就是經(jīng)對(duì)到某個(gè)基因的外顯子的read數(shù)猖辫。它的分母的第一項(xiàng)吶酥泞,就是這次所有比對(duì)到基因組上的read數(shù)(M reads,MillionReads)啃憎。分母的第二項(xiàng)芝囤,就是這個(gè)特定基因的外顯子的長度。
我們接下來分步地對(duì)這個(gè)公式進(jìn)行一下解釋辛萍,首先吶悯姊,就是比對(duì)到某個(gè)基因的外顯子上
的Read數(shù),去除以這次所測到的贩毕、全部可以比對(duì)到基因組上的Read數(shù)悯许。這個(gè)比較容易理解就是:這個(gè)基因所表達(dá)出來的mRNA,它所被測到的片段,來和所有被測到的辉阶、可以Mapping(比對(duì))到基因組上的片段來進(jìn)行比較先壕。這點(diǎn)是比較容易理解的。
那么這個(gè)比較費(fèi)解的是谆甜,為什么還要除以第二項(xiàng)垃僚,就是“除以這個(gè)外顯子的長度”。這是因?yàn)榻◣爝^程當(dāng)中店印,這個(gè)RNA是用鎂離子溶液來處理冈在,
然后打斷(并逆錄)成若干個(gè)180-200BP左右的小片段,如果一個(gè)基因的長顯子越長按摘,那么它所產(chǎn)生的mRNA就越長,那么mRNA越長吶纫谅,被打出來的小片段就越多炫贤。
我們來假設(shè),一個(gè)A基因付秕,它的mRNA的長度吶兰珍,假設(shè)它是1Kb,那么它的1Kb的mRNA可能被打成“5”個(gè)询吴,200Bp左右的小片段掠河;那么還有一個(gè)B基因,如果這個(gè)B基因的mRNA是2Kb長,那么略吨,它同樣被打成200Bp左右的小片段吶炎疆,它就會(huì)產(chǎn)生“10”個(gè)小片段。
我們來看勾拉,A基因是5個(gè)小片段煮甥,而B基因是整整10個(gè)小片段,所以藕赞,B基因在測序過程當(dāng)中成肘,它被測到的概率就會(huì)比A基因整整大出去一倍。
這就是我們?yōu)槭裁匆褎偛诺谝豁?xiàng)比出來的比值吶斧蜕,然后再除以這個(gè)外顯子的長度双霍。
通過上面的解釋吶,我們就可以理解:除以這個(gè)外顯子的長度批销,它的目的:是修正這個(gè)mRNA長度所引起的mRNA的Read數(shù)的偏差店煞。
通過這種修正吶,能夠還原出一個(gè)比較真實(shí)的风钻、原始的表達(dá)拷貝數(shù)狀態(tài)顷蟀。
這個(gè)吶,就是“RPKM”定義的原理骡技。
火山圖
那么作為一種針對(duì)全轉(zhuǎn)錄組的分析鸣个,我們希望是一次看到一個(gè)整體的樣本(表達(dá))差異的情況。而不僅僅是看少數(shù)幾個(gè)基因的表達(dá)差異布朦。
科學(xué)家做了一種叫“火山圖”的一個(gè)圖形囤萤,來比較形象地來說明2個(gè)樣本之間的表達(dá)差異。
那么我們來看這張圖是趴,這張圖吶涛舍,這個(gè)樣子就象火山噴發(fā)的樣子,那么這個(gè)圖吶唆途,是2個(gè)樣本的RNA的表達(dá)量的對(duì)比富雅。
這個(gè)圖的橫軸吶,是表示某個(gè)基因的表達(dá)是上升了肛搬,還是下降了没佑。
縱軸是表示這種差異的置信程度,這其中的每個(gè)點(diǎn)吶温赔,就是兩個(gè)樣本當(dāng)中同一個(gè)基因的mRNA表達(dá)量的變化蛤奢。
如果這個(gè)基因的表達(dá)是上調(diào)了,那么這個(gè)點(diǎn)吶,就往右移動(dòng)啤贩。反之待秃,如果這個(gè)基因的表達(dá)量是下調(diào)了,那么這個(gè)點(diǎn)吶痹屹,就往原點(diǎn)的左移動(dòng)章郁。
那么這個(gè)縱軸吶,就是這種變化差異的置信程度痢掠。如果這個(gè)置信程度越高吶驱犹,那么這個(gè)點(diǎn)的縱軸位置也越高。
那么我們?cè)诳v軸上劃了這樣一條水平線足画,超過這個(gè)水平線以上的(點(diǎn))吶雄驹,(其差異水平的)置信程度是很高的。我們就把它標(biāo)示成紅顏色淹辞。如果低于(這條水平線的)置信程度吶医舆,它的置信程度也相對(duì)低一些,我們把它標(biāo)成藍(lán)顏色象缀。
這里要解釋一下蔬将,為什么差異程度是相同的情況下,它們的差異置信程度是不一樣的央星。比如說同樣是差了2的5次方霞怀,也就是32倍,它的差異置信程度會(huì)不一樣莉给,有些是藍(lán)點(diǎn)毙石,有些是紅點(diǎn)。
A基因在甲樣本中颓遏,被測到了3200條徐矩,而在乙樣本中被測到了100條;B基因在甲樣本中叁幢,被測到了320條滤灯,而在乙樣本中被測到了10條。它們同樣是差了31倍曼玩,但是因?yàn)锳基因的樣本統(tǒng)計(jì)數(shù)鳞骤,遠(yuǎn)大于B基因的樣本統(tǒng)計(jì)數(shù),也就是說演训,它們的Reads數(shù)有那么大的差距弟孟。
所以,A基因的這個(gè)差異的置信程度样悟,會(huì)比B基因的這個(gè)差異置信程度要高許多。
那么,我們?cè)賮韺?duì)比這兩張圖窟她。那么就可以比較直觀地發(fā)覺陈症,左側(cè)的這個(gè)圖當(dāng)中,有更多的基因表現(xiàn)出明顯的差異震糖,這樣吶录肯,火山圖就為我們提供了一個(gè)形象的、直觀的吊说、整體表達(dá)差異信息论咏。
聚類分析圖
聚類分析吶,是RNA分析中非常常用的一個(gè)手段颁井。它吶是通過多個(gè)樣本的全基因表達(dá)譜對(duì)比厅贪,
來找到它們之間的相似性,和相近關(guān)系雅宾。
這是一張聚類分析的圖养涮,橫軸吶是樣本,縱軸吶是基因眉抬。通過聚類分析吶,可以發(fā)現(xiàn):在這個(gè)群體中,樣本被分成了3個(gè)群體膏执。
每個(gè)群體的內(nèi)部吶侧但,都有著相似的表達(dá)特征。同時(shí)库北,我們還可以看到爬舰,基因的表達(dá),也是成簇的贤惯,這兒吶大體上分成3個(gè)基因群洼专。那么這3個(gè)基因群吶,各自有著相似的表達(dá)量孵构。
聚類分析吶屁商,有很多的應(yīng)用,比如說:我們可以分析疾病的亞型颈墅。
那么還可以通過對(duì)多個(gè)基因在特定疾病當(dāng)中的表達(dá)傾向性吶蜡镶,來找出可能的、新的恤筛、診斷用的Biomark官还。
聚類分析,有很多新的應(yīng)用毒坛,有待我們一一去開發(fā)望伦。
GO分析
GO分析是RNA-seq分析中非常常用的一種分析林说。GO是Gene Ontology的縮寫,GeneOntology吶是一個(gè)國際化的屯伞、基因功能分類體系腿箩。這個(gè)體系用一整套動(dòng)態(tài)更新的標(biāo)準(zhǔn)詞匯、和嚴(yán)格定義的概念劣摇,來全面地概括任何生物中基因和基因產(chǎn)物的屬性珠移。
GO主要描述基因的三個(gè)屬性:
第一,是這個(gè)基因末融,它參與的生物過程
第二钧惧,是這個(gè)基因的產(chǎn)物的功能
第三、是這個(gè)基因產(chǎn)物在細(xì)胞器內(nèi)的空間定位
差異基因GO富集柱狀圖:可以直觀的反映出在生物過程勾习、細(xì)胞組分浓瞪、和分子功能富集的差異基因的個(gè)數(shù)分布情況。
有向無環(huán)圖语卤,是差異基因GO富集分析的圖形化展示方式追逮,從上到下吶,它所定義的功能范圍越來越小粹舵、越來越精準(zhǔn)钮孵。
它的分支吶,表示包含關(guān)系眼滤。而這個(gè)圈圈的顏色越深吶巴席,表示這個(gè)富集關(guān)系程度越高。
Pathway分析
通路分析:通路(Pathway)是指在系統(tǒng)水平上完成生物的某一功能的基本單元诅需、或者局部子網(wǎng)絡(luò)漾唉。
KEGG,也就是:Kyoto Encyclopaedia of Genes andGenomes堰塌。翻成中文:就是《京都基因和基因組百科全書》赵刑,是目前公認(rèn)的、最權(quán)威的基因功能數(shù)據(jù)庫场刑。
這其中的Pathway(通路)是KEGG的核心內(nèi)容般此。
目前針對(duì)Pathway的分析、注釋牵现,大多數(shù)是基于KEGGPathway來做的铐懊。
散點(diǎn)圖是KEGG富集分析結(jié)果的圖形化展示方式。
在此圖中瞎疼,KEGG富集程度通過Rich factor科乎、Qvalue和富集到此通路上的基因個(gè)數(shù)來衡量。
點(diǎn)的面積越大吶贼急,則富集的基因數(shù)越多茅茂。
富集的因子越大吶捏萍,則表示富集的程度越大。
qValue吶玉吁,是校正之后的pValue照弥。那么它越接近于0吶腻异,表示富集程度越顯著进副。
結(jié)構(gòu)變異分析
前面,我們講的都是基于RNA表達(dá)量的差異分析悔常。
接下來吶影斑,我們要說一下,RNA-seq當(dāng)中机打,可以測到的mRNA上的各種結(jié)構(gòu)上的變異矫户。
所謂結(jié)構(gòu)上的變異吶,也就是RNA序列的變異残邀。
主要吶皆辽,是3種:
第1種,是可變剪接
第2種吶芥挣,是融合基因
第3種吶驱闷,是點(diǎn)突變,也就是SNP
結(jié)構(gòu)分析需要較深的測序深度
這里要說明一下空免,對(duì)于想要測mRNA結(jié)構(gòu)變異的用戶呢空另,建議測序深度要測比較深。
我們一般吶是建議測10G以上的數(shù)據(jù)量蹋砚。那么為什么要測這么多的數(shù)據(jù)量吶扼菠?原因是二代測序,目前的測長還不是很長坝咐,每一個(gè)Read吶循榆,只有大約100到125個(gè)Bp左右。如果測序深度不夠吶墨坚,那么讀到的這些read在整個(gè)的mRNA上的分布吶秧饮,是一種比較零碎的一種狀態(tài)。
那么在這種比較零碎的、不完整的覆蓋情況下,要去分析哪里有一個(gè)剪接點(diǎn)酬诀,哪里有一個(gè)斷點(diǎn)焚虱,哪里有一個(gè)SNP,它不是很準(zhǔn)確的署驻。
當(dāng)測序深度足夠深的時(shí)侯,在每一個(gè)位點(diǎn),都有10幾次历恐、或者幾10次的覆蓋的時(shí)侯吶寸癌,我們就可以比較有把握地來判斷出,哪兒有了一個(gè)新的剪接點(diǎn)弱贼,哪兒出現(xiàn)了一個(gè)斷點(diǎn)蒸苇,哪兒,堿基發(fā)生了突變吮旅。
可變剪接
可變剪接溪烤,在真核生物中普通存在。一般一個(gè)人的組織樣本當(dāng)中吶庇勃,可以通過高通量測序檬嘀,發(fā)現(xiàn)有5000個(gè)到20000個(gè)左右的可變剪接。
融合基因
****
融合基因吶责嚷,是指原來在基因組上分開的2個(gè)基因鸳兽,因?yàn)槟撤N原因,染色體發(fā)生了重排罕拂。
重排的結(jié)果吶揍异,是讓A基因的頭,接到了B基因的身體上爆班,這樣就產(chǎn)生了融合基因衷掷。
那么這張圖吶,就是一個(gè)癌細(xì)胞中的融合基因的示意圖蛋济。
接下來這張圖吶棍鳖,是高通量測序測到融合基因的這個(gè)圖。我們可以看到這10幾個(gè)Reads都橫跨在這個(gè)融合基因的碗旅、交接點(diǎn)的兩側(cè)渡处,由此吶,證明了這個(gè)癌細(xì)胞當(dāng)中有這么一個(gè)融合基因祟辟。
點(diǎn)突變
RNA-seq吶医瘫,還可以找出點(diǎn)突變,這個(gè)吶旧困,是一張泡泡圖醇份,來表示我們所找到的點(diǎn)突變。
發(fā)生突變頻率最高的這個(gè)基因吼具,就用最大的泡泡來表示僚纷。(突變)頻率低一點(diǎn)的,就畫一個(gè)小一點(diǎn)的泡泡(頻率)拗盒,再小一點(diǎn)怖竭,那么再小一點(diǎn)的泡泡。
這些泡泡呈逆時(shí)針排列陡蝇,形成這樣一個(gè)泡泡圖痊臭。
- 外顯子測序
今天哮肚,我們會(huì)和大家談一下人外顯子組測序的方法原理。和它能夠給我們帶來哪些有用的生物信息广匙。
那我們還是分兩個(gè)部分來介紹允趟,第一個(gè)部分吶,介紹外顯子測序的技術(shù)方法鸦致。第二個(gè)部分潮剪,我們來介紹外顯子測序可以得到哪些有用的生物信息。
實(shí)驗(yàn)原理
那么蹋凝,我們先來說外顯子測序的工作原理鲁纠。
我們先來看這張圖,外顯子測序的核心技術(shù)吶鳍寂,是這(些)個(gè)針對(duì)人外顯子序列設(shè)計(jì)的捕獲探針庫,那么這些探針的序列吶情龄,都和人外顯子的DNA序列相互補(bǔ)迄汛。
在實(shí)驗(yàn)過程中吶,它可和人的外顯子DNA序列進(jìn)行雜交結(jié)合骤视。同時(shí)吶鞍爱,這些探針都標(biāo)上了生物素。
有了這個(gè)捕獲試劑盒吶专酗,就可以進(jìn)行建庫睹逃、和捕獲了。
第一步吶祷肯,是先把基因組DNA進(jìn)行超聲打碎沉填,建成DNA文庫。
第二步吶佑笋,是把建好的文庫和探針庫進(jìn)行雜交翼闹。
雜交過程中,通過核酸序列的互補(bǔ)結(jié)合的原理蒋纬,探針會(huì)和目標(biāo)DNA片段進(jìn)行結(jié)合猎荠。
然后吶,再用結(jié)合了鏈霉親和素的磁珠蜀备,與這個(gè)雜交混合液吶進(jìn)行混合关摇。
因?yàn)殒溍褂H合素是會(huì)和生物素牢固結(jié)合的。
這樣碾阁,就把我們要捕獲的外顯子目標(biāo)片段输虱,通過探針,間接地結(jié)合到了磁珠上瓷蛙。
然后吶悼瓮,通過磁鐵把這些磁珠給吸附下來戈毒。
而把上清液吶給去掉。
這樣吶横堡,也就把沒有結(jié)合的DNA片段給洗掉了埋市。
再接下來,用洗脫液命贴,把我們要的DNA文庫從磁珠上給洗脫下來道宅。
那么這些文庫吶,再經(jīng)過PCR擴(kuò)增胸蛛,就可以上HiSeq測序儀進(jìn)行測序了谨湘。
測完序以后,就可以進(jìn)行生物信息學(xué)的處理了绣否。
數(shù)據(jù)分析
那么先是把這些測序的DNA片段比對(duì)到人的基因組上梧却。
然后吶,把這些比對(duì)到基因組的序列進(jìn)行突變分析民珍。
覆蓋深度
一般用Agilent SureSelect 50M的試劑盒進(jìn)行外顯子建庫襟士、捕獲。再用HiSeq 2500 V4 PE125的方法進(jìn)行測序嚷量,測10個(gè)G的數(shù)據(jù)量陋桂。大約可以得到95X的“有效測序深度”。我們說的有效測序深度(effective sequencing depth)是相對(duì)于總測序深度來說的蝶溶。
總的測序深度吶嗜历,是把所有測得的數(shù)據(jù)(量)去除以目標(biāo)區(qū)域的大小。
舉例來說抖所,用Agilent 50M的這個(gè)試劑盒梨州,我們測到10個(gè)G的數(shù)據(jù)。
去除以目標(biāo)區(qū)域的50M的大小部蛇,那么得到的是200X的測序深度(10G/50M = 200X)摊唇。
但是這個(gè)200X的測序深度,對(duì)于做生物信息學(xué)分析來說吶涯鲁,并沒有太大的實(shí)在意義巷查。
因?yàn)楫?dāng)中還要扣掉許多無用的數(shù)據(jù),才能得到有效的數(shù)據(jù)抹腿。
在外顯子測序中岛请,要扣掉4種因素引起的無效數(shù)據(jù)。
第一個(gè)影響因素吶警绩,就是因?yàn)殡s交捕獲的過程它不是十分精確的崇败,基因組中的有許多序列,
是和外顯子有一定的同源性的。那么這些片段吶后室,在雜交過程當(dāng)中缩膝,也會(huì)被雜交捕獲下來。而這些片段吶岸霹,不是基因的外顯子疾层。
所以,我們?cè)诜治鲞^程當(dāng)中贡避,首先要把這些序列給去除掉痛黎。
第二個(gè)影響因素吶,是捕獲下來的一個(gè)片段刮吧,很可能它(只有)一部分的序列是落在目標(biāo)區(qū)域還有一部分序列吶湖饱,是突出在目標(biāo)范圍之外的。那么杀捻,這部分突出來的序列吶井厌,它不是目標(biāo)區(qū)域,所以水醋,它也不計(jì)入外顯子測序的“有效測序深度”旗笔。
這個(gè)落在目標(biāo)區(qū)的數(shù)據(jù),占全部被測到的數(shù)據(jù)的比例拄踪,我們用一個(gè)專業(yè)術(shù)語來稱乎它,叫作
“捕獲效率”(capture efficiency)拳魁。那么AgilentSureSelect這個(gè)試劑盒吶惶桐,它的捕獲效率,大約是65~70%潘懊。
第3個(gè)影響有效數(shù)據(jù)比例的因素吶姚糊,是Duplication。那么所謂duplication吶授舟,就是建庫過程當(dāng)中它的最后一步救恨,是通過PCR擴(kuò)增把原始的模板,擴(kuò)增出幾百倍來释树。那么由同一個(gè)模板分子擴(kuò)增出來的子文庫分子吶肠槽,是長得一模一樣的那么這些多出來的這些分子,如果被重復(fù)地測到它并不能為我們提供太多有用的生物信息奢啥。所以秸仙,我們?cè)谏镄畔⒎治龅倪^程當(dāng)中,
我們要去掉這些重復(fù)的片段桩盲。
那么要去掉這些重復(fù)的片段我們判斷的依據(jù)是:2個(gè)DNA分子它們的5'起始位置寂纪、和3'的結(jié)束位置,完全一模一樣,那么我們就認(rèn)定這2個(gè)分子捞蛋,是從同一個(gè)母分子孝冒,PCR出來的(2個(gè))子分子。
然后吶拟杉,我們會(huì)比較這2個(gè)序列的數(shù)據(jù)質(zhì)量庄涡,留下那個(gè)數(shù)據(jù)質(zhì)量比較高的,去掉那個(gè)
數(shù)據(jù)質(zhì)量比較低的捣域,這也就是我們通常所說的“去Duplication"的過程啼染。
用Agilent SureSelect試劑盒進(jìn)行建庫、捕獲焕梅,實(shí)測10個(gè)G的數(shù)據(jù)迹鹅,我們發(fā)現(xiàn)duplication大約在5%左右。
那么贞言,我們說明一下斜棚,duplication的比例不是恒定不變的。而是會(huì)隨著測序深度的增加该窗、而增加弟蚀,因?yàn)樯蠙C(jī)(測序)的文庫是經(jīng)過PCR擴(kuò)增的文庫。
隨著測序量增大酗失,那么測到源自同一個(gè)模板的PCR子分子的概率吶义钉,就會(huì)提高。
第4個(gè)影響因素吶规肴,是目前主流的測序方法是HiSeq V4 PE125這種方法捶闸。也就是:雙端各測125個(gè)堿基,那么Agilent的建庫方法中當(dāng)吶拖刃,插入片段是150~200BP删壮,這樣一個(gè)大致范圍的這些片段,那么它的平均片段長度吶兑牡,是180BP央碟。那么我們用雙端125的方法來測序就會(huì)導(dǎo)致左邊的這個(gè)reads(序列)和右邊的這個(gè)reads(序列)碉碉,讀到當(dāng)中蒸健,會(huì)有一段,大概會(huì)有70BP的交疊它呀。
那這個(gè)70BP的交疊的序列边酒,是冗余的序列经柴。也就是說,我們讀了250個(gè)BP的序列墩朦,但是
其中大約有效的呢坯认,是180個(gè)(BP)。有70個(gè)BP吶,是冗余的牛哺。
綜合上述4項(xiàng)因素陋气,我們可以看到,用AgilentSureSelect 50M的這個(gè)捕獲試劑盒進(jìn)行建庫引润、捕獲巩趁,并且用HiSeq V4 PE125的測序方法來測序,測10個(gè)G的數(shù)據(jù)量淳附,那么可以得到议慰,大約95X的有效測序深度,(10 * 0.7 * 0.95 * 180 / 250 / 50 = 95)奴曙。
覆蓋均勻性
除了測到的有效數(shù)據(jù)量之外别凹,還有一個(gè)因素會(huì)影響到后面的分析,這就是Reads的分布均勻情況洽糟,也就是說目標(biāo)區(qū)域的每個(gè)堿基被覆蓋的深度的均勻性炉菲。那么這個(gè)結(jié)果吶,是越均勻越好坤溃。
科學(xué)家經(jīng)過實(shí)測拍霜,發(fā)現(xiàn)Agilent的SureSelect、和Roche的Nimblegen薪介,這兩個(gè)捕獲試劑盒祠饺,所得到的覆蓋均勻性是比較好的。
在腫瘤測序中的優(yōu)勢
外顯子測序汁政,可以測Germline突變(胚胎形成時(shí)就帶有的突變)吠裆,也可以測體細(xì)胞突變(Somatic Mutation),但是吶烂完,隨著Illumina推出HiSeq X10測序儀,把人全基因組測序的直接成本降到1000美元以下诵棵,那么Germline水平的突變吶抠蚣,已經(jīng)很少用外顯子來測了。
目前履澳,外顯子測序的主要優(yōu)勢就體現(xiàn)在腫瘤基因測序方面嘶窄,之所以外顯子測序在腫瘤基因測序方面有優(yōu)勢吶,這是因?yàn)橥怙@子測序距贷,它的測序深度柄冲,可以比較容易地做到“深度”測序。那么吶忠蝗,它可以比較輕易地達(dá)到100X现横、200X,甚至更深的測序深度。這個(gè)吶戒祠,就有利于測到 low allele frequency (低等位基因頻名優(yōu)新)的體細(xì)胞突變骇两。
因?yàn)槟[瘤中的突變吶,往往都是 low allele frequency 的體細(xì)胞突變姜盈。所以低千,外顯子組測序就在測腫瘤基因組突變方面,顯出比較明顯的優(yōu)勢來馏颂。
那么如果是要測腫瘤中的體細(xì)胞突變吶示血,一般是拿手術(shù)切下來的腫瘤組織DNA、和病人外周血中的白細(xì)胞基因組DNA救拉,進(jìn)行外顯子測序难审。
一般腫瘤的測100~200X的深度,白細(xì)胞的(DNA)測100X的深度近上。從白細(xì)胞DNA得到這個(gè)病人的Germline基因組序列剔宪,拿腫瘤的DNA序列與之做對(duì)比,找出其中的體細(xì)胞突變壹无。
SNP信息
外顯子組測序葱绒,主要能夠得到的信息是點(diǎn)突變,也就是SNP信息斗锭,和插入缺失突變地淀,也就是Indel信息。這張圖吶岖是,就是找到的體細(xì)胞突變的泡泡圖帮毁。
在這個(gè)泡泡圖中,突變頻率越高的基因豺撑,就畫一個(gè)大泡泡烈疚,放在圖的中間。突變頻率低一點(diǎn)的基因聪轿,就畫一個(gè)相對(duì)小一點(diǎn)的泡泡爷肝,延著逆時(shí)針排列。再低頻的突變陆错,再畫一個(gè)再小的泡泡灯抛,再在外面再排列下去。依此類推音瓷,就得到這樣一個(gè)泡泡圖对嚼。
泡泡圖有利于我們非常直觀地看到樣本中體細(xì)胞突變的情況。
GO 和 Pathway 分析
找到突變之后绳慎,就可以進(jìn)一步地做GO和Pathway分析纵竖。
關(guān)于GO和Pathway的定義漠烧,我們已經(jīng)在前一期講RNA-seq的節(jié)目當(dāng)中,給大家介紹過了磨确,想要了解的朋友可以在優(yōu)酷中找一下:【陳巍學(xué)基因】視頻7:《RNA-seq方法和應(yīng)用》這一集沽甥。自己去看一下。
那么乏奥,我們來說GO分析摆舟。
這張圖是GO分析的結(jié)果。
這是根據(jù)突變的點(diǎn)在腫瘤中的富集的情況做的分析邓了。
分成“細(xì)胞組件”恨诱、“分子功能”、和“生物過程”3個(gè)大類骗炉,進(jìn)行展示锤灿。
柱子越高盈包,則表示這個(gè)亞類當(dāng)中突變?cè)蕉唷?/p>
這是有向無環(huán)圖,它把突變進(jìn)一步一步富集到更精細(xì)的小概念當(dāng)中進(jìn)行展示。
這個(gè)圖中袭艺,是越向下匠璧,它的功能就劃分得越精細(xì)衙解。同時(shí)顏色越深的塊塊喉前,則表示突變?cè)?/p>
這個(gè)小概念中富集程度越高。
這是Pathway的KEGG富集分析轻专。它吶忆矛,可以幫助我們看到哪些通路發(fā)生了顯著的變化。
更深一步的分解分析请垛,則讓我們深入地看到突變的基因在整個(gè)通路中所處的節(jié)點(diǎn)催训。
讓我們更好地探索突變和病變之間的關(guān)系,我們要說明:在外顯子測序的數(shù)據(jù)分析當(dāng)中宗收,對(duì)基因組的結(jié)構(gòu)變異是不敏感的漫拭。
不敏感的原因是外顯子測序,只測了基因組上很小一部分區(qū)域混稽,這個(gè)比例小到了只有1~2%
嫂侍,所以當(dāng)結(jié)構(gòu)變異的斷點(diǎn),不落在外顯子區(qū)域的時(shí)侯吶荚坞,外顯子測序是看不到這些斷點(diǎn)的,所以我們說:外顯子測序?qū)蚪M的結(jié)構(gòu)菲盾,變異--SV(Structure Variation)吶颓影,是不敏感的。
對(duì)CNV不敏感
外顯子測序?qū)截悢?shù)變異(CNV懒鉴,copy numbervariation)诡挂,不是很敏感碎浇。不敏感的原因吶,是因?yàn)殡s交捕獲過程啊璃俗,是一個(gè)含了很高偶然性的過程奴璃。
也就是說,一個(gè)外顯子片段上城豁,它有多少個(gè)reads(序列)被捕獲下來苟穆,樣本和樣本之間是有很大差異的。
或者說唱星,它的覆蓋度雳旅,本來就是忽高忽低的,因?yàn)橛羞@種忽高忽低吶间聊。
這就導(dǎo)致:一個(gè)外顯子上測到的Reads數(shù)變高攒盈,或者變低。
我們很難判斷哎榴,是因?yàn)檫@種偶然性吶型豁,還是因?yàn)榭截悢?shù)發(fā)生了變異。所以尚蝌,外顯子測序迎变,對(duì)于小片段的拷貝數(shù)變異,它本身是不敏感的驼壶。
但是氏豌,如果基因組上發(fā)生了大片段的拷貝數(shù)變異。比如說热凹,長度在5M(5M base pair)以上的
片段發(fā)生了拷貝數(shù)變異泵喘。那么外顯子測序吶,是可以發(fā)現(xiàn)的般妙,這是因?yàn)檫@樣長的片段當(dāng)中吶纪铺,一般含有多個(gè)外顯子。當(dāng)多個(gè)外顯子的測序Reads數(shù)都發(fā)生了改變碟渺,那么鲜锚,它就會(huì)有統(tǒng)計(jì)上的顯著性。通過這種統(tǒng)計(jì)上的顯著性苫拍,我們可以來判斷:基因組上的確發(fā)生了拷貝數(shù)變異芜繁。
因?yàn)橥怙@子組測序?qū)Y(jié)構(gòu)變異和拷貝數(shù)變異不敏感,所以绒极,在實(shí)際的腫瘤基因測序中吶骏令,科學(xué)家往往是這樣做的:用全基因測序來找到腫瘤樣本中的結(jié)構(gòu),變異(SV)和拷貝數(shù)變異(CNV)垄提,再用來外顯子組測序來找腫瘤樣本中的榔袋、低頻的SNP和Indel體細(xì)胞突變周拐。
捕獲Panel測序
今天,我們?cè)谥v外顯子組測序的同時(shí)吶凰兑。我們就順帶說一下針對(duì)某些疾病所設(shè)計(jì)的捕獲Panel測序妥粟,所謂Panel,往往是指對(duì)若干個(gè)基因設(shè)計(jì)一個(gè)捕獲試劑盒吏够。
診斷公司為診斷特定的疾病勾给,設(shè)計(jì)了許多特定的、針對(duì)性的Panel稿饰。
例如著名的腫瘤診斷公司Foundation Medicine就設(shè)計(jì)了“Foundation One”這個(gè)Panel锦秒。
它(Foundation One)是針對(duì)實(shí)體瘤的一個(gè)Panel,這個(gè)Panel包含了315個(gè)經(jīng)常發(fā)生突變
的腫瘤相關(guān)基因喉镰。還包含了28個(gè)經(jīng)常發(fā)生重排的基因旅择。
這一類的Panel,它的建庫侣姆、捕獲生真、和測序原理,與外顯子組測序是完全一樣的捺宗。
但是因?yàn)樗x擇的基因數(shù)遠(yuǎn)少于外顯子柱蟀,所以就可以用較少的測序量得到非常深的測序深度。
同時(shí)因?yàn)闇y序數(shù)據(jù)量較小蚜厉,所以數(shù)據(jù)分析的難度也會(huì)小許多长已,耗時(shí)也會(huì)更短。這對(duì)于臨床診斷所需的快速響應(yīng)吶昼牛,是有十分多的好處术瓮。
3. small RNA-seq
今天要給大家介紹的是:small RNA-seq,也就是“小RNA的測序”贰健。
那么胞四,小RNA呢,包括了micro RNA/tRNA/piRNA等一系列的伶椿、片段比較短的RNA辜伟。其中,micro RNA因?yàn)槠浠驍?shù)量眾多脊另,同時(shí)张弛,表達(dá)量變化豐富扰法,是近10年來的一個(gè)研究重點(diǎn)痊夭,我們今天分2部分來介紹samll RNA測序华蜒。
第1部分是介紹small RNA的建庫測序方法。
第2部分是介紹small RNA的生物信息學(xué)分析看彼。
建庫方法
那么廊佩,我們先說第1部分,small RNA建庫靖榕。
這張圖是small RNA建庫的流程圖标锄。
在small RNA的結(jié)構(gòu)上,都是5’端有一個(gè)磷酸基團(tuán)茁计,在3’端有一個(gè)羥基基團(tuán)料皇。
在建庫過程中,先在它的3'端連上一個(gè)3'端專用的接頭星压。然后践剂,再在5'端連上一個(gè)5'端專用接頭。
然后進(jìn)行逆轉(zhuǎn)錄娜膘,得到第一鏈的cDNA逊脯。
接著再進(jìn)行PCR擴(kuò)增
這樣就得到了雙鏈的測序文庫。
這張圖竣贪,就是建好的small RNA文庫军洼。
用Agilent Bioanalyzer 2100進(jìn)行電泳,得到的電泳圖演怎。
如圖所示匕争,擴(kuò)增之后得到的small RNA的文庫。
在整個(gè)的擴(kuò)增混合物中爷耀,只占很小的一個(gè)比例甘桑。
所以,一般情況下歹叮,這個(gè)文庫還要經(jīng)過進(jìn)一步的電泳膠分離跑杭。切膠回收,才能得到比較純的盗胀、我們要的small RNA文庫艘蹋。
純化好的文庫,再用Agilent Bioanalyzer 2100進(jìn)行電泳票灰。
我們就可以看到比較純粹的small RNA文庫了女阀。
目前用illumina Truseq small RNA建庫試劑盒。
對(duì)組織中抽提到的總RNA進(jìn)行small RNA建庫屑迂。
一般一個(gè)反應(yīng)需要1微克的總RNA浸策。
同時(shí)small RNA建庫,對(duì)(總)RNA的質(zhì)量也會(huì)有一定的要求惹盼。
一般是要求總RNA的RIN值大于等于8.0庸汗。
關(guān)于RIN值(RNA Integraty number,RNA完整度值)的意義,如果觀眾有不清楚的手报,又想要了解的蚯舱,可以在優(yōu)酷視頻當(dāng)中找一下【陳巍學(xué)基因】《視頻7:RNA-seq》改化,里面有專門的介紹。
生物信息分析
接下來枉昏,我們介紹第2部分:small RNA的生物信息分析陈肛。
small RNA生物信息分析的第1步,是把測序的序列進(jìn)行過濾兄裂。
也就是把引物二聚體句旱、和含有多個(gè)N的這些序列去掉。
然后晰奖,就是統(tǒng)計(jì)各種長度的small RNA各有多少條谈撒。
一般情況下,人源組織所測到的small RNA會(huì)在22BP左右有一個(gè)主峰匾南。這個(gè)主峰就是micro RNA啃匿,同時(shí),30BP左右又會(huì)有一個(gè)副峰午衰,這個(gè)峰立宜,主要是piRNA。
接下來臊岸,就是把small RNA橙数,比對(duì)到參考基因組上。
在參考基因組上比對(duì)好之后帅戒,就可以把這些序列和已知的small RNA數(shù)據(jù)庫進(jìn)行比對(duì)了灯帮。
比較有名的small RNA數(shù)據(jù)庫是miRBase,這個(gè)數(shù)據(jù)庫目前這個(gè)數(shù)據(jù)庫已經(jīng)收錄了2000多條人源的micro RNA基因逻住。
在對(duì)人源樣本的測序過程當(dāng)中钟哥,大家最關(guān)心的主要是micro RNA和piRNA,這2種small RNA瞎访。那么在測序過程當(dāng)中腻贰,實(shí)際上還會(huì)測到rRNA的碎片和tRNA的序列。
因?yàn)閞RNA和tRNA在人的基因組中是十分保守的扒秸,所以一般不是我們關(guān)注的重點(diǎn)播演。
對(duì)表達(dá)量的分析
對(duì)已知small RNA的分析,主要是對(duì)表達(dá)量的分析伴奥。
small RNA的表達(dá)量写烤,一般用TPM來衡量。TPM是Transcripts Per Million reads的
縮寫拾徙。
也就是1百萬條測到的序列當(dāng)中洲炊,某個(gè)目標(biāo)small RNA的序列條數(shù)。
TPM的密度分布圖,能整體展示樣本的small RNA基因表達(dá)情況暂衡。
圖中询微,橫軸是一個(gè)small RNA基因的表達(dá)量。越向右呢狂巢,則這個(gè)基因的表達(dá)量越高拓提。縱軸是有特定表達(dá)量的基因數(shù)量隧膘,越向上,則基因數(shù)目越多寺惫。
從這張圖上可以看出疹吃,少量的基因有高表達(dá),大多數(shù)基因的表達(dá)量西雀,還是相對(duì)偏低的萨驶。
用火山圖,則可以整體地觀察兩個(gè)樣本之間的表達(dá)差異艇肴。
火山圖的橫座標(biāo)腔呜,是某個(gè)small RNA基因的表達(dá)的增減。從0向右再悼,則表達(dá)量上升核畴,從0向左包警,則表達(dá)量下降精刷∧倨簦縱軸則是表達(dá)量差異的顯著性瘾敢,越向上灵莲,則差異越顯著罩句。
一張火山圖叠骑,可以讓我們輕松地觀察2個(gè)火本,樣本之間灭贷,small RNA的表達(dá)差異温学。
聚類分析,則可以幫助我們直觀地觀察甚疟,一批樣本當(dāng)中仗岖,那些樣本有共同的表達(dá)特征。又有哪些small RNA基因有相似古拴、相近的表達(dá)量箩帚。
如這張圖中所展示,樣本經(jīng)過聚類分析黄痪,明顯地可以看出紧帕,其small RNA的表達(dá)譜,呈現(xiàn)2種表達(dá)情況,上綠下紅的樣本呢是嗜,自然地被分到了一組愈案,上紅下綠的樣本呢,就會(huì)被自然地分到另外一組鹅搪。
通過聚類分析站绪,我們可以觀察到樣本內(nèi)在的共同特征。
在人類細(xì)胞中micro RNA主要是通過和mRNA結(jié)合丽柿,來阻止mRNA翻譯成蛋白恢准,從而起到抑制靶基因表達(dá)的作用。目前甫题,只有少數(shù)的micro RNA和靶基因mRNA的對(duì)應(yīng)關(guān)系是經(jīng)過了實(shí)驗(yàn)驗(yàn)證的馁筐。大多數(shù)還是通過序列互補(bǔ)、結(jié)合熱穩(wěn)定性等預(yù)測性手段來預(yù)測的坠非。
所以敏沉,這些關(guān)系不是很精確的。雖然這種預(yù)測不是很精確炎码,但是它能為我們的科研提示有用的研究目標(biāo)盟迟。
靶基因 GO 和 Pathway 分析
接下來,我們說一下micro RNA侯選靶基因的GO分析潦闲、和KEGG Pathway(通路)分析攒菠。
GO分析和KEGG Pathway分析是非常常用的生物信息學(xué)分析手段。
想要了解這2種分析的基本情況的同學(xué)矫钓,可以在優(yōu)酷中找一下【陳巍學(xué)基因】《視頻7:RNA-seq》去看一下要尔。
通過GO分析,表達(dá)差異被富集到分類的GO的子項(xiàng)目當(dāng)中新娜,通過這個(gè)圖赵辕,可以看到“生物過程”、“分子功能”概龄、和“細(xì)胞組件”的哪些環(huán)節(jié)出現(xiàn)了明顯的差異还惠。柱子越高,則表示差異越明顯私杜。
有向無環(huán)圖蚕键,是進(jìn)一步把差異一步一步地富集到更精細(xì)的小概念當(dāng)中進(jìn)行展示。
在這個(gè)圖當(dāng)中衰粹,越向下锣光,功能就越是細(xì)分。同時(shí)铝耻,顏色越深的方塊呢誊爹,則表示差異在這個(gè)小概念當(dāng)中蹬刷,富集程度越高。通過對(duì)表達(dá)差異的micro RNA和它對(duì)應(yīng)的靶基因進(jìn)行KEGG分析频丘,
可以把可能被影響到的通路進(jìn)行富集分析办成。
這個(gè)圖,就是KEGG分析的結(jié)果搂漠。在此圖中迂卢,KEGG富集的程度,通過富集因子桐汤、Qvalue而克、和富集到此通路上的基因個(gè)數(shù),來進(jìn)行衡量怔毛。
點(diǎn)的面積越大拍摇,則富集的基因數(shù)越多,富集因子越大馆截,則表示富集的程度越大。
接下來這個(gè)通路圖蜂莉,是對(duì)某個(gè)特定通路的進(jìn)一步的細(xì)化分析蜡娶。
它可以讓我們看到,在一個(gè)整體的通路中映穗,具體是哪個(gè)窖张、或哪幾個(gè)節(jié)點(diǎn)會(huì)有顯著的差異。
尋找新的 micro RNA 基因
尋找到新的micro RNA基因蚁滋。一般是測序測到新的宿接、有發(fā)夾結(jié)構(gòu)的microRNA前體的序列,同時(shí)測到對(duì)應(yīng)的成熟的micro RNA序列辕录,并且在基因組上又找到了對(duì)應(yīng)的基因序列睦霎,這樣,大體上就判斷(可能是)找到了一個(gè)新的micro RNA基因了走诞。
以上副女,我們說的都是組織中的small RNA的測序和分析。
血漿 micro RNA 測序
隨著技術(shù)的持續(xù)進(jìn)步蚣旱,目前用血清碑幅、或者血漿中的micro RNA來診斷疾病,成為診斷醫(yī)學(xué)十分關(guān)注的一個(gè)研究方向塞绿。這是因?yàn)椋?/p>
血清當(dāng)中有大量的沟涨、種類豐富的micro RNA。并且這些micro RNA可以相對(duì)穩(wěn)定地存在
同時(shí)我們已經(jīng)知道m(xù)icro RNA參與多種基因的表達(dá)調(diào)控
血液又是我們最容易獲得的診斷樣本之一
而且异吻,目前血清裹赴、或者血漿中的micro RNA已經(jīng)可以被方便地測到
所以,許多學(xué)者都在研究血清micro RNA,以期望從中找到新的診斷Biomarker篮昧。
目前赋荆,做一個(gè)血清micro RNA測序,大約只需要0.5毫升左右的血清懊昨、或者血漿窄潭。
也就是相當(dāng)于1毫升的原血就夠了。
用于micro RNA測序用的血清酵颁、或血漿嫉你,可以用3倍體積的Trizol LS來進(jìn)行保存蔬蕊。也就是說炕舵,0.5毫升的血清,加上1.5毫升的Trizol LS咕痛〔疽蹋混合均勻之后呢距误,-20℃、或-80℃保存扁位。然后准潭,通過干冰運(yùn)輸,交給專業(yè)的測序公司域仇,就可以進(jìn)行測序刑然、分析了。
- 單細(xì)胞DNA測序
今天暇务,和大家談一下單細(xì)胞測序泼掠。
自從二代測序技術(shù)出現(xiàn),把一次實(shí)驗(yàn)測許多條DNA序列的這個(gè)難題解決之后垦细,一次把一個(gè)人的全基因組給測出來择镇,最極限的情況,就是樣本量就是少到一個(gè)細(xì)胞括改,就要測出整個(gè)基因組的序列信息沐鼠。
三個(gè)難題
要實(shí)現(xiàn)從一個(gè)細(xì)胞樣本測出全基因組的DNA序列,至少要克服以下3個(gè)難題:
第1個(gè)叹谁,就是如何實(shí)現(xiàn)均勻擴(kuò)增饲梭,也就是說,用傳統(tǒng)的隨機(jī)引物PCR的方法來擴(kuò)增焰檩。那么不同擴(kuò)增片段的擴(kuò)增效率多少會(huì)有一些差異憔涉,這些擴(kuò)增效率的差異會(huì)隨著擴(kuò)增循環(huán)數(shù)的增加,呈現(xiàn)出指數(shù)放大的效果析苫。其結(jié)果就是會(huì)發(fā)生嚴(yán)重的覆蓋不均一兜叨,極少數(shù)區(qū)段的DNA被大量擴(kuò)增穿扳,測序后它深度非常深,但在大多數(shù)區(qū)段只有很低的覆蓋国旷,甚至沒有覆蓋矛物。那么我們就無法有效地判斷那些低擴(kuò)增效率區(qū)段的基因序列的情況。
那么它的第2個(gè)難題跪但,就是 全基因組覆蓋問題履羞。常規(guī)的、用大量DNA進(jìn)行建庫的方法屡久,因?yàn)榇驍嘁涫住⒀a(bǔ)平、加A被环、加接頭等一長串的操作糙及,每一步都會(huì)有DNA片段的損失。結(jié)果就是初始DNA中很大一部分會(huì)被浪費(fèi)掉筛欢,而沒有形成有效的文庫分子浸锨。
在單細(xì)胞測序中,丟失大部分的起始DNA版姑,是不可接受的揣钦。單細(xì)胞測序要求幾乎所有的原始基因組片段都得到擴(kuò)增,并且在后續(xù)的測序過程中被測序測到漠酿。這就要求幾乎所有的片段,都會(huì)被得到擴(kuò)增谎亩,而不只是少數(shù)片段得到有效擴(kuò)增炒嘲。
第3個(gè)難題,是這種方法要有較高的擴(kuò)增效率匈庭。建好的文庫夫凸,在HiSeq測序儀上機(jī)的時(shí)侯,大約每上機(jī)2萬個(gè)文庫分子阱持,只有1個(gè)文庫分子夭拌,是能夠在測序的Flowcell表面生成簇,并且被測序測到的衷咽,剩下的大多數(shù)文庫分子鸽扁,在上機(jī)的時(shí)侯是被水沖走的。所以镶骗,單細(xì)胞基因組擴(kuò)增的方法桶现,還要有較高的擴(kuò)增效率。至少要有上萬倍到幾十萬倍的擴(kuò)增效率鼎姊,才能保證在全基因組測序的時(shí)侯骡和,大部分的片段都被測序測到相赁。
兩種方法
為了解決上述的難題,科學(xué)家想了許多的辦法慰于。
到目前為止钮科,大家比較認(rèn)可的方法有兩種:
第一種是MALBAC方法。
第二種是MDA方法婆赠。
MALBAC方法
我們先來說這個(gè)MALBAC方法绵脯。它的全稱是:MultipleAnnealing and Looping-Based Amplification Cycles。是謝曉亮教授發(fā)明的方法页藻,
這張圖是MALBAC方法的示意圖桨嫁。這個(gè)黑色的線條,就是基因組模板DNA份帐,這些紅顏色的線條就是擴(kuò)增引物璃吧,擴(kuò)增引物的5’端有27個(gè)堿基的通用序列,這些通用序列會(huì)作為未來的PCR通用擴(kuò)增引物的結(jié)合序列废境。擴(kuò)增引物的3’端有8個(gè)隨機(jī)序列的堿基畜挨,這8個(gè)堿基可以隨機(jī)地雜交到基因組DNA的互補(bǔ)序列上。
這些灰色的橢園是Phi 29 DNA聚合酶噩凹,Phi 29 DNA聚合酶有一個(gè)特點(diǎn)巴元,它不僅可以生成新的DNA鏈,它還能把之前已經(jīng)合成好的DNA鏈給解鏈開驮宴。
再形成自己的新鏈逮刨,這個(gè)特點(diǎn)能夠把每個(gè)循環(huán)所能合成的DNA新鏈的數(shù)量提高幾倍、甚至幾十倍堵泽、上百倍修己。
接下來,就是做5個(gè)MALBAC循環(huán)迎罗,請(qǐng)注意睬愤,這里每個(gè)循環(huán)的最后一步是58度退火。我們后面要詳細(xì)解釋這一步58度退火的作用纹安。
第一個(gè)循環(huán)下來尤辱,得到的是一批5’端有通用擴(kuò)增序列的DNA片段。
在第二個(gè)循環(huán)完成后厢岂,所產(chǎn)生的擴(kuò)增產(chǎn)物中光督,大部分是5’端有通用序列。而3’端塔粒,有與通用序列互補(bǔ)的序列的這些片段可帽。
圖中的這4個(gè)步驟,一共重復(fù)5次窗怒,這樣做的巧妙之處映跟,就是要解決我們剛才所說的3個(gè)難題蓄拣。
第一、是要均勻擴(kuò)增
第二、是要全基因組覆蓋
第三、是要有高的擴(kuò)增效率
那么蛹疯,我們先來看這個(gè)線性擴(kuò)增。
剛才咽斧,這個(gè)MALBAC方法的巧妙之處,就是在每個(gè)循環(huán)的最后躬存,加了一步58度退火张惹,這一退火過程,它讓完整擴(kuò)增的產(chǎn)物岭洲,它的兩端發(fā)生鏈內(nèi)雜交宛逗。這樣,3’端的序列就不能與新的盾剩、游離的引物發(fā)生雜交雷激。這也就不會(huì)引新的、發(fā)起始于3’端的擴(kuò)增告私,這樣屎暇,就避免了完整擴(kuò)整的產(chǎn)物的自我指數(shù)擴(kuò)增。
現(xiàn)在驻粟,還是8個(gè)隨機(jī)序列的引物在模板上隨機(jī)地找結(jié)合位置根悼,所有的位點(diǎn)都有一樣的機(jī)會(huì)被擴(kuò)增。
那么蜀撑,這樣實(shí)際得到的產(chǎn)物分3種:
第1種挤巡,就是m* n 個(gè)“完整擴(kuò)增產(chǎn)物”,這是最主要的產(chǎn)物屯掖。這里“m”就是循環(huán)的次數(shù), “n”是一個(gè)循環(huán)中襟衰,有多少個(gè)擴(kuò)增贴铜,引物可以粘到一個(gè)模板上。
第2種擴(kuò)增產(chǎn)物瀑晒,就是(m+1)* n個(gè)“半擴(kuò)增產(chǎn)物”绍坝,第3種DNA,就是那個(gè)原始的DNA模板苔悦,這里完整產(chǎn)物的數(shù)量是“m*n ”轩褐,也就是說,擴(kuò)增產(chǎn)物(的數(shù)量)與擴(kuò)增的循環(huán)次數(shù)“m”成正比玖详,而不是與m的平方成正比把介。更不是與2 的M次方成正比勤讽。
這也就是達(dá)到了,我們想要的“線性擴(kuò)增”的目的拗踢。也就是說擴(kuò)增產(chǎn)物(的數(shù)量)與擴(kuò)增的次數(shù)成線性關(guān)系脚牍。這就達(dá)成了我們單細(xì)胞測序當(dāng)中第1個(gè)要求“線性擴(kuò)增”。
第2個(gè)要解決的難題巢墅,就是“全基因組覆蓋”
這里诸狭,是利用Phi 29聚合酶的能一次在模板上聚合出多個(gè)新鏈的功能來達(dá)到這個(gè)目的。
在5輪的擴(kuò)增之后君纫,每個(gè)模板都會(huì)有5*n^2個(gè)擴(kuò)增片段驯遇。這樣,就可以保證建庫時(shí)大多數(shù)的
基因組區(qū)域可以被建成文庫蓄髓,最后叉庐,可以被(測序)測到。
第3個(gè)要解決的問題“高效率擴(kuò)增”双吆。還是利用了這個(gè)Phi 29酶的一次得到多個(gè)擴(kuò)增片段的這個(gè)效果眨唬,來達(dá)成的。
上面所說的好乐,就是MALBAC單細(xì)胞擴(kuò)增技術(shù)的基本原理匾竿、和它的巧妙之處。
MDA方法
目前市場上還有一種單細(xì)胞的擴(kuò)增技術(shù)蔚万,叫MDA擴(kuò)增技術(shù)岭妖。它的全稱是MultipleDisplacement Amplification。
MDA方法的技術(shù)核心是用Phi 29 DNA聚合酶來進(jìn)行直接的擴(kuò)增反璃。
Phi 29酶的特點(diǎn)是昵慌,它可以把雙鏈DNA進(jìn)行解鏈,然后淮蜈,在常溫條件下斋攀,就把原始模板進(jìn)行大量擴(kuò)增。
兩種方法的比較
把MDA和MALBAC兩種方法進(jìn)行比較
MDA的優(yōu)勢在于梧田,它的擴(kuò)增效率更高淳蔼,并且,實(shí)驗(yàn)方法更簡單裁眯。
MALBAC方法的特點(diǎn)鹉梨,在于它的擴(kuò)增均一性更好。但是穿稳,它得到的擴(kuò)增DNA量相對(duì)較少存皂,或者說,它的擴(kuò)增效率相對(duì)比較低逢艘。
這張圖是:大量細(xì)胞測序旦袋、MDA方法測序骤菠、MALBAC方法測序,這三種測序結(jié)果的Lorenz曲線猜憎。
Lorenz曲線是越接近于對(duì)角線娩怎,則覆蓋越均一,從圖中胰柑,我們可以看出大量細(xì)胞測序截亦,它的均一性是最好的。
用MALBAC方法測序柬讨,它的均一性比大量細(xì)胞測序的均一性要差一些崩瓤,但是要比MDA的方法的均一度要好。
這張圖是用三種方法來測腫瘤細(xì)胞中的拷貝數(shù)變異踩官。其中橫軸是染色體的序列却桶,縱軸是測序的覆蓋深度,可以明顯地看到蔗牡,在大量細(xì)胞測序的結(jié)果中颖系,可以非常直觀地看到拷貝數(shù)變異的情況。
而用MALBAC的方法辩越,也還是能夠比較清楚地看到拷貝數(shù)變異嘁扼。但是,它沒有大量細(xì)胞測序的結(jié)果那么清楚黔攒。
而用MDA的方法來看拷貝數(shù)變異趁啸,則不是那么容易看清楚。
臨床應(yīng)用
單細(xì)胞測序督惰,有著廣泛的應(yīng)用前景不傅。目前最主要2個(gè)應(yīng)用:1個(gè)是在胚胎植入前進(jìn)行基因拷貝數(shù)變異檢測。第2個(gè)赏胚,是進(jìn)行腫瘤的染色體變異研究访娶。
在這里我們介紹一下,單細(xì)胞測序在胚胎植入前檢測中的應(yīng)用觉阅,在有習(xí)慣性流產(chǎn)的夫婦當(dāng)中崖疤,最常見的病因就是染色體的平衡易位,所謂染色體平衡易位留拾,也就是A染色體戳晌,的一段移到了B染色體上鲫尊。
如果夫妻一方有染色體平衡易位痴柔,那么這對(duì)夫婦的受精卵中,每4個(gè)受精卵疫向,可能只有1個(gè)是正常的。剩下3個(gè)(不正常的受精卵),很可能會(huì)流產(chǎn)碑隆。
要把這一個(gè)正常的受精卵挑出來丐一,目前,最有效的解決手段是做受精卵植入前檢測卓缰。
那么具體的操作方法,就是先做人工受精。
在受精卵發(fā)育到8個(gè)細(xì)胞的時(shí)侯扔字,通過顯微操作,抓一個(gè)細(xì)胞出來進(jìn)行測序温技。
在這個(gè)測序過程當(dāng)中革为,就要用到MDA方法或MALBAC方法進(jìn)行擴(kuò)增、建庫舵鳞、測序震檩。
然后測序完成之后,挑出那個(gè)好的受精卵蜓堕,植回到母親的子宮中去抛虏。長成一個(gè)正常的新生兒。
這個(gè)套才,就是受精卵植入前基因檢測迂猴。
這項(xiàng)技術(shù),是對(duì)生殖健康有很大幫助的一項(xiàng)新技術(shù)霜旧。
- 單細(xì)胞mRNA測序
今天错忱,想和大家談一下單細(xì)胞mRNA測序技術(shù)。
單細(xì)胞mRNA測序一直是科學(xué)家關(guān)注的一個(gè)熱點(diǎn)挂据。目前市場主要有2種建庫方法以清,分別是Clontech公司推出的SMART法,和EpiCentre公司推出的TargetAmp方法崎逃。
要實(shí)現(xiàn)單細(xì)胞mRNA測序掷倔,需要解決2個(gè)難題。
第一個(gè)難題:PCR偏差
第一個(gè)難題就是一個(gè)人類細(xì)胞當(dāng)中个绍,它的總RNA量大約只有10pg左右(1pg=10-12g),中的mRNA的量大約只有0.2個(gè)pg勒葱。要把那么少的mRNA轉(zhuǎn)變成約零點(diǎn)幾個(gè)μg(1μg=10-6g)以上的核酸文庫,這意味著核酸的擴(kuò)增量要達(dá)到幾百萬倍以上巴柿。
如何能在這個(gè)核酸擴(kuò)增過程當(dāng)中不引入太多的PCR偏差凛虽,就一直是個(gè)大問題。
所謂PCR偏差广恢,就是在PCR擴(kuò)增過程當(dāng)中凯旋,某些片段被大量擴(kuò)增,而大部分片段被擴(kuò)增的量很少,甚至根本就沒有被擴(kuò)增至非。結(jié)果就導(dǎo)致高通量測序钠署,只能測到這所有樣本當(dāng)中很少一部分的片段序列。
PCR偏差會(huì)隨著PCR循環(huán)的次數(shù)的增多而指數(shù)放大荒椭。那么谐鼎,在這種情況下,一方面要把核酸擴(kuò)增幾百萬倍趣惠,甚至更多的倍數(shù)狸棍;另一方面,又想得到均一覆蓋的文庫味悄,這就是單細(xì)胞mRNA建庫當(dāng)中隔缀,所要解決的第一個(gè)大難題。
第二個(gè)難題:去除核糖體RNA
第二個(gè)難題是如何能盡可能高效地得到“mRNA”的文庫傍菇,而不是含了大量“rRNA”序列的文庫猾瘸。因?yàn)閞RNA在總RNA當(dāng)中占了95%,甚至更高的比例丢习,而mRNA在總RNA當(dāng)中只占2~3%的比例牵触。如果不加區(qū)分地進(jìn)行逆轉(zhuǎn)錄,再擴(kuò)增咐低、建庫很可能測序得到的絕大部分序列都是rRNA的序列揽思。
但是 rRNA序列不能給我們帶來有效的生物信息,它是無用的见擦。而只有測到mRNA的序列钉汗,才是我們想要的信息,這樣鲤屡,如何能夠選擇性地把mRNA轉(zhuǎn)化成測序文庫损痰,并且避免把rRNA帶到測序文庫中來,這就是單細(xì)胞mRNA測序當(dāng)中酒来,要解決的第二個(gè)大難題卢未。
接下來,我們就來介紹SMART方法和TargetAmp方法堰汉,是分別如何解決上述2個(gè)大難題的辽社。
SMART方法
我們先來介紹Clontech公司推出的SMART方法。
SMART方法的全稱是Switching Mechanism at 5’ End of RNA Template翘鸭。
這張圖就是SMART方法的原理圖滴铅。
SMART方法最核心的技術(shù),就是設(shè)計(jì)了2個(gè)特殊的引物就乓。再配合用MMLV逆轉(zhuǎn)錄酶進(jìn)行逆轉(zhuǎn)錄汉匙。
我們先來看這個(gè)逆轉(zhuǎn)錄的起始引物譬淳。它哪,先是一段通用序列盹兢,未來這個(gè)通用序列會(huì)用作PCR擴(kuò)增的引物識(shí)別序列,中間是一長串的T守伸,這些T是專門識(shí)別mRNA的3’末端的Poly(A)尾巴序列绎秒。它會(huì)和這些Poly(A)尾巴互補(bǔ)結(jié)合,引物的最末端有一個(gè)定位的結(jié)構(gòu)尼摹,這個(gè)定位的結(jié)構(gòu)见芹,就是在它的3’末端的倒數(shù)第2個(gè)堿基是一個(gè)非T的簡并堿基。
圖中用V來表示這個(gè)堿基蠢涝。V堿基就是或A玄呛、或C、或G和二,但是非T的這樣一個(gè)(簡并)堿基徘铝。
最后1個(gè)堿基則是簡并堿基N,也就是A/C/G/T都有可能惯吕。
引物的這個(gè)末端結(jié)構(gòu)惕它,就是讓它正好結(jié)合在mRNA的3’端連到Poly(A)尾巴的這個(gè)連接處,而不會(huì)結(jié)合到mRNA的別的地方废登。這樣就保證了逆轉(zhuǎn)錄的起始位置正好是mRNA的3’端的序列終止位置淹魄。
我們?cè)賮砜催@個(gè)MMLV逆轉(zhuǎn)錄酶,這個(gè)酶有個(gè)特點(diǎn)堡距,就是它在轉(zhuǎn)錄到mRNA的5’端末端的時(shí)侯甲锡,會(huì)在新合成的cDNA的3’末端,多加出幾個(gè)C堿基來羽戒。
再接下來缤沦,這個(gè)上游引物會(huì)發(fā)揮它的作用。這個(gè)上游引物易稠,它有一個(gè)特點(diǎn)疚俱,它的3’端是3個(gè)非脫氧的G堿基,也就是核糖核酸的缩多、RNA的G堿基呆奕,而不是DNA的G堿基,這個(gè)引物可以與剛才新合成的cDNA的3’端的那幾個(gè)C堿基發(fā)生互補(bǔ)雜交衬吆,然后引導(dǎo)這個(gè)MMLV酶再次發(fā)揮聚合作用梁钾,以剛才那條新合成的cDNA為模板,復(fù)制的結(jié)果逊抡,就是得到雙鏈的cDNA姆泻。
這個(gè)雙鏈cDNA零酪,兩端都已經(jīng)接好了我們?nèi)斯ぴO(shè)計(jì)的PCR引物序列甲葬,然后科侈,就加入常規(guī)的PCR引物,進(jìn)行常規(guī)的PCR擴(kuò)增离钝,常規(guī)PCR擴(kuò)增方咆,得到大量DNA月腋。然后可以象常規(guī)的DNA建庫那樣,超聲打斷瓣赂、建庫榆骚、上機(jī)測序了。
我們回顧一下這個(gè)過程煌集,可以看到這個(gè)方法的3個(gè)巧妙點(diǎn)妓肢。
第1點(diǎn),是先用一個(gè)定位引物苫纤,保證cDNA的合成是從mRNA的3’最末端開始的碉钠,同時(shí)讓合成出的cDNA在下游連上了一個(gè)通用PCR序列。
第2點(diǎn)卷拘,是利用MMLV逆轉(zhuǎn)錄酶會(huì)在新合成的cDNA的3'端放钦,多加上幾個(gè)C堿基的特點(diǎn),再用有3個(gè)G堿基的上游引物進(jìn)行第二鏈的合成恭金。這就保證只有完整的第一鏈cDNA也就是那些帶多個(gè)“C”的cDNA(第一鏈)才能被合成出cDNA的第二鏈操禀,這也就保證了雙鏈cDNA是全長的cDNA。
第3點(diǎn)横腿,就是要保證PCR擴(kuò)增的效率的一致性那我們知道颓屑,PCR擴(kuò)增效率的最主要的影響因素是引物的序列,現(xiàn)在因?yàn)閏DNA的5’端和3’端的都分別引入了統(tǒng)一的引物序耿焊,所以揪惦,這就去除了因?yàn)橐镄蛄械牟煌6餚CR效率不同的罗侯,這個(gè)最主要的偏差因素器腋。這也就在較大程度上保證了PCR擴(kuò)增效率的一致性,減少了PCR偏差钩杰。
經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn)
用SMART方法纫塌,對(duì)于1個(gè)細(xì)胞,也就是10pg總RNA的RNA進(jìn)行建庫測序讲弄,RPKM為10的這些基因措左,有60%是被測序測到的;對(duì)RPKM為100的基因避除,有90%可以被測序測到怎披。而且被測到的幾率胸嘁,波動(dòng)很小。這說明SMART方法是一個(gè)有效的單細(xì)胞mRNA測序方法凉逛。
TargetAmp方法
接下來性宏,我們介紹第2個(gè)單細(xì)胞mRNA建庫的方法--TargetAmp方法
這個(gè)方法是由Illumina公司旗下的EpiCentre公司開發(fā)的。
這個(gè)就是TargetAmp的原理圖状飞。
首先是用T7-Oligo(dT)的引物進(jìn)行cDNA合成毫胜。這個(gè)引物,在5’端有設(shè)計(jì)了一個(gè)T7啟動(dòng)子序列昔瞧。3’端是多個(gè)的T堿基,這一串T堿基可與mRNA的poly(A)尾巴相結(jié)合菩佑,作為逆轉(zhuǎn)錄的起始引物自晰,經(jīng)過逆轉(zhuǎn)錄,得到第一鏈的cDNA稍坯。同時(shí)這條cDNA鏈上酬荞,被引入了一個(gè)T7啟動(dòng)子。
然后用RNase H酶把cDNA:RNA雙鏈產(chǎn)物中的這個(gè)RNA鏈消化掉瞧哟,接著再合成出第二條cDNA鏈來混巧,這個(gè)雙鏈的cDNA就可以作為轉(zhuǎn)錄的模板。利用鏈上的T7啟動(dòng)子勤揩,轉(zhuǎn)錄出大量的反義RNA來(antisense-RNA咧党,aRNA)。
接著陨亡,將這些反義RNA進(jìn)行純化傍衡。再用隨機(jī)引物進(jìn)行逆轉(zhuǎn)錄,得到第二輪的cDNA负蠕,接著蛙埂,再用T7-Oligo(dT)這個(gè)引物,粘到第二輪的cDNA的Poly(A)尾巴上遮糖,再合成出雙鏈DNA來绣的。
這個(gè)雙鏈的cDNA再經(jīng)過第二輪的轉(zhuǎn)錄,又得到第二輪的反義RNA欲账,這些第二輪的反義RNA的量屡江,足可以達(dá)到微克級(jí)。再經(jīng)過一輪逆轉(zhuǎn)錄赛不,就可以得到幾個(gè)微克的cDNA盼理。那么幾個(gè)微克的cDNA,就足以進(jìn)行建庫俄删、測序之用了宏怔。
我們來看TargetAmp方法的巧妙之處:
它不是用PCR來擴(kuò)增核酸奏路,而是用轉(zhuǎn)錄的方法來增加核酸的量。因?yàn)閿U(kuò)增那么多(倍)的核酸臊诊,如果用PCR鸽粉,要用幾十個(gè)循環(huán),那么PCR不同的擴(kuò)增子的擴(kuò)增效率抓艳,即使一開始是很小的差異触机,也會(huì)在幾十個(gè)循環(huán)中,被指數(shù)放大玷或,變成一個(gè)很大的差異儡首。
那么TargetAmp方法用轉(zhuǎn)錄的辦法,而且統(tǒng)一都用T7這個(gè)統(tǒng)一的啟動(dòng)子偏友,它轉(zhuǎn)錄的啟始效率蔬胯,大體上就保持了一致。
它的每一輪轉(zhuǎn)錄位他,都把核酸的量擴(kuò)大幾千倍氛濒。經(jīng)過這樣兩輪的擴(kuò)增,就把核酸的量擴(kuò)大了幾百萬倍鹅髓。這樣舞竿,一方面它得到了高達(dá)幾微克的核酸。足夠用于建庫窿冯,同時(shí)又避免了PCR過程骗奖,也就避免了PCR擴(kuò)增偏差
單細(xì)胞mRNA測序方法,在循環(huán)腫瘤細(xì)胞研究醒串、胚胎發(fā)育研究重归、和神經(jīng)活動(dòng)研究方面,有著廣泛的應(yīng)用厦凤。
隨著高通量測序的費(fèi)用不斷地降低鼻吮,它正變成科研中越來越普及的研究手段。相信有更多單細(xì)胞mRNA建庫方法较鼓,和更新的技術(shù)應(yīng)用會(huì)不斷地被開發(fā)出來
- 甲基化測序
本期節(jié)目椎木,要給大家介紹一下DNA的甲基化和羥甲基化的高通量測序。
DNA的甲基化是在DNA的序列不變的條件下博烂,在其中某些堿基上加上甲基的這樣一個(gè)過程香椎。
DNA甲基化的結(jié)果,一般是使甲基化位點(diǎn)的下游的基因表達(dá)量變少禽篱。
化學(xué)反應(yīng)
這個(gè)(甲基化)分析方法當(dāng)中的核心化學(xué)反應(yīng)畜伐,是用亞硫酸氫鹽來處理DNA。DNA當(dāng)中躺率,沒有甲基化或羥甲基化的C堿基玛界,就會(huì)被轉(zhuǎn)化成U堿基万矾。
我們來看這個(gè)轉(zhuǎn)化的過程,在弱酸性條件下慎框,亞硫酸氫根會(huì)結(jié)合到?jīng)]有甲基化的C堿基的6位良狈。而甲基化了的C堿基不會(huì)和亞硫酸氫根發(fā)生這個(gè)反應(yīng)的宵蕉。
然后愿险,用堿來處理。結(jié)合了亞硫酸氫根的非甲基化的C灭衷,就被脫氨基馅精,并且脫亞硫酸根严嗜。然后,就被轉(zhuǎn)化成U堿基洲敢。
那么漫玄,甲基化或者羥甲基化的C堿基,因?yàn)橹皼]有和亞硫酸氫根起反應(yīng)沦疾,所以現(xiàn)在用堿來處理称近,它也不會(huì)發(fā)生脫氨基反應(yīng)第队。所以哮塞,它還保持了是“C”。
用亞硫酸氫鹽來處理DNA凳谦,可以讓99%左右的非甲基化的C堿基變成U忆畅。
也就是說這種方法的的轉(zhuǎn)化效率非常高,轉(zhuǎn)化效率達(dá)到了99%尸执。
它的優(yōu)點(diǎn)家凯,就可以讓我們接下來通過高通量測序的方法,可以精確地看到單個(gè)堿基的甲基化的水平如失。
經(jīng)過亞硫酸氫鹽轉(zhuǎn)化過的DNA绊诲,再經(jīng)過PCR,PCR新合成出來的鏈褪贵,U堿基的位置掂之,就會(huì)被替換成了“T”。那么在接下來的測序過程中脆丁,測到的也是T堿基世舰。
而甲基化的C,因?yàn)闆]有被亞硫酸氫鹽所轉(zhuǎn)化槽卫,所以跟压,在接下來的測序過程中,被測到的歼培,還是“C”堿基震蒋。
這樣茸塞,通過測序,看一個(gè)位置是“C”喷好,還是“T”翔横。如果它保持是“C”,就說明這個(gè)位置是被甲基化梗搅、或者羥甲基化了禾唁。如果測到的是“T”,就說明這個(gè)位置是沒有被甲基化无切、或者羥甲基化荡短。
建庫方法
接下來,我們談一下甲基化的建庫過程哆键。
先說第一種掘托,用Illumina公司的Truseq DNA建庫方法,來做甲基化測序籍嘹。
因?yàn)镮llumina Truseq DNA建庫試劑盒當(dāng)中闪盔,它所提供的接頭,那么這個(gè)接頭上的C堿基都是已經(jīng)經(jīng)過甲基化修飾了辱士。
所以泪掀,用這些接頭做出來的文庫,在用亞硫酸氫鹽做轉(zhuǎn)化的過程當(dāng)中颂碘,它的(接頭上的)C還是保持是C 异赫,不會(huì)被轉(zhuǎn)成U。
帶了這些接頭的文庫分子头岔,就可以和測序芯片上的草皮DNA發(fā)生互補(bǔ)雜交塔拳。并且進(jìn)一步發(fā)生橋式PCR反應(yīng)。生成測序用的DNA的簇(Cluster)峡竣。
但是靠抑,這個(gè)方法有一個(gè)缺點(diǎn),就是在用亞硫酸氫鹽處理DNA文庫的時(shí)侯适掰,90%以上的DNA鏈會(huì)斷掉颂碧。這樣,已經(jīng)建好的文庫攻谁,其中90%分子會(huì)被破壞掉稚伍。也就是說文庫的豐富度就會(huì)損失90%以上。
那么戚宦,相應(yīng)的它有它的好處个曙,它的好處就是,在這個(gè)建庫過程當(dāng)中用的PCR循環(huán)數(shù)較少。所以它PCR擴(kuò)增效率不同垦搬,所引起的文庫不均一程度也就較低呼寸。也就是我們通常所說的PCR bias較少。
接下來猴贰,再說第二種建庫方法对雪。
為了解決文庫豐富度受到損失的這個(gè)問題,EpiCentre公司開發(fā)了EpiGnome方法米绕,方法的操作過程如圖瑟捣。
第1步,亞硫酸氫鹽先處理DNA栅干,把未甲基化的C都轉(zhuǎn)變成U迈套。
第2步,把帶標(biāo)簽1的隨機(jī)引物加入碱鳞,進(jìn)行第一次的復(fù)制桑李。得到第1條的復(fù)制鏈。
第3步窿给,是消化掉過量的引物贵白。
第4步,是加入帶末端終止堿基崩泡、并帶標(biāo)簽2的隨機(jī)引物禁荒。這個(gè)引物的作用是讓第1復(fù)制鏈延伸,并且加上標(biāo)簽2允华。
第5步是加入建庫的PCR引物圈浇,進(jìn)行PCR寥掐。通過PCR靴寂,把Index序列和成簇引物序列加入到鏈的兩側(cè)。得到真正的文庫召耘。
這個(gè)方法的優(yōu)點(diǎn)是百炬,把亞硫酸氫鹽處理的過程,放在了建庫之前污它。這樣建成的庫的豐富程度會(huì)比較高剖踊。但是這個(gè)方法也有缺點(diǎn),缺點(diǎn)就是要做較多的PCR循環(huán)衫贬,那么有了比較多的PCR循環(huán)之后德澈,PCR產(chǎn)物的擴(kuò)增均一性是不太好的。也就是說PCR bias會(huì)比較大固惯。
上述兩種方法梆造,各有優(yōu)缺點(diǎn)。
HiSeq2000/2500****測甲基化文庫的問題葬毫、和解決方案
在Illumina的HiSeq 2000或者2500平臺(tái)上進(jìn)行測序镇辉,如果文庫是堿基平衡的文庫屡穗,也就是說,每個(gè)特環(huán)當(dāng)中忽肛,A/C/G/T四種堿基的比例村砂,各占25%左右的話,測序儀對(duì)堿基的判讀會(huì)比較好屹逛。
但是如果缺少了一種或者幾種堿基础废,測序儀對(duì)堿基的判讀就會(huì)出問題。測序得到的數(shù)據(jù)質(zhì)量就會(huì)下降罕模。并且效的數(shù)據(jù)產(chǎn)量也會(huì)降低色迂。
關(guān)于文庫堿基平衡度影響數(shù)據(jù)質(zhì)量和產(chǎn)量的原因,在【陳巍學(xué)基因】第二期的視頻手销,HiSeq義器的工作原理這一集中有介紹歇僧。大家可以在優(yōu)酷當(dāng)中找一下,并且看一下锋拖。
因?yàn)榧谆膸熘薪?jīng)過亞硫酸氫鹽處理诈悍,絕大多數(shù)的C都變成了T。所以兽埃,這個(gè)文庫中是嚴(yán)重地缺少C堿基的侥钳,也就是四種堿基的比例是嚴(yán)重不平衡的。這樣在用HiSeq 2000或2500測序儀來測甲基化文庫的過程當(dāng)中柄错,文庫測序得到的數(shù)據(jù)質(zhì)理就較差舷夺。并且經(jīng)過PF過濾得到的有效的數(shù)據(jù)產(chǎn)量也會(huì)較低。
為了彌補(bǔ)甲基化文庫的堿基不平衡性售貌,一般情況下给猾,在上機(jī)過程當(dāng)中,是摻入大比例的基因組文庫颂跨,或者PhiX文庫敢伸,來補(bǔ)充比較多的C堿基,一般會(huì)摻30%的PhiX文庫恒削、或者基因組文庫池颈。
在摻入30%的PhiX文庫的條件下,一條HiSeq 2000 V3 PE100的Lane钓丰,大概可以得到20G 左右的甲基化文庫數(shù)據(jù)躯砰。
也就是說,在HiSeq 2000或者2500平臺(tái)上携丁,甲基化文庫的測序數(shù)據(jù)產(chǎn)量琢歇,一直都不是很高盖文。質(zhì)量也比較低脖阵。
羥甲基化測序
接下來,我們說一下區(qū)分“羥”甲基化和甲基化的測序方法。
在用單純的亞硫酸氫鹽法來測的過程當(dāng)中京郑,甲基化和差甲化的C堿基都不能被轉(zhuǎn)化成U堿基翠拣,所以單純的亞硫酸氫鹽法是無法區(qū)分甲基化或羥甲基化的C堿基的按摘。
為了區(qū)分甲基化和羥甲基化朗徊,科學(xué)家想出了兩種辦法。
第一種辦法娜庇,是通過高釕酸鉀(KRuO4)來氧化羥甲基化的C塔次。羥甲基化的C可以被轉(zhuǎn)化成甲酰化的C堿基名秀,而甲趵海化的C堿基,是可以被亞硫酸氫鹽轉(zhuǎn)化成U的匕得。
而甲基化的C继榆,不會(huì)被轉(zhuǎn)化成U。這樣就把原來的羥甲基化的C和甲基化的C給區(qū)分開來了汁掠。
經(jīng)研究表明略吨,用高釕酸鉀氧化的方法來氧化羥甲基化的C,其轉(zhuǎn)化效率是94%左右考阱。也就是說翠忠,每100個(gè)羥甲基化的C中,有94個(gè)會(huì)被高釕酸鉀轉(zhuǎn)化成甲跗蛘ィ化的C秽之。并進(jìn)一步被亞硫酸氫鹽轉(zhuǎn)化成U。
同時(shí)吃既,原來的甲基貨攤C考榨,只有2.1%會(huì)被轉(zhuǎn)化成甲酰化的C态秧。
第二鐘區(qū)分羥甲基化C的方法董虱,是用糖基把羥甲基化的C給保護(hù)起來扼鞋。然后用TET蛋白(Ten-eleven translocation methylcytosine dioxygenase 1)申鱼,把甲基化的C轉(zhuǎn)化成羥基化的C。
進(jìn)一步將羥甲基化的C轉(zhuǎn)化成甲踉仆罚化的C和羧基化的C捐友。甲酰化的C和羧基化的C都可以被亞硫酸氫鹽轉(zhuǎn)化成U溃槐。
而之前被糖基化保護(hù)起來的羥甲基化的C匣砖,是不會(huì)被TET蛋白轉(zhuǎn)化成甲酰化的C或者羧基化的C的。在亞硫酸氫鹽的處理過程中猴鲫,它還保持是C对人。并且在之后的PCR擴(kuò)增產(chǎn)物中,也表現(xiàn)為C拂共。
這樣牺弄,就可以把羥甲基化的C,和甲基化的C宜狐,給區(qū)分開來势告。
用這個(gè)方法,沒有甲基化的C抚恒,99.6%都被轉(zhuǎn)化成了U咱台。甲基化的C,97.7%都被轉(zhuǎn)化成了U俭驮。而羥甲基化的C回溺,只有8%被化成了U。
也就是說92%的羥甲基化的C得到了糖基的保護(hù)混萝,還保持了C馅而。
上述,就是目前2個(gè)區(qū)分羥甲基化的C和甲基化C的方法譬圣。
設(shè)置內(nèi)參
在甲基化文庫建程當(dāng)中瓮恭,亞硫酸氫鹽對(duì)未甲基化的C的轉(zhuǎn)化效率并不是100%,一般是在99%左右厘熟。
為了對(duì)實(shí)驗(yàn)的轉(zhuǎn)化效率進(jìn)行質(zhì)量控制屯蹦。一般會(huì)在轉(zhuǎn)化實(shí)驗(yàn)當(dāng)中加入內(nèi)參對(duì)照品。
一般情況下绳姨,是用甲基化酶缺陷型的大腸桿菌登澜,所生產(chǎn)出來的完全沒有被甲基化的λ(噬菌體)DNA,或者pUC19(質(zhì)粒)DNA做內(nèi)參飘庄。來看一次實(shí)驗(yàn)當(dāng)中C的轉(zhuǎn)化效率脑蠕。
一般情況下,實(shí)驗(yàn)當(dāng)中是加入1%的完全沒有甲基化的λ DNA做內(nèi)參跪削。
同樣道理谴仙,也可以通過用甲基化酶處理過的,CpG島完全被甲基化的DNA碾盐,來跟蹤甲基化DNA對(duì)亞硫酸氫鹽轉(zhuǎn)化的抵抗效果晃跺。
數(shù)據(jù)分析
最后,我們來談一下毫玖,甲基化測序后的數(shù)據(jù)處理掀虎。
因?yàn)閬喠蛩釟潲}處理過后凌盯,絕大部分的C都被轉(zhuǎn)化成了T。這樣烹玉,測出來的序列在和基因組進(jìn)行對(duì)比的時(shí)侯驰怎,直接對(duì)比是對(duì)比不上的。
為了要進(jìn)行比對(duì)二打,就要把基因組的堿基做兩種轉(zhuǎn)變砸西。
第一種轉(zhuǎn)變是把基因組上所有的C都改到T,再來和測序測到的序列來對(duì)比址儒。這樣芹枷,就可以把原來的鏈給對(duì)比上。
第二種轉(zhuǎn)變莲趣,是把基因組上所有的G都變成A鸳慈,這樣才能和經(jīng)過PCR得到的原樣本鏈睥互補(bǔ)鏈對(duì)比得上。這樣做的原因喧伞,是原樣本鏈的互被鏈走芋,它上面絕大部分的G,都被變成了A潘鲫。所以翁逞,只有把(參考)基因組上的G,也都改成A溉仑,這樣才能對(duì)比得上挖函。
比對(duì)上之后,再來看哪些堿基是沒有被轉(zhuǎn)化的浊竟。這樣怨喘,就可以確認(rèn)這些堿基的甲基化修飾情況了。
再接下來振定,針對(duì)基因進(jìn)行GO和Pathway的分析必怜。在【陳巍學(xué)基因】第8期視頻,RNA-seq當(dāng)中后频,對(duì)GO和Pathway有詳細(xì)的介紹梳庆,大家可以在優(yōu)酷或者騰訊視頻當(dāng)中搜一下,看一下卑惜。
補(bǔ)充材料
DNA的甲基化分析膏执,還有很多種方法,有興趣的同學(xué)残揉,可以在微信公眾號(hào)【陳巍學(xué)基因】當(dāng)中胧后,回復(fù)“甲基”兩個(gè)字,就可以看到7種其它分析DNA甲基化的方法抱环。
7.Moleculo長測序
今天壳快,會(huì)和大家談一談“Moleculo”測序方法。
Moleculo原來是美國的一家創(chuàng)業(yè)公司镇草。這家公司開發(fā)了一種拼接長測序序列的方法眶痰。這個(gè)方法一經(jīng)面世,就引起了Illumina的重視梯啤,Illumina馬上出巨資竖伯,收購了這家公司。
在收購了Moleculo之后因宇,Illumina把這個(gè)方法進(jìn)行了優(yōu)化七婴。優(yōu)化之后,以“TruSeq Synthetic
Long-Read DNA Library Kit”的形式察滑,出現(xiàn)在Illumina的新產(chǎn)品當(dāng)中打厘。
在全新的基因組組裝工作中,也就是我們通常所說的“De Novo”工作中贺辰,最核心的技術(shù)點(diǎn)户盯,是能否得到大量的、長讀長的序列饲化。所以莽鸭,得到長的讀長序列,一直是做De novo工作的科學(xué)家所追求的有效技術(shù)手段吃靠。
另外硫眨,長讀長的序列還可以幫助科學(xué)家來確定染色體單體的基因型。
Illumina標(biāo)準(zhǔn)的HiSeq/MiSeq測序方法巢块,提供了一次給出大量序列的方法捺球。它的序列,精度也很高夕冲,每個(gè)G的數(shù)據(jù)的測序成本也很低氮兵,但是,相對(duì)于De novo工作來說歹鱼,它的讀長還是不夠長泣栈。
舉例來說,Illumina旗下測序長度最長的MiSeq測序儀它的測序長度是:雙端各300個(gè)堿基弥姻。那么南片,我們把這雙端的300個(gè)堿基拼起來,中間交錯(cuò)100個(gè)堿基庭敦,可以得到一個(gè)500堿基的讀長疼进,
那么,我們要用500堿基讀長的序列來組裝一個(gè)和人類基因組大小相近的一個(gè)基因組秧廉,也就是單倍體長度為30億個(gè)堿基長度的基因組,就相當(dāng)于用筷子那么長(25厘米)的鐵軌稳其,來拼出一個(gè)京滬鐵路(1300公里)唉堪。大家稍微想一想,就可以想出其中的難度减拭。
Moleculo方法,它的巧妙點(diǎn)就是可以把Illumina不算太長的序列区丑,拼接成一個(gè)一個(gè)10KB讀長的序列拧粪,然后,再拼出基因組來沧侥。
接下來可霎,我們就來介紹一下這個(gè)巧妙的辦法。
第一步宴杀,分拆
首先是把長片段的基因組DNA癣朗,也就是40KB以上的長片段的基因組DNA,打斷成10KB左右的DNA片段婴氮。
這個(gè)打斷的過程斯棒,是用Covaris公司出品的g-TUBE方法來打斷的。g-TUBE可以把長的基因組DNA主经,打斷成5KB-20KB長度的片段荣暮。
打斷了的DNA片段,末端大多數(shù)不是平齊的罩驻。接下來穗酥,就要用酶把這個(gè)末端給補(bǔ)平。
補(bǔ)平的過程惠遏,是用T4 DNA聚合酶砾跃、和Klenow聚合酶,兩者的混合酶來進(jìn)行補(bǔ)平节吮。然后抽高,再用T4 DNA寡核苷酸激酶,在5'端統(tǒng)一地加上磷酸基團(tuán)透绩。
補(bǔ)平之后翘骂,再用去掉了3'端外切酶活性的Klenow大片段聚合酶來進(jìn)行處理。
這樣帚豪,可以在每個(gè)片段的兩個(gè)3'端碳竟,都各加上一個(gè)A堿基。加好了A堿基之后再用連接酶狸臣,在DNA片段的兩端連上第一步的PCR接頭莹桅。
連好接頭的DNA片段,走瓊脂糖凝膠烛亦,切膠回收10KB左右的DNA片段诈泼。
回收下來的DNA片段懂拾,用qPCR進(jìn)行精確定量。
第二步厂汗,擴(kuò)增
用qPCR精確定量好之后的DNA片段委粉,做成一個(gè)長PCR的Master Mix呜师。
然后娶桦,把這個(gè)Master Mix分散到384孔PCR板里面,進(jìn)行長PCR汁汗。
那么這里有一個(gè)注意點(diǎn):就是如果是用來做De novo的文庫衷畦,那么稀釋到384孔的每一個(gè)小孔里,是3個(gè)fg(1 fg = 1 * 10^-15 g)的DNA知牌。而如果是做染色體(單體)基因分型的祈争,則是稀釋到每個(gè)小孔75個(gè)fg的DNA。
之所以做De novo的這個(gè)PCR角寸,要用更稀的模板菩混,是因?yàn)椋幌M粋€(gè)小孔里面的片段扁藕,相互之間有交疊沮峡。
接下來,做長PCR在做長PCR的時(shí)侯亿柑,如果是用來做De novo的是做21個(gè)循環(huán)邢疙,而如果是做染色體基因分型的,則是做15個(gè)循環(huán)望薄。
這個(gè)區(qū)別疟游,是因?yàn)橹暗膬煞N反應(yīng),所加的起始模板量是不一樣的痕支。那么颁虐,現(xiàn)在要在PCR的環(huán)節(jié)當(dāng)中,通過循環(huán)數(shù)的不一樣卧须,把DNA的最終產(chǎn)量另绩,給拉平。
第三步故慈,Nextera建庫板熊、測序
接下來,就用Nextera方法察绷,對(duì)擴(kuò)增好的片段干签,進(jìn)行打斷,并加上末端標(biāo)簽拆撼。
Nextera打斷的原理容劳,是用結(jié)合了DNA標(biāo)簽的轉(zhuǎn)座酶喘沿,和之前擴(kuò)增得到的10KB的DNA片段進(jìn)行反應(yīng)。
轉(zhuǎn)座酶竭贩,一方面蚜印,會(huì)把長片段給切斷成短的小片段。
另一方面留量,它也會(huì)把酶本身結(jié)合了的DNA標(biāo)簽窄赋,連在切出來的小片段DNA的末端上。
這個(gè)新加上的DNA標(biāo)簽楼熄,就成了接下來PCR擴(kuò)增的引物結(jié)合序列忆绰。
再接下來,就是加入有P5可岂、P7測序引物序列错敢,同時(shí)帶有Index序列的PCR引物,進(jìn)行新的一輪PCR擴(kuò)增缕粹。
那么這一輪PCR擴(kuò)增的結(jié)果稚茅,就會(huì)把Index序列,和P5平斩、P7測序引物序列都加到擴(kuò)增出來的DNA片段上亚享。
這一輪的擴(kuò)增完成之后,我們就得到的双戳,就是384個(gè)帶了完整的接頭序列虹蒋、Index序列的文庫。
再接下來飒货,就把這384個(gè)文庫混合在一起魄衅,用柱子進(jìn)行回收。
然后塘辅,就可以用Illumina測序儀進(jìn)行測序了晃虫。
第四步,組裝
測序完成之后扣墩,通過Index序列哲银,把384個(gè)文庫的序列可以分開,然后呻惕,分別進(jìn)行組裝荆责。
組裝的結(jié)果,就是得到了許多個(gè)10KB的組裝序列亚脆。
然后做院,可以用這10KB的組裝序列,再去拼染色體的序列。
上面所說键耕,就是Moleculo的合成長序列的測序方法寺滚。
要點(diǎn)總結(jié)
它的核心技術(shù),就是把一個(gè)完整的基因組DNA屈雄,分成了384個(gè)小份村视。每一份中,又含了若干個(gè)10KB的DNA片段酒奶,而這一個(gè)小孔的中DNA片段蚁孔,相互交疊的可能性很小。
所以讥蟆,在重新組裝的時(shí)侯勒虾,先組裝成一個(gè)纺阔、一個(gè)10KB大小的片段瘸彤。然后,再從10KB的片段笛钝,組裝成染色體的序列质况。
這個(gè),要比直接從幾百個(gè)BP的序列玻靡,組裝成染色體结榄,要容易許多。
總的來說囤捻,Moleculo方法臼朗,就是把一個(gè)大難題,分解成2個(gè)相對(duì)容易解決的小問題蝎土,再進(jìn)行分步地解決视哑。最后,得到一個(gè)我們想要的結(jié)果誊涯。
以上是本期節(jié)目的全部內(nèi)容挡毅,謝謝您的收看,我們下期節(jié)目再見暴构。
8. Ribozero和方向性RNA文庫
今天跪呈,會(huì)和大家談一下RNA建庫當(dāng)中的RiboZero處理還有建方向性的RNA文庫。
那么取逾,我們先來說用RiboZero的方法耗绿,來處理總RNA之所以要用RiboZero方法來處理RNA。是因?yàn)樵诳俁NA當(dāng)中砾隅,大部分是核糖體RNA误阻。而且這個(gè)比例高達(dá)95%左右而核糖體RNA在一個(gè)物種當(dāng)中是高度保守的。所以,測核糖體RNA堕绩,一般情況下是沒有什么研究意義的策幼。
科學(xué)家測RNA,一般是想得到mRNA奴紧、還有Long non-coding RNA的變化信息特姐。包括它的表達(dá)量變化,和結(jié)構(gòu)上的變異信息黍氮。
所以财松,在RNA建庫過程當(dāng)中娘锁,很重要的一步就是要去除核糖體RNA。那么,要去除核糖體RNA最常用的方法睬关,就是用帶poly(T)探針的磁珠來和總RNA進(jìn)行雜交。
這樣Poly(T)探針和mRNA上的Poly(A)尾巴結(jié)合肩祥。然后坞嘀,用磁珠來回收這些吸附在探針上的、帶poly(A)尾巴的mRNA本股,把mRNA洗脫下來之后攀痊,就可以進(jìn)行下面的建庫。
但是這個(gè)方法有一個(gè)缺點(diǎn)拄显,就是它對(duì)總RNA質(zhì)量的要求非常高苟径。一般會(huì)要求總RNA的RIN值在8.0以上。如果總RNA有一定程度的降解躬审,那么Poly(T)探針?biāo)芪降降募郑际强拷黰RNA的3’端的那些片段而mRNA的5’端的那些斷片,就會(huì)大部分地被丟失承边。所以遭殉,測序得到的結(jié)果就會(huì)有很大的偏向性。
另外炒刁,如果是要測的是長鏈非編碼RNA恩沽,也就是Longnon-coding RNA,也稱作LncRNA翔始,也是不能用Poly(T)方法來做的罗心。因?yàn)榇蟛糠值腖ncRNA,它是沒有Poly(A)尾巴的城瞎,所以它就不能用Poly(T)的探針來吸附渤闷。
RiboZero
為了解決上述的問題,Illumina公司旗下的EpiCentre公司開發(fā)了RiboZero方法脖镀,來去除核糖體RNA飒箭。這個(gè)方法的原理不是通過探針來吸附帶有Poly(A)尾巴的RNA序列。
而是倒過來,設(shè)計(jì)吸附核糖體RNA的探針弦蹂,用探針來吸附核糖體RNA肩碟。再用帶鏈霉親合素的磁珠來吸附這些帶生物素標(biāo)記的探針。
最后磁珠被磁鐵吸附在管壁上凸椿。
而其它的RNA削祈,包括mRNA、LncRNA脑漫、和small RNA等RNA則留在上清液當(dāng)中髓抑。
實(shí)驗(yàn)這樣設(shè)計(jì),就得到了2個(gè)結(jié)果优幸。
第一點(diǎn)吨拍,就是對(duì)RNA樣本的質(zhì)量要求不再是很高。部分降解的RNA网杆、或者降解程度很嚴(yán)重的RNA都可以用RiboZero的方法去除核糖體RNA羹饰。
最典型的是從石蠟樣本歸中回收的RNA樣本,因?yàn)閺氖灅颖局谢厥盏腞NA樣本跛璧,它的質(zhì)量是非常差的严里,之前是很難用來做測序的。現(xiàn)在有了RiboZero方法追城,就可以很方便地制備出文庫來、并且進(jìn)行測序燥撞。
第二點(diǎn)座柱,就是那些不帶Poly(A)尾巴的LncRNA,現(xiàn)在也可以被測序測到了物舒。所以色洞,現(xiàn)在市場上,大部分的LncRNA建庫冠胯,都是通過RiboZero的方法火诸,去除核糖體,接下來再進(jìn)行建庫荠察。
但是RiboZero方法置蜀,它也有一個(gè)限制,就是每個(gè)物種的核糖體RNA的序列悉盆,它是有所不同的盯荤。
所以每種RiboZero的試劑盒,它其中的探針序列焕盟,都是有物種特異性的秋秤。EpiCentre公司開發(fā)了多個(gè)針對(duì)不同物種的RiboZero Kit。其中最常用的是針對(duì):人、小鼠灼卢、大鼠的這個(gè)試劑盒绍哎。所以,科研客戶在請(qǐng)測序公司進(jìn)行RiboZero方法的建庫鞋真、測序的時(shí)候蛇摸,需要和測序公司確認(rèn)所測的物種信息。
接下來灿巧,我們要介紹一下建定向的RNA庫的方法赶袄。
目前最常用的Truseq RNA建庫方法,它是在雙鏈cDNA的兩端抠藕,對(duì)稱地加上了兩個(gè)Y型的接頭饿肺,然后變成文庫。
這個(gè)方法盾似,它有一個(gè)缺點(diǎn)敬辣,就是它加接頭的方向是對(duì)稱的。所以測完序后零院,我們無法知道測出來的序列的方向性溉跃。也就是說,無法知道測到的是RNA的正義鏈告抄,還是反義鏈撰茎。
如果我們測的是人、小鼠之類的樣本打洼,那么問題不是很大龄糊。因?yàn)檫@些模式生物基因組序列,轉(zhuǎn)錄本序列募疮,都是比較清楚的炫惩。
但是,如果我們是在測一些新的物種的時(shí)候阿浓,那么我們就不知道測到的是正義鏈他嚷,還是反義鏈了。
為了解決這個(gè)問題芭毙,科學(xué)家設(shè)計(jì)了多種方向性文庫的建庫方法筋蓖。今天,我們就為大家介紹其中兩種方向性的文庫的建庫方法稿蹲。
摻U法
我們先來看這第一種方法扭勉。這種方法的原理,它是用摻入U(xiǎn)堿基的辦法苛聘,來標(biāo)識(shí)cDNA的第二條鏈涂炎。
我們具體來看一下這個(gè)方法忠聚。
首先,它用常規(guī)的方法唱捣,從RNA上逆轉(zhuǎn)錄出第一鏈的cDNA两蟀。
然后,合成第二鏈時(shí)震缭,所用的dNTP赂毯,它是特殊的。它用dUTP來代替了dTTP拣宰,用這樣的dNTP來合成出的第二鏈党涕,它當(dāng)中就摻入了大量的U堿基。
而之前的第一鏈巡社,是沒有U堿基的膛堤。這樣,第一鏈和第二鏈就有了差別晌该。
接下來肥荔,在雙鏈cDNA的兩端接上Y型的接頭。然后朝群,用USER酶(Uracil-Specific Excision Reagent)進(jìn)行消化燕耿。
那我們這里介紹一下USER酶。USER酶姜胖,它是一個(gè)混合酶誉帅。其中的尿嘧啶DNA糖基化酶(UDG)能夠識(shí)別DNA鏈中的U堿基,并且把U堿基進(jìn)行糖基化谭期。接著堵第,這個(gè)糖基化的U堿基從核酸鏈上切掉。這樣核酸鏈上就型成了一個(gè)缺堿基的一個(gè)空位隧出。接著,混合酶當(dāng)中的核酸內(nèi)切酶VIII就在脫堿基位點(diǎn)上把核酸鏈給切斷掉阀捅。
剛才我們說了胀瞪,在合成第二鏈的時(shí)候,是摻入了大量的U堿基那么這個(gè)雙鏈的第二鏈就會(huì)被USER酶切得粉碎饲鄙。也就是說cDNA的第二鏈被降解掉了凄诞。
降解發(fā)生之后,雙鏈的文庫就只剩下了一條鏈忍级。而這條鏈的兩頭是接的不同序列的接頭帆谍。
接下來進(jìn)行PCR擴(kuò)增。擴(kuò)增出來的文庫轴咱,保持了模板上的雙個(gè)不對(duì)稱的接頭序列汛蝙。
那么接下來烈涮,我們?cè)跍y序的時(shí)候,測到就是有方向的文庫了跷敬。
ScriptSeq法
接下來辕宏,我們介紹第二種建方向性文庫的方法嫉嘀。
這個(gè)方法是Illumina公司的ScriptSeq方法。它的核心原理讶舰,是在加接頭的時(shí)侯,左右兩側(cè)就加不同的接頭需了。首先跳昼,它在合成第一鏈的cDNA的時(shí)候,它用的右側(cè)引物肋乍,就是帶了標(biāo)簽“A”
的接頭鹅颊。從這個(gè)接頭延伸出來的cDNA鏈,很自然地在其右側(cè)就連上了A接頭序列住拭。
接下來挪略,把一個(gè)特殊的TTO引物(Termianl TaggingOligo )加進(jìn)去。這個(gè)TTO引物的5’端是左側(cè)的標(biāo)簽序列“B”滔岳。3’端是一連串隨機(jī)序列杠娱,這些隨機(jī)序列的作用是與剛才合成出來的第一鏈(cDNA)進(jìn)行雜交。
但是這個(gè)隨機(jī)序列的3’端的最后一個(gè)堿基是一個(gè)雙脫氧核苷酸谱煤,它的作用是不讓這個(gè)TTO引物發(fā)生延伸反應(yīng)摊求。這個(gè)TTO引物與剛才合成的第一鏈cDNA雜交之后,第一鏈cDNA就在聚合酶的作用下刘离,進(jìn)一步延伸室叉。延伸的結(jié)果就是把左側(cè)的標(biāo)簽“B”也加到cDNA鏈上。
接下來硫惕,再用外側(cè)的PCR引物對(duì)進(jìn)行擴(kuò)增茧痕,這對(duì)外側(cè)的引物即帶有一段與標(biāo)簽互補(bǔ)的序列。又帶一段有與測序芯片上的接頭互補(bǔ)的序列恼除。這樣擴(kuò)增得到的產(chǎn)物踪旷,就是正式的文庫了。
因?yàn)檫@個(gè)文庫的左右是帶了不同的標(biāo)簽的豁辉,所以這個(gè)文庫令野,它測出來就是有方向性的。這樣我們就得到了方向性的文庫徽级。
以上是本期視頻的全部內(nèi)容气破。
謝謝您的收看,我們下期節(jié)目再見餐抢。