8種特殊建庫測序

1. RNA-seq

2. 外顯子測序

3. small RNA-seq

4. 單細(xì)胞DNA測序

5. 單細(xì)胞mRNA測序

6. 甲基化測序

7.Moleculo長測序

8. Ribozero和方向性RNA文庫

RNA-seq

今天吶答渔，主要是給大家介紹一下RNA-seq（RNAsequencing)酝锅。也就是RNA的高通量測序技術(shù)。

因?yàn)槲覀冞@個(gè)節(jié)目主要是針對(duì)醫(yī)學(xué)方面的技術(shù)進(jìn)展，所以，我們今天對(duì)于RNA的介紹，也會(huì)側(cè)重于人的RNA測序方面的技術(shù)介紹偿洁，以及相關(guān)的生物信息學(xué)方面的工作。

RNA高通量測序（RNA-sequencing,縮寫為RNA-seq）是目前高通量測序技術(shù)中被用得最廣的

一種技術(shù)沟优，RNA-seq可以幫助我們了解：各種比較條件下涕滋，所有基因的表達(dá)情況的差異。

它可以檢測的差異有：正常組織和腫瘤組織的之間的差異挠阁；它吶宾肺，也可以檢測藥物治療前后，基因表達(dá)的差異鹃唯；它吶還可以檢測發(fā)育過程中爱榕，不同的發(fā)育階段，不同的組織之間的基因表達(dá)差異坡慌。諸如此類吶黔酥，很多。我們不一一列舉洪橘。

那么在所有檢測的差異類型中跪者，最常見的，就是檢測所有mRNA的表達(dá)量的差異熄求，這是最常用的一種檢測渣玲。

同時(shí)吶，我們還可以檢測 RNA 的結(jié)構(gòu)上的差異弟晚。例如：mRNA的剪接方式的差異忘衍，也就是我們一般說的“可變剪接”逾苫，還可以檢測“融合基因”，同時(shí)還可以檢測基因單點(diǎn)突變導(dǎo)致的SNP（Single Nucleotide Polymorphisom)枚钓。

接下來铅搓，我們分成“RNA-seq測序方法”和“RNA-seq測序數(shù)據(jù)分析”兩個(gè)部分，分別介紹RNA-seq搀捷。

RNA測序方法

在測mRNA的過程當(dāng)中星掰，首先要解決的問題，是如何去除核糖體RNA也就是去除“rRNA”(Ribosomal RNA)嫩舟。

那在通常抽提到的總RNA中氢烘，絕大部分都是核糖體RNA（rRNA）。以人類的細(xì)胞或組織為例家厌，一般抽提到的總RNA當(dāng)中播玖，95%都是核糖體RNA。剩下的2%到3%是mRNA像街。還有吶黎棠，2%到3%是Long non-coding RNA晋渺、或者tRNA镰绎、microRNA,這些RNA，也就是說mRNA只占了所有RNA中的一小部分木西。

image

如果我們把所有的RNA都拿來測序的話吶，測到的絕大部分的序列數(shù)據(jù)吶，都是核糖體RNA畜伐。而且這當(dāng)中（rRNA）比例會(huì)高達(dá)95%左右袖裕，但是吶，核糖體RNA在整個(gè)人類當(dāng)中都是非常保守的恋捆，而且在人的各個(gè)組織照皆、器官當(dāng)中也是極度穩(wěn)定的。也就是說沸停，測rRNA膜毁，它得到的數(shù)據(jù)，并不能為我們實(shí)驗(yàn)者提供什么有用的信息愤钾，而mRNA才是RNA當(dāng)中信息含量最豐富的那個(gè)部分瘟滨。

我們一般的RNA-seq要測的，也是mRNA的各種變化能颁，所以吶杂瘸，在實(shí)驗(yàn)過程當(dāng)中，我們一般要把核糖體RNA先去掉伙菊。然后再進(jìn)行建庫測序败玉。

去除核糖體RNA敌土，并進(jìn)行建庫的方法，有許多種运翼。

今天吶纯赎，我們主要介紹一下應(yīng)用最廣泛的illumina公司的TruseqRNA建庫方法。其它的方法吶南蹂，以后我們?cè)僬覚C(jī)會(huì)再給大家做介紹犬金。

那么這張吶，就是mRNA測序的建庫過程圖六剥。首先吶晚顷，是利用高等生物的mRNA都有Poly(A)尾巴這個(gè)特點(diǎn)，用帶有Poly(T)探針的磁珠與總RNA進(jìn)行雜交疗疟。然后吶该默，Poly(T)探針吶，就和帶Poly(A)尾巴的mRNA結(jié)合在一起策彤，接下來吶就回收磁珠栓袖，然后吶把這些帶Poly(A)的mRNA從磁珠上洗脫下來。

image

然后吶店诗，再把這些洗脫下來的mRNA用鎂離子溶液進(jìn)行處理裹刮。鎂離子溶液會(huì)把mRNA打斷。

image

被打斷的這些mRNA片段庞瘸，再用隨機(jī)引物進(jìn)行逆轉(zhuǎn)錄捧弃。

image

逆轉(zhuǎn)錄成（第一鏈）cDNA后，再合成出第二鏈（cDNA)擦囊。這樣就成為雙鏈的cDNA违霞。接下來吶，我們?cè)僭陔p鏈的cDNA的兩端接上“Y”型的接頭瞬场。這樣吶买鸽，就成了標(biāo)準(zhǔn)的測序文庫，然后吶贯被，這個(gè)標(biāo)準(zhǔn)的測序文庫就可以拿到HiSeq測序儀上進(jìn)行測序了眼五。

image

樣本質(zhì)量要求

在這里吶要說明一下，這個(gè)建庫方法對(duì)RNA的完整度有較高的要求刃榨。也就是說弹砚，只有在mRNA大部分是完整的狀態(tài)下，才能得到比較好的效果枢希。

這是因?yàn)閹oly(T)的磁珠桌吃，它所吸附的是Poly(A)的那些序列。那么如果mRNA發(fā)生了降解苞轿，也就是mRNA斷掉了茅诱，那么磁珠所吸附下來的片段逗物，都是那些靠近3'端的那些斷片，而那些5'端的斷片呢瑟俭，是吸附不下來的翎卓。會(huì)在富集過程中被洗脫掉。

image

那么這樣吶摆寄，接下來的數(shù)據(jù)分析當(dāng)中失暴，就會(huì)發(fā)生一定的數(shù)據(jù)偏差。

那么為了保證能夠測到盡可能完整的mRNA序列呢微饥，Illumina公司是這樣建議的：它建議先對(duì)總RNA進(jìn)行一次質(zhì)量檢測逗扒，一般是用Agilent公司出品的Bioanalyzer 2100毛細(xì)管電泳儀，對(duì)總RNA樣本進(jìn)行一次電泳質(zhì)檢欠橘。那Bioanalyzer吶會(huì)根據(jù)18S和28S這兩個(gè)核糖體RNA的電泳峰是否高矩肩、是否尖，來判斷RNA的質(zhì)量肃续。并且吶黍檩，會(huì)自動(dòng)打分。

image

這兩個(gè)峰越高始锚、越尖刽酱，也就說明RNA的降解就越少，完整度吶就越高疼蛾。那么打分吶肛跌，也會(huì)越高艺配。反之吶察郁，打分就會(huì)低。這個(gè)分值吶转唉，叫“RIN”值皮钠。也就是RNA的完整度評(píng)分值。是“RNA Integrity Number”的英文首字母縮寫赠法。RIN值最高是10分麦轰，最低吶是0分卢鹦。

Illumina公司推薦用RIN值在8.0以上的RNA進(jìn)行建庫和測序端蛆。測序完成之后吶傅联，就可以進(jìn)行數(shù)據(jù)分析了厘托。

數(shù)據(jù)分析

分析的第一步吶灌诅，一般是先把測到的RNA片段骚揍，先mapping(比對(duì))到基因組上宏榕，那么在比對(duì)完了之后吶治力，可以先看一下眶熬，有多少的RNA片段妹笆，是在靠近基因的5'端的位置块请，又有多少片段在是靠近基因的3'端的位置。

image

那么這張圖上吶拳缠，就是把所有的基因墩新，都按其外顯子的長度吶，拉直窟坐，然后吶海渊，歸一化到“0 - 100”的這樣一個(gè)長度。然后吶來看哲鸳，比對(duì)上的片段切省，有多少是落在這0到100的這一個(gè)軸的哪個(gè)位置上。

這樣一個(gè)比對(duì)的結(jié)果帕胆，就可以讓我們看見前面Poly(T)磁珠在抓mRNA的時(shí)侯朝捆。

捕獲下來的這些mRNA是不是完整的，如果捕獲下來的這些mRNA大部分是完整的話吶懒豹，那么這個(gè)圖形靠近5'端的曲線就會(huì)顯得比較飽滿芙盘。它的高度會(huì)和3'端的高度差不多。

反之脸秽，如果這根曲線的3'端是很高的儒老，而5'端是比較低的，我們就可以初步判斷记餐，這個(gè)RNA有一定程度的降解驮樊。

因此，我們可以推斷在捕獲過程當(dāng)中片酝，有相當(dāng)一部分（mRNA）囚衔，它的5'片段因?yàn)榕c3'片段的Poly(A)片段的尾巴斷開了，所以雕沿，沒有被捕獲下來练湿。所以，這個(gè)RNA吶审轮，是有一定程度降解的肥哎。

在知道了測序的質(zhì)量之后吶，接下大家來要關(guān)注的就是不同樣本之間疾渣、各個(gè)基因的mRNA的表達(dá)量的差異篡诽。

RPKM 指標(biāo)

那么在做這些比較的過程當(dāng)中，目前最常用的榴捡，對(duì)基因表達(dá)量進(jìn)行相對(duì)定量的一個(gè)指標(biāo)杈女，就是RPKM值。那么RPKM吶，是Reads Per Kilobase of exon model perMillion mapped reads的英文的首字母縮寫碧信。

RPKM翻譯成中文吶赊琳，就是每一百萬條可以比對(duì)到基因組上的Read當(dāng)中，有幾條是可以比對(duì)到某個(gè)特定基因的砰碴，

然后吶這數(shù)值再除以該基因的外顯子的長度躏筏，得到的這樣一個(gè)最終的比值。

image

這個(gè)公式吶呈枉，就是這樣的趁尼。

它的分子吶，就是經(jīng)對(duì)到某個(gè)基因的外顯子的read數(shù)猖辫。它的分母的第一項(xiàng)吶酥泞，就是這次所有比對(duì)到基因組上的read數(shù)（M reads，MillionReads）啃憎。分母的第二項(xiàng)芝囤，就是這個(gè)特定基因的外顯子的長度。

我們接下來分步地對(duì)這個(gè)公式進(jìn)行一下解釋辛萍，首先吶悯姊，就是比對(duì)到某個(gè)基因的外顯子上

的Read數(shù)，去除以這次所測到的贩毕、全部可以比對(duì)到基因組上的Read數(shù)悯许。這個(gè)比較容易理解就是：這個(gè)基因所表達(dá)出來的mRNA,它所被測到的片段，來和所有被測到的辉阶、可以Mapping(比對(duì)）到基因組上的片段來進(jìn)行比較先壕。這點(diǎn)是比較容易理解的。

那么這個(gè)比較費(fèi)解的是谆甜，為什么還要除以第二項(xiàng)垃僚，就是“除以這個(gè)外顯子的長度”。這是因?yàn)榻◣爝^程當(dāng)中店印，這個(gè)RNA是用鎂離子溶液來處理冈在，

然后打斷（并逆錄）成若干個(gè)180-200BP左右的小片段，如果一個(gè)基因的長顯子越長按摘，那么它所產(chǎn)生的mRNA就越長，那么mRNA越長吶纫谅，被打出來的小片段就越多炫贤。

我們來假設(shè)，一個(gè)A基因付秕，它的mRNA的長度吶兰珍，假設(shè)它是1Kb，那么它的1Kb的mRNA可能被打成“5”個(gè)询吴，200Bp左右的小片段掠河；那么還有一個(gè)B基因，如果這個(gè)B基因的mRNA是2Kb長，那么略吨，它同樣被打成200Bp左右的小片段吶炎疆，它就會(huì)產(chǎn)生“10”個(gè)小片段。

我們來看勾拉，A基因是5個(gè)小片段煮甥，而B基因是整整10個(gè)小片段，所以藕赞，B基因在測序過程當(dāng)中成肘，它被測到的概率就會(huì)比A基因整整大出去一倍。

這就是我們?yōu)槭裁匆褎偛诺谝豁?xiàng)比出來的比值吶斧蜕，然后再除以這個(gè)外顯子的長度双霍。

通過上面的解釋吶，我們就可以理解：除以這個(gè)外顯子的長度批销，它的目的：是修正這個(gè)mRNA長度所引起的mRNA的Read數(shù)的偏差店煞。

通過這種修正吶，能夠還原出一個(gè)比較真實(shí)的风钻、原始的表達(dá)拷貝數(shù)狀態(tài)顷蟀。

這個(gè)吶，就是“RPKM”定義的原理骡技。

火山圖

那么作為一種針對(duì)全轉(zhuǎn)錄組的分析鸣个，我們希望是一次看到一個(gè)整體的樣本（表達(dá)）差異的情況。而不僅僅是看少數(shù)幾個(gè)基因的表達(dá)差異布朦。

科學(xué)家做了一種叫“火山圖”的一個(gè)圖形囤萤，來比較形象地來說明2個(gè)樣本之間的表達(dá)差異。

那么我們來看這張圖是趴，這張圖吶涛舍，這個(gè)樣子就象火山噴發(fā)的樣子，那么這個(gè)圖吶唆途，是2個(gè)樣本的RNA的表達(dá)量的對(duì)比富雅。

這個(gè)圖的橫軸吶，是表示某個(gè)基因的表達(dá)是上升了肛搬，還是下降了没佑。

image

縱軸是表示這種差異的置信程度，這其中的每個(gè)點(diǎn)吶温赔，就是兩個(gè)樣本當(dāng)中同一個(gè)基因的mRNA表達(dá)量的變化蛤奢。

如果這個(gè)基因的表達(dá)是上調(diào)了，那么這個(gè)點(diǎn)吶，就往右移動(dòng)啤贩。反之待秃，如果這個(gè)基因的表達(dá)量是下調(diào)了，那么這個(gè)點(diǎn)吶痹屹，就往原點(diǎn)的左移動(dòng)章郁。

那么這個(gè)縱軸吶，就是這種變化差異的置信程度痢掠。如果這個(gè)置信程度越高吶驱犹，那么這個(gè)點(diǎn)的縱軸位置也越高。

那么我們?cè)诳v軸上劃了這樣一條水平線足画，超過這個(gè)水平線以上的（點(diǎn)）吶雄驹，（其差異水平的）置信程度是很高的。我們就把它標(biāo)示成紅顏色淹辞。如果低于（這條水平線的）置信程度吶医舆，它的置信程度也相對(duì)低一些，我們把它標(biāo)成藍(lán)顏色象缀。

這里要解釋一下蔬将，為什么差異程度是相同的情況下，它們的差異置信程度是不一樣的央星。比如說同樣是差了2的5次方霞怀，也就是32倍，它的差異置信程度會(huì)不一樣莉给，有些是藍(lán)點(diǎn)毙石，有些是紅點(diǎn)。

image

A基因在甲樣本中颓遏，被測到了3200條徐矩，而在乙樣本中被測到了100條；B基因在甲樣本中叁幢，被測到了320條滤灯，而在乙樣本中被測到了10條。它們同樣是差了31倍曼玩，但是因?yàn)锳基因的樣本統(tǒng)計(jì)數(shù)鳞骤，遠(yuǎn)大于B基因的樣本統(tǒng)計(jì)數(shù)，也就是說演训，它們的Reads數(shù)有那么大的差距弟孟。

所以，A基因的這個(gè)差異的置信程度样悟，會(huì)比B基因的這個(gè)差異置信程度要高許多。

那么，我們?cè)賮韺?duì)比這兩張圖窟她。那么就可以比較直觀地發(fā)覺陈症，左側(cè)的這個(gè)圖當(dāng)中，有更多的基因表現(xiàn)出明顯的差異震糖，這樣吶录肯，火山圖就為我們提供了一個(gè)形象的、直觀的吊说、整體表達(dá)差異信息论咏。

image

聚類分析圖

聚類分析吶，是RNA分析中非常常用的一個(gè)手段颁井。它吶是通過多個(gè)樣本的全基因表達(dá)譜對(duì)比厅贪，

來找到它們之間的相似性，和相近關(guān)系雅宾。

這是一張聚類分析的圖养涮，橫軸吶是樣本，縱軸吶是基因眉抬。通過聚類分析吶，可以發(fā)現(xiàn)：在這個(gè)群體中，樣本被分成了3個(gè)群體膏执。

image

每個(gè)群體的內(nèi)部吶侧但，都有著相似的表達(dá)特征。同時(shí)库北，我們還可以看到爬舰，基因的表達(dá)，也是成簇的贤惯，這兒吶大體上分成3個(gè)基因群洼专。那么這3個(gè)基因群吶，各自有著相似的表達(dá)量孵构。

聚類分析吶屁商，有很多的應(yīng)用，比如說：我們可以分析疾病的亞型颈墅。

那么還可以通過對(duì)多個(gè)基因在特定疾病當(dāng)中的表達(dá)傾向性吶蜡镶，來找出可能的、新的恤筛、診斷用的Biomark官还。

聚類分析，有很多新的應(yīng)用毒坛，有待我們一一去開發(fā)望伦。

GO分析

GO分析是RNA-seq分析中非常常用的一種分析林说。GO是Gene Ontology的縮寫，GeneOntology吶是一個(gè)國際化的屯伞、基因功能分類體系腿箩。這個(gè)體系用一整套動(dòng)態(tài)更新的標(biāo)準(zhǔn)詞匯、和嚴(yán)格定義的概念劣摇，來全面地概括任何生物中基因和基因產(chǎn)物的屬性珠移。

GO主要描述基因的三個(gè)屬性：

第一，是這個(gè)基因末融，它參與的生物過程

第二钧惧，是這個(gè)基因的產(chǎn)物的功能

第三、是這個(gè)基因產(chǎn)物在細(xì)胞器內(nèi)的空間定位

差異基因GO富集柱狀圖：可以直觀的反映出在生物過程勾习、細(xì)胞組分浓瞪、和分子功能富集的差異基因的個(gè)數(shù)分布情況。

image

有向無環(huán)圖语卤，是差異基因GO富集分析的圖形化展示方式追逮，從上到下吶，它所定義的功能范圍越來越小粹舵、越來越精準(zhǔn)钮孵。

它的分支吶，表示包含關(guān)系眼滤。而這個(gè)圈圈的顏色越深吶巴席，表示這個(gè)富集關(guān)系程度越高。

Pathway分析

通路分析：通路（Pathway）是指在系統(tǒng)水平上完成生物的某一功能的基本單元诅需、或者局部子網(wǎng)絡(luò)漾唉。

KEGG，也就是：Kyoto Encyclopaedia of Genes andGenomes堰塌。翻成中文：就是《京都基因和基因組百科全書》赵刑，是目前公認(rèn)的、最權(quán)威的基因功能數(shù)據(jù)庫场刑。

這其中的Pathway(通路）是KEGG的核心內(nèi)容般此。

目前針對(duì)Pathway的分析、注釋牵现，大多數(shù)是基于KEGGPathway來做的铐懊。

image

散點(diǎn)圖是KEGG富集分析結(jié)果的圖形化展示方式。

在此圖中瞎疼，KEGG富集程度通過Rich factor科乎、Qvalue和富集到此通路上的基因個(gè)數(shù)來衡量。

點(diǎn)的面積越大吶贼急，則富集的基因數(shù)越多茅茂。

富集的因子越大吶捏萍，則表示富集的程度越大。

qValue吶玉吁，是校正之后的pValue照弥。那么它越接近于0吶腻异，表示富集程度越顯著进副。

結(jié)構(gòu)變異分析

前面，我們講的都是基于RNA表達(dá)量的差異分析悔常。

接下來吶影斑，我們要說一下，RNA-seq當(dāng)中机打，可以測到的mRNA上的各種結(jié)構(gòu)上的變異矫户。

所謂結(jié)構(gòu)上的變異吶，也就是RNA序列的變異残邀。

主要吶皆辽，是3種：

第1種，是可變剪接

第2種吶芥挣，是融合基因

第3種吶驱闷，是點(diǎn)突變，也就是SNP

結(jié)構(gòu)分析需要較深的測序深度

這里要說明一下空免，對(duì)于想要測mRNA結(jié)構(gòu)變異的用戶呢空另，建議測序深度要測比較深。

我們一般吶是建議測10G以上的數(shù)據(jù)量蹋砚。那么為什么要測這么多的數(shù)據(jù)量吶扼菠？原因是二代測序，目前的測長還不是很長坝咐，每一個(gè)Read吶循榆，只有大約100到125個(gè)Bp左右。如果測序深度不夠吶墨坚，那么讀到的這些read在整個(gè)的mRNA上的分布吶秧饮，是一種比較零碎的一種狀態(tài)。

image

那么在這種比較零碎的、不完整的覆蓋情況下，要去分析哪里有一個(gè)剪接點(diǎn)酬诀，哪里有一個(gè)斷點(diǎn)焚虱，哪里有一個(gè)SNP，它不是很準(zhǔn)確的署驻。

當(dāng)測序深度足夠深的時(shí)侯，在每一個(gè)位點(diǎn)，都有10幾次历恐、或者幾10次的覆蓋的時(shí)侯吶寸癌，我們就可以比較有把握地來判斷出，哪兒有了一個(gè)新的剪接點(diǎn)弱贼，哪兒出現(xiàn)了一個(gè)斷點(diǎn)蒸苇，哪兒，堿基發(fā)生了突變吮旅。

可變剪接

可變剪接溪烤，在真核生物中普通存在。一般一個(gè)人的組織樣本當(dāng)中吶庇勃，可以通過高通量測序檬嘀，發(fā)現(xiàn)有5000個(gè)到20000個(gè)左右的可變剪接。

融合基因

image

融合基因吶责嚷，是指原來在基因組上分開的2個(gè)基因鸳兽，因?yàn)槟撤N原因，染色體發(fā)生了重排罕拂。

重排的結(jié)果吶揍异，是讓A基因的頭，接到了B基因的身體上爆班，這樣就產(chǎn)生了融合基因衷掷。

那么這張圖吶，就是一個(gè)癌細(xì)胞中的融合基因的示意圖蛋济。

接下來這張圖吶棍鳖，是高通量測序測到融合基因的這個(gè)圖。我們可以看到這10幾個(gè)Reads都橫跨在這個(gè)融合基因的碗旅、交接點(diǎn)的兩側(cè)渡处，由此吶，證明了這個(gè)癌細(xì)胞當(dāng)中有這么一個(gè)融合基因祟辟。

點(diǎn)突變

image

RNA-seq吶医瘫，還可以找出點(diǎn)突變，這個(gè)吶旧困，是一張泡泡圖醇份，來表示我們所找到的點(diǎn)突變。

發(fā)生突變頻率最高的這個(gè)基因吼具，就用最大的泡泡來表示僚纷。（突變）頻率低一點(diǎn)的，就畫一個(gè)小一點(diǎn)的泡泡（頻率）拗盒，再小一點(diǎn)怖竭，那么再小一點(diǎn)的泡泡。

這些泡泡呈逆時(shí)針排列陡蝇，形成這樣一個(gè)泡泡圖痊臭。

外顯子測序

今天哮肚，我們會(huì)和大家談一下人外顯子組測序的方法原理。和它能夠給我們帶來哪些有用的生物信息广匙。

那我們還是分兩個(gè)部分來介紹允趟，第一個(gè)部分吶，介紹外顯子測序的技術(shù)方法鸦致。第二個(gè)部分潮剪，我們來介紹外顯子測序可以得到哪些有用的生物信息。

實(shí)驗(yàn)原理

那么蹋凝，我們先來說外顯子測序的工作原理鲁纠。

我們先來看這張圖，外顯子測序的核心技術(shù)吶鳍寂，是這（些）個(gè)針對(duì)人外顯子序列設(shè)計(jì)的捕獲探針庫，那么這些探針的序列吶情龄，都和人外顯子的DNA序列相互補(bǔ)迄汛。

在實(shí)驗(yàn)過程中吶，它可和人的外顯子DNA序列進(jìn)行雜交結(jié)合骤视。同時(shí)吶鞍爱，這些探針都標(biāo)上了生物素。

有了這個(gè)捕獲試劑盒吶专酗，就可以進(jìn)行建庫睹逃、和捕獲了。

第一步吶祷肯，是先把基因組DNA進(jìn)行超聲打碎沉填，建成DNA文庫。

image

第二步吶佑笋，是把建好的文庫和探針庫進(jìn)行雜交翼闹。

雜交過程中，通過核酸序列的互補(bǔ)結(jié)合的原理蒋纬，探針會(huì)和目標(biāo)DNA片段進(jìn)行結(jié)合猎荠。

然后吶，再用結(jié)合了鏈霉親和素的磁珠蜀备，與這個(gè)雜交混合液吶進(jìn)行混合关摇。

image

因?yàn)殒溍褂H合素是會(huì)和生物素牢固結(jié)合的。

這樣碾阁，就把我們要捕獲的外顯子目標(biāo)片段输虱，通過探針，間接地結(jié)合到了磁珠上瓷蛙。

然后吶悼瓮，通過磁鐵把這些磁珠給吸附下來戈毒。

image

而把上清液吶給去掉。

這樣吶横堡，也就把沒有結(jié)合的DNA片段給洗掉了埋市。

再接下來，用洗脫液命贴，把我們要的DNA文庫從磁珠上給洗脫下來道宅。

那么這些文庫吶，再經(jīng)過PCR擴(kuò)增胸蛛，就可以上HiSeq測序儀進(jìn)行測序了谨湘。

測完序以后，就可以進(jìn)行生物信息學(xué)的處理了绣否。

數(shù)據(jù)分析

那么先是把這些測序的DNA片段比對(duì)到人的基因組上梧却。

然后吶，把這些比對(duì)到基因組的序列進(jìn)行突變分析民珍。

覆蓋深度

一般用Agilent SureSelect 50M的試劑盒進(jìn)行外顯子建庫襟士、捕獲。再用HiSeq 2500 V4 PE125的方法進(jìn)行測序嚷量，測10個(gè)G的數(shù)據(jù)量陋桂。大約可以得到95X的“有效測序深度”。我們說的有效測序深度（effective sequencing depth）是相對(duì)于總測序深度來說的蝶溶。

總的測序深度吶嗜历，是把所有測得的數(shù)據(jù)（量）去除以目標(biāo)區(qū)域的大小。

舉例來說抖所，用Agilent 50M的這個(gè)試劑盒梨州，我們測到10個(gè)G的數(shù)據(jù)。

去除以目標(biāo)區(qū)域的50M的大小部蛇，那么得到的是200X的測序深度（10G/50M = 200X）摊唇。

但是這個(gè)200X的測序深度，對(duì)于做生物信息學(xué)分析來說吶涯鲁，并沒有太大的實(shí)在意義巷查。

因?yàn)楫?dāng)中還要扣掉許多無用的數(shù)據(jù)，才能得到有效的數(shù)據(jù)抹腿。

在外顯子測序中岛请，要扣掉4種因素引起的無效數(shù)據(jù)。

第一個(gè)影響因素吶警绩，就是因?yàn)殡s交捕獲的過程它不是十分精確的崇败，基因組中的有許多序列，

是和外顯子有一定的同源性的。那么這些片段吶后室，在雜交過程當(dāng)中缩膝，也會(huì)被雜交捕獲下來。而這些片段吶岸霹，不是基因的外顯子疾层。

image

所以，我們?cè)诜治鲞^程當(dāng)中贡避，首先要把這些序列給去除掉痛黎。

第二個(gè)影響因素吶，是捕獲下來的一個(gè)片段刮吧，很可能它(只有）一部分的序列是落在目標(biāo)區(qū)域還有一部分序列吶湖饱，是突出在目標(biāo)范圍之外的。那么杀捻，這部分突出來的序列吶井厌，它不是目標(biāo)區(qū)域，所以水醋，它也不計(jì)入外顯子測序的“有效測序深度”旗笔。

image

這個(gè)落在目標(biāo)區(qū)的數(shù)據(jù)，占全部被測到的數(shù)據(jù)的比例拄踪，我們用一個(gè)專業(yè)術(shù)語來稱乎它，叫作

“捕獲效率”(capture efficiency)拳魁。那么AgilentSureSelect這個(gè)試劑盒吶惶桐，它的捕獲效率，大約是65~70%潘懊。

第3個(gè)影響有效數(shù)據(jù)比例的因素吶姚糊，是Duplication。那么所謂duplication吶授舟，就是建庫過程當(dāng)中它的最后一步救恨，是通過PCR擴(kuò)增把原始的模板，擴(kuò)增出幾百倍來释树。那么由同一個(gè)模板分子擴(kuò)增出來的子文庫分子吶肠槽，是長得一模一樣的那么這些多出來的這些分子，如果被重復(fù)地測到它并不能為我們提供太多有用的生物信息奢啥。所以秸仙，我們?cè)谏镄畔⒎治龅倪^程當(dāng)中，

我們要去掉這些重復(fù)的片段桩盲。

那么要去掉這些重復(fù)的片段我們判斷的依據(jù)是：2個(gè)DNA分子它們的5'起始位置寂纪、和3'的結(jié)束位置，完全一模一樣，那么我們就認(rèn)定這2個(gè)分子捞蛋，是從同一個(gè)母分子孝冒，PCR出來的（2個(gè)）子分子。

然后吶拟杉，我們會(huì)比較這2個(gè)序列的數(shù)據(jù)質(zhì)量庄涡，留下那個(gè)數(shù)據(jù)質(zhì)量比較高的，去掉那個(gè)

數(shù)據(jù)質(zhì)量比較低的捣域，這也就是我們通常所說的“去Duplication"的過程啼染。

用Agilent SureSelect試劑盒進(jìn)行建庫、捕獲焕梅，實(shí)測10個(gè)G的數(shù)據(jù)迹鹅，我們發(fā)現(xiàn)duplication大約在5%左右。

那么贞言，我們說明一下斜棚，duplication的比例不是恒定不變的。而是會(huì)隨著測序深度的增加该窗、而增加弟蚀，因?yàn)樯蠙C(jī)（測序）的文庫是經(jīng)過PCR擴(kuò)增的文庫。

隨著測序量增大酗失，那么測到源自同一個(gè)模板的PCR子分子的概率吶义钉，就會(huì)提高。

第4個(gè)影響因素吶规肴，是目前主流的測序方法是HiSeq V4 PE125這種方法捶闸。也就是：雙端各測125個(gè)堿基，那么Agilent的建庫方法中當(dāng)吶拖刃，插入片段是150~200BP删壮，這樣一個(gè)大致范圍的這些片段，那么它的平均片段長度吶兑牡，是180BP央碟。那么我們用雙端125的方法來測序就會(huì)導(dǎo)致左邊的這個(gè)reads（序列）和右邊的這個(gè)reads（序列）碉碉，讀到當(dāng)中蒸健，會(huì)有一段，大概會(huì)有70BP的交疊它呀。

image

那這個(gè)70BP的交疊的序列边酒，是冗余的序列经柴。也就是說，我們讀了250個(gè)BP的序列墩朦，但是

其中大約有效的呢坯认，是180個(gè)（BP）。有70個(gè)BP吶，是冗余的牛哺。

綜合上述4項(xiàng)因素陋气，我們可以看到，用AgilentSureSelect 50M的這個(gè)捕獲試劑盒進(jìn)行建庫引润、捕獲巩趁，并且用HiSeq V4 PE125的測序方法來測序，測10個(gè)G的數(shù)據(jù)量淳附，那么可以得到议慰，大約95X的有效測序深度，（10 * 0.7 * 0.95 * 180 / 250 / 50 = 95）奴曙。

覆蓋均勻性

除了測到的有效數(shù)據(jù)量之外别凹，還有一個(gè)因素會(huì)影響到后面的分析，這就是Reads的分布均勻情況洽糟，也就是說目標(biāo)區(qū)域的每個(gè)堿基被覆蓋的深度的均勻性炉菲。那么這個(gè)結(jié)果吶，是越均勻越好坤溃。

image

科學(xué)家經(jīng)過實(shí)測拍霜，發(fā)現(xiàn)Agilent的SureSelect、和Roche的Nimblegen薪介，這兩個(gè)捕獲試劑盒祠饺，所得到的覆蓋均勻性是比較好的。

在腫瘤測序中的優(yōu)勢

外顯子測序汁政，可以測Germline突變（胚胎形成時(shí)就帶有的突變）吠裆，也可以測體細(xì)胞突變（Somatic Mutation），但是吶烂完，隨著Illumina推出HiSeq X10測序儀，把人全基因組測序的直接成本降到1000美元以下诵棵，那么Germline水平的突變吶抠蚣，已經(jīng)很少用外顯子來測了。

目前履澳，外顯子測序的主要優(yōu)勢就體現(xiàn)在腫瘤基因測序方面嘶窄，之所以外顯子測序在腫瘤基因測序方面有優(yōu)勢吶，這是因?yàn)橥怙@子測序距贷，它的測序深度柄冲，可以比較容易地做到“深度”測序。那么吶忠蝗，它可以比較輕易地達(dá)到100X现横、200X，甚至更深的測序深度。這個(gè)吶戒祠，就有利于測到 low allele frequency （低等位基因頻名優(yōu)新）的體細(xì)胞突變骇两。

因?yàn)槟[瘤中的突變吶，往往都是 low allele frequency 的體細(xì)胞突變姜盈。所以低千，外顯子組測序就在測腫瘤基因組突變方面，顯出比較明顯的優(yōu)勢來馏颂。

那么如果是要測腫瘤中的體細(xì)胞突變吶示血，一般是拿手術(shù)切下來的腫瘤組織DNA、和病人外周血中的白細(xì)胞基因組DNA救拉，進(jìn)行外顯子測序难审。

一般腫瘤的測100~200X的深度，白細(xì)胞的（DNA）測100X的深度近上。從白細(xì)胞DNA得到這個(gè)病人的Germline基因組序列剔宪，拿腫瘤的DNA序列與之做對(duì)比，找出其中的體細(xì)胞突變壹无。

SNP信息

外顯子組測序葱绒，主要能夠得到的信息是點(diǎn)突變，也就是SNP信息斗锭，和插入缺失突變地淀，也就是Indel信息。這張圖吶岖是，就是找到的體細(xì)胞突變的泡泡圖帮毁。

在這個(gè)泡泡圖中，突變頻率越高的基因豺撑，就畫一個(gè)大泡泡烈疚，放在圖的中間。突變頻率低一點(diǎn)的基因聪轿，就畫一個(gè)相對(duì)小一點(diǎn)的泡泡爷肝，延著逆時(shí)針排列。再低頻的突變陆错，再畫一個(gè)再小的泡泡灯抛，再在外面再排列下去。依此類推音瓷，就得到這樣一個(gè)泡泡圖对嚼。

image

泡泡圖有利于我們非常直觀地看到樣本中體細(xì)胞突變的情況。

GO 和 Pathway 分析

找到突變之后绳慎，就可以進(jìn)一步地做GO和Pathway分析纵竖。

關(guān)于GO和Pathway的定義漠烧，我們已經(jīng)在前一期講RNA-seq的節(jié)目當(dāng)中，給大家介紹過了磨确，想要了解的朋友可以在優(yōu)酷中找一下：【陳巍學(xué)基因】視頻7：《RNA-seq方法和應(yīng)用》這一集沽甥。自己去看一下。

那么乏奥，我們來說GO分析摆舟。

這張圖是GO分析的結(jié)果。

image

這是根據(jù)突變的點(diǎn)在腫瘤中的富集的情況做的分析邓了。

分成“細(xì)胞組件”恨诱、“分子功能”、和“生物過程”3個(gè)大類骗炉，進(jìn)行展示锤灿。

柱子越高盈包，則表示這個(gè)亞類當(dāng)中突變?cè)蕉唷?/p>

這是有向無環(huán)圖，它把突變進(jìn)一步一步富集到更精細(xì)的小概念當(dāng)中進(jìn)行展示。

image

這個(gè)圖中袭艺，是越向下匠璧，它的功能就劃分得越精細(xì)衙解。同時(shí)顏色越深的塊塊喉前，則表示突變?cè)?/p>

這個(gè)小概念中富集程度越高。

這是Pathway的KEGG富集分析轻专。它吶忆矛，可以幫助我們看到哪些通路發(fā)生了顯著的變化。

image

更深一步的分解分析请垛，則讓我們深入地看到突變的基因在整個(gè)通路中所處的節(jié)點(diǎn)催训。

image

讓我們更好地探索突變和病變之間的關(guān)系，我們要說明：在外顯子測序的數(shù)據(jù)分析當(dāng)中宗收，對(duì)基因組的結(jié)構(gòu)變異是不敏感的漫拭。

不敏感的原因是外顯子測序，只測了基因組上很小一部分區(qū)域混稽，這個(gè)比例小到了只有1~2%

嫂侍，所以當(dāng)結(jié)構(gòu)變異的斷點(diǎn)，不落在外顯子區(qū)域的時(shí)侯吶荚坞，外顯子測序是看不到這些斷點(diǎn)的，所以我們說：外顯子測序?qū)蚪M的結(jié)構(gòu)菲盾，變異--SV（Structure Variation）吶颓影，是不敏感的。

image

對(duì)CNV不敏感

外顯子測序?qū)截悢?shù)變異（CNV懒鉴，copy numbervariation）诡挂，不是很敏感碎浇。不敏感的原因吶，是因?yàn)殡s交捕獲過程啊璃俗，是一個(gè)含了很高偶然性的過程奴璃。

也就是說，一個(gè)外顯子片段上城豁，它有多少個(gè)reads(序列)被捕獲下來苟穆，樣本和樣本之間是有很大差異的。

或者說唱星，它的覆蓋度雳旅，本來就是忽高忽低的，因?yàn)橛羞@種忽高忽低吶间聊。

這就導(dǎo)致：一個(gè)外顯子上測到的Reads數(shù)變高攒盈，或者變低。

我們很難判斷哎榴，是因?yàn)檫@種偶然性吶型豁，還是因?yàn)榭截悢?shù)發(fā)生了變異。所以尚蝌，外顯子測序迎变，對(duì)于小片段的拷貝數(shù)變異，它本身是不敏感的驼壶。

但是氏豌，如果基因組上發(fā)生了大片段的拷貝數(shù)變異。比如說热凹，長度在5M(5M base pair)以上的

片段發(fā)生了拷貝數(shù)變異泵喘。那么外顯子測序吶，是可以發(fā)現(xiàn)的般妙，這是因?yàn)檫@樣長的片段當(dāng)中吶纪铺，一般含有多個(gè)外顯子。當(dāng)多個(gè)外顯子的測序Reads數(shù)都發(fā)生了改變碟渺，那么鲜锚，它就會(huì)有統(tǒng)計(jì)上的顯著性。通過這種統(tǒng)計(jì)上的顯著性苫拍，我們可以來判斷：基因組上的確發(fā)生了拷貝數(shù)變異芜繁。

image

因?yàn)橥怙@子組測序?qū)Y(jié)構(gòu)變異和拷貝數(shù)變異不敏感，所以绒极，在實(shí)際的腫瘤基因測序中吶骏令，科學(xué)家往往是這樣做的：用全基因測序來找到腫瘤樣本中的結(jié)構(gòu)，變異（SV）和拷貝數(shù)變異（CNV）垄提，再用來外顯子組測序來找腫瘤樣本中的榔袋、低頻的SNP和Indel體細(xì)胞突變周拐。

捕獲Panel測序

今天，我們?cè)谥v外顯子組測序的同時(shí)吶凰兑。我們就順帶說一下針對(duì)某些疾病所設(shè)計(jì)的捕獲Panel測序妥粟，所謂Panel，往往是指對(duì)若干個(gè)基因設(shè)計(jì)一個(gè)捕獲試劑盒吏够。

診斷公司為診斷特定的疾病勾给，設(shè)計(jì)了許多特定的、針對(duì)性的Panel稿饰。

例如著名的腫瘤診斷公司Foundation Medicine就設(shè)計(jì)了“Foundation One”這個(gè)Panel锦秒。

它（Foundation One）是針對(duì)實(shí)體瘤的一個(gè)Panel，這個(gè)Panel包含了315個(gè)經(jīng)常發(fā)生突變

的腫瘤相關(guān)基因喉镰。還包含了28個(gè)經(jīng)常發(fā)生重排的基因旅择。

這一類的Panel，它的建庫侣姆、捕獲生真、和測序原理，與外顯子組測序是完全一樣的捺宗。

但是因?yàn)樗x擇的基因數(shù)遠(yuǎn)少于外顯子柱蟀，所以就可以用較少的測序量得到非常深的測序深度。

同時(shí)因?yàn)闇y序數(shù)據(jù)量較小蚜厉，所以數(shù)據(jù)分析的難度也會(huì)小許多长已，耗時(shí)也會(huì)更短。這對(duì)于臨床診斷所需的快速響應(yīng)吶昼牛，是有十分多的好處术瓮。

3. small RNA-seq

今天要給大家介紹的是：small RNA-seq，也就是“小RNA的測序”贰健。

那么胞四，小RNA呢，包括了micro RNA/tRNA/piRNA等一系列的伶椿、片段比較短的RNA辜伟。其中，micro RNA因?yàn)槠浠驍?shù)量眾多脊另，同時(shí)张弛，表達(dá)量變化豐富扰法，是近10年來的一個(gè)研究重點(diǎn)痊夭，我們今天分2部分來介紹samll RNA測序华蜒。

第1部分是介紹small RNA的建庫測序方法。

第2部分是介紹small RNA的生物信息學(xué)分析看彼。

建庫方法

那么廊佩，我們先說第1部分，small RNA建庫靖榕。

image

這張圖是small RNA建庫的流程圖标锄。

在small RNA的結(jié)構(gòu)上，都是5’端有一個(gè)磷酸基團(tuán)茁计，在3’端有一個(gè)羥基基團(tuán)料皇。

image

在建庫過程中，先在它的3'端連上一個(gè)3'端專用的接頭星压。然后践剂，再在5'端連上一個(gè)5'端專用接頭。

image

然后進(jìn)行逆轉(zhuǎn)錄娜膘，得到第一鏈的cDNA逊脯。

image

接著再進(jìn)行PCR擴(kuò)增

這樣就得到了雙鏈的測序文庫。

image

這張圖竣贪，就是建好的small RNA文庫军洼。

用Agilent Bioanalyzer 2100進(jìn)行電泳，得到的電泳圖演怎。

image

如圖所示匕争，擴(kuò)增之后得到的small RNA的文庫。

在整個(gè)的擴(kuò)增混合物中爷耀，只占很小的一個(gè)比例甘桑。

所以，一般情況下歹叮，這個(gè)文庫還要經(jīng)過進(jìn)一步的電泳膠分離跑杭。切膠回收，才能得到比較純的盗胀、我們要的small RNA文庫艘蹋。

image

純化好的文庫，再用Agilent Bioanalyzer 2100進(jìn)行電泳票灰。

我們就可以看到比較純粹的small RNA文庫了女阀。

image

目前用illumina Truseq small RNA建庫試劑盒。

對(duì)組織中抽提到的總RNA進(jìn)行small RNA建庫屑迂。

一般一個(gè)反應(yīng)需要1微克的總RNA浸策。

同時(shí)small RNA建庫，對(duì)（總）RNA的質(zhì)量也會(huì)有一定的要求惹盼。

一般是要求總RNA的RIN值大于等于8.0庸汗。

關(guān)于RIN值（RNA Integraty number,RNA完整度值）的意義，如果觀眾有不清楚的手报，又想要了解的蚯舱，可以在優(yōu)酷視頻當(dāng)中找一下【陳巍學(xué)基因】《視頻7：RNA-seq》改化，里面有專門的介紹。

生物信息分析

接下來枉昏，我們介紹第2部分：small RNA的生物信息分析陈肛。

small RNA生物信息分析的第1步，是把測序的序列進(jìn)行過濾兄裂。

也就是把引物二聚體句旱、和含有多個(gè)N的這些序列去掉。

然后晰奖，就是統(tǒng)計(jì)各種長度的small RNA各有多少條谈撒。

一般情況下，人源組織所測到的small RNA會(huì)在22BP左右有一個(gè)主峰匾南。這個(gè)主峰就是micro RNA啃匿，同時(shí)，30BP左右又會(huì)有一個(gè)副峰午衰，這個(gè)峰立宜，主要是piRNA。

image

接下來臊岸，就是把small RNA橙数，比對(duì)到參考基因組上。

在參考基因組上比對(duì)好之后帅戒，就可以把這些序列和已知的small RNA數(shù)據(jù)庫進(jìn)行比對(duì)了灯帮。

比較有名的small RNA數(shù)據(jù)庫是miRBase，這個(gè)數(shù)據(jù)庫目前這個(gè)數(shù)據(jù)庫已經(jīng)收錄了2000多條人源的micro RNA基因逻住。

在對(duì)人源樣本的測序過程當(dāng)中钟哥，大家最關(guān)心的主要是micro RNA和piRNA，這2種small RNA瞎访。那么在測序過程當(dāng)中腻贰，實(shí)際上還會(huì)測到rRNA的碎片和tRNA的序列。

因?yàn)閞RNA和tRNA在人的基因組中是十分保守的扒秸，所以一般不是我們關(guān)注的重點(diǎn)播演。

對(duì)表達(dá)量的分析

對(duì)已知small RNA的分析，主要是對(duì)表達(dá)量的分析伴奥。

small RNA的表達(dá)量写烤，一般用TPM來衡量。TPM是Transcripts Per Million reads的

縮寫拾徙。

也就是1百萬條測到的序列當(dāng)中洲炊，某個(gè)目標(biāo)small RNA的序列條數(shù)。

TPM的密度分布圖，能整體展示樣本的small RNA基因表達(dá)情況暂衡。

圖中询微，橫軸是一個(gè)small RNA基因的表達(dá)量。越向右呢狂巢，則這個(gè)基因的表達(dá)量越高拓提。縱軸是有特定表達(dá)量的基因數(shù)量隧膘，越向上，則基因數(shù)目越多寺惫。

image

從這張圖上可以看出疹吃，少量的基因有高表達(dá)，大多數(shù)基因的表達(dá)量西雀，還是相對(duì)偏低的萨驶。

用火山圖，則可以整體地觀察兩個(gè)樣本之間的表達(dá)差異艇肴。

火山圖的橫座標(biāo)腔呜，是某個(gè)small RNA基因的表達(dá)的增減。從0向右再悼，則表達(dá)量上升核畴，從0向左包警，則表達(dá)量下降精刷∧倨簦縱軸則是表達(dá)量差異的顯著性瘾敢，越向上灵莲，則差異越顯著罩句。

一張火山圖叠骑，可以讓我們輕松地觀察2個(gè)火本，樣本之間灭贷，small RNA的表達(dá)差異温学。

image

聚類分析，則可以幫助我們直觀地觀察甚疟，一批樣本當(dāng)中仗岖，那些樣本有共同的表達(dá)特征。又有哪些small RNA基因有相似古拴、相近的表達(dá)量箩帚。

image

如這張圖中所展示，樣本經(jīng)過聚類分析黄痪，明顯地可以看出紧帕，其small RNA的表達(dá)譜，呈現(xiàn)2種表達(dá)情況，上綠下紅的樣本呢是嗜，自然地被分到了一組愈案，上紅下綠的樣本呢，就會(huì)被自然地分到另外一組鹅搪。

通過聚類分析站绪，我們可以觀察到樣本內(nèi)在的共同特征。

在人類細(xì)胞中micro RNA主要是通過和mRNA結(jié)合丽柿，來阻止mRNA翻譯成蛋白恢准，從而起到抑制靶基因表達(dá)的作用。目前甫题，只有少數(shù)的micro RNA和靶基因mRNA的對(duì)應(yīng)關(guān)系是經(jīng)過了實(shí)驗(yàn)驗(yàn)證的馁筐。大多數(shù)還是通過序列互補(bǔ)、結(jié)合熱穩(wěn)定性等預(yù)測性手段來預(yù)測的坠非。

所以敏沉，這些關(guān)系不是很精確的。雖然這種預(yù)測不是很精確炎码，但是它能為我們的科研提示有用的研究目標(biāo)盟迟。

靶基因 GO 和 Pathway 分析

接下來，我們說一下micro RNA侯選靶基因的GO分析潦闲、和KEGG Pathway(通路）分析攒菠。

GO分析和KEGG Pathway分析是非常常用的生物信息學(xué)分析手段。

想要了解這2種分析的基本情況的同學(xué)矫钓，可以在優(yōu)酷中找一下【陳巍學(xué)基因】《視頻7：RNA-seq》去看一下要尔。

通過GO分析，表達(dá)差異被富集到分類的GO的子項(xiàng)目當(dāng)中新娜，通過這個(gè)圖赵辕，可以看到“生物過程”、“分子功能”概龄、和“細(xì)胞組件”的哪些環(huán)節(jié)出現(xiàn)了明顯的差異还惠。柱子越高，則表示差異越明顯私杜。

image

有向無環(huán)圖蚕键，是進(jìn)一步把差異一步一步地富集到更精細(xì)的小概念當(dāng)中進(jìn)行展示。

image

在這個(gè)圖當(dāng)中衰粹，越向下锣光，功能就越是細(xì)分。同時(shí)铝耻，顏色越深的方塊呢誊爹，則表示差異在這個(gè)小概念當(dāng)中蹬刷，富集程度越高。通過對(duì)表達(dá)差異的micro RNA和它對(duì)應(yīng)的靶基因進(jìn)行KEGG分析频丘，

可以把可能被影響到的通路進(jìn)行富集分析办成。

這個(gè)圖，就是KEGG分析的結(jié)果搂漠。在此圖中迂卢，KEGG富集的程度，通過富集因子桐汤、Qvalue而克、和富集到此通路上的基因個(gè)數(shù)，來進(jìn)行衡量怔毛。

image

點(diǎn)的面積越大拍摇，則富集的基因數(shù)越多，富集因子越大馆截，則表示富集的程度越大。

接下來這個(gè)通路圖蜂莉，是對(duì)某個(gè)特定通路的進(jìn)一步的細(xì)化分析蜡娶。

image

它可以讓我們看到，在一個(gè)整體的通路中映穗，具體是哪個(gè)窖张、或哪幾個(gè)節(jié)點(diǎn)會(huì)有顯著的差異。

尋找新的 micro RNA 基因

尋找到新的micro RNA基因蚁滋。一般是測序測到新的宿接、有發(fā)夾結(jié)構(gòu)的microRNA前體的序列，同時(shí)測到對(duì)應(yīng)的成熟的micro RNA序列辕录，并且在基因組上又找到了對(duì)應(yīng)的基因序列睦霎，這樣，大體上就判斷（可能是）找到了一個(gè)新的micro RNA基因了走诞。

以上副女，我們說的都是組織中的small RNA的測序和分析。

血漿 micro RNA 測序

隨著技術(shù)的持續(xù)進(jìn)步蚣旱，目前用血清碑幅、或者血漿中的micro RNA來診斷疾病，成為診斷醫(yī)學(xué)十分關(guān)注的一個(gè)研究方向塞绿。這是因?yàn)椋?/p>

血清當(dāng)中有大量的沟涨、種類豐富的micro RNA。并且這些micro RNA可以相對(duì)穩(wěn)定地存在
同時(shí)我們已經(jīng)知道m(xù)icro RNA參與多種基因的表達(dá)調(diào)控
血液又是我們最容易獲得的診斷樣本之一
而且异吻，目前血清裹赴、或者血漿中的micro RNA已經(jīng)可以被方便地測到

所以，許多學(xué)者都在研究血清micro RNA，以期望從中找到新的診斷Biomarker篮昧。

目前赋荆，做一個(gè)血清micro RNA測序，大約只需要0.5毫升左右的血清懊昨、或者血漿窄潭。

也就是相當(dāng)于1毫升的原血就夠了。

用于micro RNA測序用的血清酵颁、或血漿嫉你，可以用3倍體積的Trizol LS來進(jìn)行保存蔬蕊。也就是說炕舵，0.5毫升的血清，加上1.5毫升的Trizol LS咕痛〔疽蹋混合均勻之后呢距误，-20℃、或-80℃保存扁位。然后准潭，通過干冰運(yùn)輸，交給專業(yè)的測序公司域仇，就可以進(jìn)行測序刑然、分析了。

單細(xì)胞DNA測序

今天暇务，和大家談一下單細(xì)胞測序泼掠。

自從二代測序技術(shù)出現(xiàn)，把一次實(shí)驗(yàn)測許多條DNA序列的這個(gè)難題解決之后垦细，一次把一個(gè)人的全基因組給測出來择镇，最極限的情況，就是樣本量就是少到一個(gè)細(xì)胞括改，就要測出整個(gè)基因組的序列信息沐鼠。

三個(gè)難題

要實(shí)現(xiàn)從一個(gè)細(xì)胞樣本測出全基因組的DNA序列，至少要克服以下3個(gè)難題：

第1個(gè)叹谁，就是如何實(shí)現(xiàn)均勻擴(kuò)增饲梭，也就是說，用傳統(tǒng)的隨機(jī)引物PCR的方法來擴(kuò)增焰檩。那么不同擴(kuò)增片段的擴(kuò)增效率多少會(huì)有一些差異憔涉，這些擴(kuò)增效率的差異會(huì)隨著擴(kuò)增循環(huán)數(shù)的增加，呈現(xiàn)出指數(shù)放大的效果析苫。其結(jié)果就是會(huì)發(fā)生嚴(yán)重的覆蓋不均一兜叨，極少數(shù)區(qū)段的DNA被大量擴(kuò)增穿扳，測序后它深度非常深，但在大多數(shù)區(qū)段只有很低的覆蓋国旷，甚至沒有覆蓋矛物。那么我們就無法有效地判斷那些低擴(kuò)增效率區(qū)段的基因序列的情況。

那么它的第2個(gè)難題跪但，就是全基因組覆蓋問題履羞。常規(guī)的、用大量DNA進(jìn)行建庫的方法屡久，因?yàn)榇驍嘁涫住⒀a(bǔ)平、加A被环、加接頭等一長串的操作糙及，每一步都會(huì)有DNA片段的損失。結(jié)果就是初始DNA中很大一部分會(huì)被浪費(fèi)掉筛欢，而沒有形成有效的文庫分子浸锨。

在單細(xì)胞測序中，丟失大部分的起始DNA版姑，是不可接受的揣钦。單細(xì)胞測序要求幾乎所有的原始基因組片段都得到擴(kuò)增，并且在后續(xù)的測序過程中被測序測到漠酿。這就要求幾乎所有的片段，都會(huì)被得到擴(kuò)增谎亩，而不只是少數(shù)片段得到有效擴(kuò)增炒嘲。

第3個(gè)難題，是這種方法要有較高的擴(kuò)增效率匈庭。建好的文庫夫凸，在HiSeq測序儀上機(jī)的時(shí)侯，大約每上機(jī)2萬個(gè)文庫分子阱持，只有1個(gè)文庫分子夭拌，是能夠在測序的Flowcell表面生成簇，并且被測序測到的衷咽，剩下的大多數(shù)文庫分子鸽扁，在上機(jī)的時(shí)侯是被水沖走的。所以镶骗，單細(xì)胞基因組擴(kuò)增的方法桶现，還要有較高的擴(kuò)增效率。至少要有上萬倍到幾十萬倍的擴(kuò)增效率鼎姊，才能保證在全基因組測序的時(shí)侯骡和，大部分的片段都被測序測到相赁。

兩種方法

為了解決上述的難題，科學(xué)家想了許多的辦法慰于。

到目前為止钮科，大家比較認(rèn)可的方法有兩種：

第一種是MALBAC方法。

第二種是MDA方法婆赠。

MALBAC方法

我們先來說這個(gè)MALBAC方法绵脯。它的全稱是：MultipleAnnealing and Looping-Based Amplification Cycles。是謝曉亮教授發(fā)明的方法页藻，

image

這張圖是MALBAC方法的示意圖桨嫁。這個(gè)黑色的線條，就是基因組模板DNA份帐，這些紅顏色的線條就是擴(kuò)增引物璃吧，擴(kuò)增引物的5’端有27個(gè)堿基的通用序列，這些通用序列會(huì)作為未來的PCR通用擴(kuò)增引物的結(jié)合序列废境。擴(kuò)增引物的3’端有8個(gè)隨機(jī)序列的堿基畜挨，這8個(gè)堿基可以隨機(jī)地雜交到基因組DNA的互補(bǔ)序列上。

這些灰色的橢園是Phi 29 DNA聚合酶噩凹，Phi 29 DNA聚合酶有一個(gè)特點(diǎn)巴元，它不僅可以生成新的DNA鏈，它還能把之前已經(jīng)合成好的DNA鏈給解鏈開驮宴。

image

再形成自己的新鏈逮刨，這個(gè)特點(diǎn)能夠把每個(gè)循環(huán)所能合成的DNA新鏈的數(shù)量提高幾倍、甚至幾十倍堵泽、上百倍修己。

接下來，就是做5個(gè)MALBAC循環(huán)迎罗，請(qǐng)注意睬愤，這里每個(gè)循環(huán)的最后一步是58度退火。我們后面要詳細(xì)解釋這一步58度退火的作用纹安。

image

第一個(gè)循環(huán)下來尤辱，得到的是一批5’端有通用擴(kuò)增序列的DNA片段。

在第二個(gè)循環(huán)完成后厢岂，所產(chǎn)生的擴(kuò)增產(chǎn)物中光督，大部分是5’端有通用序列。而3’端塔粒，有與通用序列互補(bǔ)的序列的這些片段可帽。

image

圖中的這4個(gè)步驟，一共重復(fù)5次窗怒，這樣做的巧妙之處映跟，就是要解決我們剛才所說的3個(gè)難題蓄拣。

第一、是要均勻擴(kuò)增

第二、是要全基因組覆蓋

第三、是要有高的擴(kuò)增效率

那么蛹疯，我們先來看這個(gè)線性擴(kuò)增。

剛才咽斧，這個(gè)MALBAC方法的巧妙之處，就是在每個(gè)循環(huán)的最后躬存，加了一步58度退火张惹，這一退火過程，它讓完整擴(kuò)增的產(chǎn)物岭洲，它的兩端發(fā)生鏈內(nèi)雜交宛逗。這樣，3’端的序列就不能與新的盾剩、游離的引物發(fā)生雜交雷激。這也就不會(huì)引新的、發(fā)起始于3’端的擴(kuò)增告私，這樣屎暇，就避免了完整擴(kuò)整的產(chǎn)物的自我指數(shù)擴(kuò)增。

image

現(xiàn)在驻粟，還是8個(gè)隨機(jī)序列的引物在模板上隨機(jī)地找結(jié)合位置根悼，所有的位點(diǎn)都有一樣的機(jī)會(huì)被擴(kuò)增。

那么蜀撑，這樣實(shí)際得到的產(chǎn)物分3種：

第1種挤巡，就是m* n 個(gè)“完整擴(kuò)增產(chǎn)物”，這是最主要的產(chǎn)物屯掖。這里“m”就是循環(huán)的次數(shù)， “n”是一個(gè)循環(huán)中襟衰，有多少個(gè)擴(kuò)增贴铜，引物可以粘到一個(gè)模板上。

第2種擴(kuò)增產(chǎn)物瀑晒，就是(m+1)* n個(gè)“半擴(kuò)增產(chǎn)物”绍坝，第3種DNA，就是那個(gè)原始的DNA模板苔悦，這里完整產(chǎn)物的數(shù)量是“m*n ”轩褐，也就是說，擴(kuò)增產(chǎn)物（的數(shù)量）與擴(kuò)增的循環(huán)次數(shù)“m”成正比玖详，而不是與m的平方成正比把介。更不是與2 的M次方成正比勤讽。

這也就是達(dá)到了，我們想要的“線性擴(kuò)增”的目的拗踢。也就是說擴(kuò)增產(chǎn)物（的數(shù)量）與擴(kuò)增的次數(shù)成線性關(guān)系脚牍。這就達(dá)成了我們單細(xì)胞測序當(dāng)中第1個(gè)要求“線性擴(kuò)增”。

第2個(gè)要解決的難題巢墅，就是“全基因組覆蓋”

這里诸狭，是利用Phi 29聚合酶的能一次在模板上聚合出多個(gè)新鏈的功能來達(dá)到這個(gè)目的。

在5輪的擴(kuò)增之后君纫，每個(gè)模板都會(huì)有5*n^2個(gè)擴(kuò)增片段驯遇。這樣，就可以保證建庫時(shí)大多數(shù)的

基因組區(qū)域可以被建成文庫蓄髓，最后叉庐，可以被（測序）測到。

第3個(gè)要解決的問題“高效率擴(kuò)增”双吆。還是利用了這個(gè)Phi 29酶的一次得到多個(gè)擴(kuò)增片段的這個(gè)效果眨唬，來達(dá)成的。

上面所說的好乐，就是MALBAC單細(xì)胞擴(kuò)增技術(shù)的基本原理匾竿、和它的巧妙之處。

MDA方法

目前市場上還有一種單細(xì)胞的擴(kuò)增技術(shù)蔚万，叫MDA擴(kuò)增技術(shù)岭妖。它的全稱是MultipleDisplacement Amplification。

MDA方法的技術(shù)核心是用Phi 29 DNA聚合酶來進(jìn)行直接的擴(kuò)增反璃。

image

Phi 29酶的特點(diǎn)是昵慌，它可以把雙鏈DNA進(jìn)行解鏈，然后淮蜈，在常溫條件下斋攀，就把原始模板進(jìn)行大量擴(kuò)增。

兩種方法的比較

把MDA和MALBAC兩種方法進(jìn)行比較

MDA的優(yōu)勢在于梧田，它的擴(kuò)增效率更高淳蔼，并且，實(shí)驗(yàn)方法更簡單裁眯。

MALBAC方法的特點(diǎn)鹉梨，在于它的擴(kuò)增均一性更好。但是穿稳，它得到的擴(kuò)增DNA量相對(duì)較少存皂，或者說，它的擴(kuò)增效率相對(duì)比較低逢艘。

這張圖是：大量細(xì)胞測序旦袋、MDA方法測序骤菠、MALBAC方法測序，這三種測序結(jié)果的Lorenz曲線猜憎。

Lorenz曲線是越接近于對(duì)角線娩怎，則覆蓋越均一，從圖中胰柑，我們可以看出大量細(xì)胞測序截亦，它的均一性是最好的。

用MALBAC方法測序柬讨，它的均一性比大量細(xì)胞測序的均一性要差一些崩瓤，但是要比MDA的方法的均一度要好。

這張圖是用三種方法來測腫瘤細(xì)胞中的拷貝數(shù)變異踩官。其中橫軸是染色體的序列却桶，縱軸是測序的覆蓋深度，可以明顯地看到蔗牡，在大量細(xì)胞測序的結(jié)果中颖系，可以非常直觀地看到拷貝數(shù)變異的情況。

image

而用MALBAC的方法辩越，也還是能夠比較清楚地看到拷貝數(shù)變異嘁扼。但是，它沒有大量細(xì)胞測序的結(jié)果那么清楚黔攒。

而用MDA的方法來看拷貝數(shù)變異趁啸，則不是那么容易看清楚。

臨床應(yīng)用

單細(xì)胞測序督惰，有著廣泛的應(yīng)用前景不傅。目前最主要2個(gè)應(yīng)用：1個(gè)是在胚胎植入前進(jìn)行基因拷貝數(shù)變異檢測。第2個(gè)赏胚，是進(jìn)行腫瘤的染色體變異研究访娶。

在這里我們介紹一下，單細(xì)胞測序在胚胎植入前檢測中的應(yīng)用觉阅，在有習(xí)慣性流產(chǎn)的夫婦當(dāng)中崖疤，最常見的病因就是染色體的平衡易位，所謂染色體平衡易位留拾，也就是A染色體戳晌，的一段移到了B染色體上鲫尊。

image

如果夫妻一方有染色體平衡易位痴柔，那么這對(duì)夫婦的受精卵中，每4個(gè)受精卵疫向，可能只有1個(gè)是正常的。剩下3個(gè)（不正常的受精卵），很可能會(huì)流產(chǎn)碑隆。

要把這一個(gè)正常的受精卵挑出來丐一，目前，最有效的解決手段是做受精卵植入前檢測卓缰。

那么具體的操作方法，就是先做人工受精。

在受精卵發(fā)育到8個(gè)細(xì)胞的時(shí)侯扔字，通過顯微操作，抓一個(gè)細(xì)胞出來進(jìn)行測序温技。

在這個(gè)測序過程當(dāng)中革为，就要用到MDA方法或MALBAC方法進(jìn)行擴(kuò)增、建庫舵鳞、測序震檩。

然后測序完成之后，挑出那個(gè)好的受精卵蜓堕，植回到母親的子宮中去抛虏。長成一個(gè)正常的新生兒。

這個(gè)套才，就是受精卵植入前基因檢測迂猴。

這項(xiàng)技術(shù)，是對(duì)生殖健康有很大幫助的一項(xiàng)新技術(shù)霜旧。

單細(xì)胞mRNA測序

今天错忱，想和大家談一下單細(xì)胞mRNA測序技術(shù)。

單細(xì)胞mRNA測序一直是科學(xué)家關(guān)注的一個(gè)熱點(diǎn)挂据。目前市場主要有2種建庫方法以清，分別是Clontech公司推出的SMART法，和EpiCentre公司推出的TargetAmp方法崎逃。

要實(shí)現(xiàn)單細(xì)胞mRNA測序掷倔，需要解決2個(gè)難題。

第一個(gè)難題：PCR偏差

第一個(gè)難題就是一個(gè)人類細(xì)胞當(dāng)中个绍，它的總RNA量大約只有10pg左右（1pg=10^{-12g）,中的mRNA的量大約只有0.2個(gè)pg勒葱。要把那么少的mRNA轉(zhuǎn)變成約零點(diǎn)幾個(gè)μg（1μg=10}-6g）以上的核酸文庫，這意味著核酸的擴(kuò)增量要達(dá)到幾百萬倍以上巴柿。

如何能在這個(gè)核酸擴(kuò)增過程當(dāng)中不引入太多的PCR偏差凛虽，就一直是個(gè)大問題。

所謂PCR偏差广恢，就是在PCR擴(kuò)增過程當(dāng)中凯旋，某些片段被大量擴(kuò)增，而大部分片段被擴(kuò)增的量很少，甚至根本就沒有被擴(kuò)增至非。結(jié)果就導(dǎo)致高通量測序钠署，只能測到這所有樣本當(dāng)中很少一部分的片段序列。

PCR偏差會(huì)隨著PCR循環(huán)的次數(shù)的增多而指數(shù)放大荒椭。那么谐鼎，在這種情況下，一方面要把核酸擴(kuò)增幾百萬倍趣惠，甚至更多的倍數(shù)狸棍；另一方面，又想得到均一覆蓋的文庫味悄，這就是單細(xì)胞mRNA建庫當(dāng)中隔缀，所要解決的第一個(gè)大難題。

第二個(gè)難題：去除核糖體RNA

第二個(gè)難題是如何能盡可能高效地得到“mRNA”的文庫傍菇，而不是含了大量“rRNA”序列的文庫猾瘸。因?yàn)閞RNA在總RNA當(dāng)中占了95%，甚至更高的比例丢习，而mRNA在總RNA當(dāng)中只占2~3%的比例牵触。如果不加區(qū)分地進(jìn)行逆轉(zhuǎn)錄，再擴(kuò)增咐低、建庫很可能測序得到的絕大部分序列都是rRNA的序列揽思。

但是 rRNA序列不能給我們帶來有效的生物信息，它是無用的见擦。而只有測到mRNA的序列钉汗，才是我們想要的信息，這樣鲤屡，如何能夠選擇性地把mRNA轉(zhuǎn)化成測序文庫损痰，并且避免把rRNA帶到測序文庫中來，這就是單細(xì)胞mRNA測序當(dāng)中酒来，要解決的第二個(gè)大難題卢未。

接下來，我們就來介紹SMART方法和TargetAmp方法堰汉，是分別如何解決上述2個(gè)大難題的辽社。

SMART方法

我們先來介紹Clontech公司推出的SMART方法。

SMART方法的全稱是Switching Mechanism at 5’ End of RNA Template翘鸭。

這張圖就是SMART方法的原理圖滴铅。

image

SMART方法最核心的技術(shù)，就是設(shè)計(jì)了2個(gè)特殊的引物就乓。再配合用MMLV逆轉(zhuǎn)錄酶進(jìn)行逆轉(zhuǎn)錄汉匙。

image

我們先來看這個(gè)逆轉(zhuǎn)錄的起始引物譬淳。它哪，先是一段通用序列盹兢，未來這個(gè)通用序列會(huì)用作PCR擴(kuò)增的引物識(shí)別序列，中間是一長串的T守伸，這些T是專門識(shí)別mRNA的3’末端的Poly(A)尾巴序列绎秒。它會(huì)和這些Poly(A)尾巴互補(bǔ)結(jié)合，引物的最末端有一個(gè)定位的結(jié)構(gòu)尼摹，這個(gè)定位的結(jié)構(gòu)见芹，就是在它的3’末端的倒數(shù)第2個(gè)堿基是一個(gè)非T的簡并堿基。

圖中用V來表示這個(gè)堿基蠢涝。V堿基就是或A玄呛、或C、或G和二，但是非T的這樣一個(gè)（簡并）堿基徘铝。

最后1個(gè)堿基則是簡并堿基N，也就是A/C/G/T都有可能惯吕。

引物的這個(gè)末端結(jié)構(gòu)惕它，就是讓它正好結(jié)合在mRNA的3’端連到Poly(A)尾巴的這個(gè)連接處，而不會(huì)結(jié)合到mRNA的別的地方废登。這樣就保證了逆轉(zhuǎn)錄的起始位置正好是mRNA的3’端的序列終止位置淹魄。

我們?cè)賮砜催@個(gè)MMLV逆轉(zhuǎn)錄酶，這個(gè)酶有個(gè)特點(diǎn)堡距，就是它在轉(zhuǎn)錄到mRNA的5’端末端的時(shí)侯甲锡，會(huì)在新合成的cDNA的3’末端，多加出幾個(gè)C堿基來羽戒。

image

再接下來缤沦，這個(gè)上游引物會(huì)發(fā)揮它的作用。這個(gè)上游引物易稠，它有一個(gè)特點(diǎn)疚俱，它的3’端是3個(gè)非脫氧的G堿基，也就是核糖核酸的缩多、RNA的G堿基呆奕，而不是DNA的G堿基，這個(gè)引物可以與剛才新合成的cDNA的3’端的那幾個(gè)C堿基發(fā)生互補(bǔ)雜交衬吆，然后引導(dǎo)這個(gè)MMLV酶再次發(fā)揮聚合作用梁钾，以剛才那條新合成的cDNA為模板，復(fù)制的結(jié)果逊抡，就是得到雙鏈的cDNA姆泻。

image

這個(gè)雙鏈cDNA零酪，兩端都已經(jīng)接好了我們?nèi)斯ぴO(shè)計(jì)的PCR引物序列甲葬，然后科侈，就加入常規(guī)的PCR引物，進(jìn)行常規(guī)的PCR擴(kuò)增离钝，常規(guī)PCR擴(kuò)增方咆，得到大量DNA月腋。然后可以象常規(guī)的DNA建庫那樣，超聲打斷瓣赂、建庫榆骚、上機(jī)測序了。

我們回顧一下這個(gè)過程煌集，可以看到這個(gè)方法的3個(gè)巧妙點(diǎn)妓肢。

第1點(diǎn)，是先用一個(gè)定位引物苫纤，保證cDNA的合成是從mRNA的3’最末端開始的碉钠，同時(shí)讓合成出的cDNA在下游連上了一個(gè)通用PCR序列。

image

第2點(diǎn)卷拘，是利用MMLV逆轉(zhuǎn)錄酶會(huì)在新合成的cDNA的3'端放钦，多加上幾個(gè)C堿基的特點(diǎn)，再用有3個(gè)G堿基的上游引物進(jìn)行第二鏈的合成恭金。這就保證只有完整的第一鏈cDNA也就是那些帶多個(gè)“C”的cDNA（第一鏈）才能被合成出cDNA的第二鏈操禀，這也就保證了雙鏈cDNA是全長的cDNA。

image

第3點(diǎn)横腿，就是要保證PCR擴(kuò)增的效率的一致性那我們知道颓屑，PCR擴(kuò)增效率的最主要的影響因素是引物的序列，現(xiàn)在因?yàn)閏DNA的5’端和3’端的都分別引入了統(tǒng)一的引物序耿焊，所以揪惦，這就去除了因?yàn)橐镄蛄械牟煌６餚CR效率不同的罗侯，這個(gè)最主要的偏差因素器腋。這也就在較大程度上保證了PCR擴(kuò)增效率的一致性，減少了PCR偏差钩杰。

經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn)

用SMART方法纫塌，對(duì)于1個(gè)細(xì)胞，也就是10pg總RNA的RNA進(jìn)行建庫測序讲弄，RPKM為10的這些基因措左，有60%是被測序測到的；對(duì)RPKM為100的基因避除，有90%可以被測序測到怎披。而且被測到的幾率胸嘁，波動(dòng)很小。這說明SMART方法是一個(gè)有效的單細(xì)胞mRNA測序方法凉逛。

image

TargetAmp方法

接下來性宏，我們介紹第2個(gè)單細(xì)胞mRNA建庫的方法--TargetAmp方法

這個(gè)方法是由Illumina公司旗下的EpiCentre公司開發(fā)的。

這個(gè)就是TargetAmp的原理圖状飞。

image

首先是用T7-Oligo(dT)的引物進(jìn)行cDNA合成毫胜。這個(gè)引物，在5’端有設(shè)計(jì)了一個(gè)T7啟動(dòng)子序列昔瞧。3’端是多個(gè)的T堿基，這一串T堿基可與mRNA的poly(A)尾巴相結(jié)合菩佑，作為逆轉(zhuǎn)錄的起始引物自晰，經(jīng)過逆轉(zhuǎn)錄，得到第一鏈的cDNA稍坯。同時(shí)這條cDNA鏈上酬荞，被引入了一個(gè)T7啟動(dòng)子。

image

然后用RNase H酶把cDNA:RNA雙鏈產(chǎn)物中的這個(gè)RNA鏈消化掉瞧哟，接著再合成出第二條cDNA鏈來混巧，這個(gè)雙鏈的cDNA就可以作為轉(zhuǎn)錄的模板。利用鏈上的T7啟動(dòng)子勤揩，轉(zhuǎn)錄出大量的反義RNA來（antisense-RNA咧党，aRNA）。

image

接著陨亡，將這些反義RNA進(jìn)行純化傍衡。再用隨機(jī)引物進(jìn)行逆轉(zhuǎn)錄，得到第二輪的cDNA负蠕，接著蛙埂，再用T7-Oligo(dT)這個(gè)引物，粘到第二輪的cDNA的Poly(A)尾巴上遮糖，再合成出雙鏈DNA來绣的。

image

這個(gè)雙鏈的cDNA再經(jīng)過第二輪的轉(zhuǎn)錄，又得到第二輪的反義RNA欲账，這些第二輪的反義RNA的量屡江，足可以達(dá)到微克級(jí)。再經(jīng)過一輪逆轉(zhuǎn)錄赛不，就可以得到幾個(gè)微克的cDNA盼理。那么幾個(gè)微克的cDNA，就足以進(jìn)行建庫俄删、測序之用了宏怔。

image

我們來看TargetAmp方法的巧妙之處：

它不是用PCR來擴(kuò)增核酸奏路，而是用轉(zhuǎn)錄的方法來增加核酸的量。因?yàn)閿U(kuò)增那么多（倍）的核酸臊诊，如果用PCR鸽粉，要用幾十個(gè)循環(huán)，那么PCR不同的擴(kuò)增子的擴(kuò)增效率抓艳，即使一開始是很小的差異触机，也會(huì)在幾十個(gè)循環(huán)中，被指數(shù)放大玷或，變成一個(gè)很大的差異儡首。

那么TargetAmp方法用轉(zhuǎn)錄的辦法，而且統(tǒng)一都用T7這個(gè)統(tǒng)一的啟動(dòng)子偏友，它轉(zhuǎn)錄的啟始效率蔬胯，大體上就保持了一致。

它的每一輪轉(zhuǎn)錄位他，都把核酸的量擴(kuò)大幾千倍氛濒。經(jīng)過這樣兩輪的擴(kuò)增，就把核酸的量擴(kuò)大了幾百萬倍鹅髓。這樣舞竿，一方面它得到了高達(dá)幾微克的核酸。足夠用于建庫窿冯，同時(shí)又避免了PCR過程骗奖，也就避免了PCR擴(kuò)增偏差

單細(xì)胞mRNA測序方法，在循環(huán)腫瘤細(xì)胞研究醒串、胚胎發(fā)育研究重归、和神經(jīng)活動(dòng)研究方面，有著廣泛的應(yīng)用厦凤。

隨著高通量測序的費(fèi)用不斷地降低鼻吮，它正變成科研中越來越普及的研究手段。相信有更多單細(xì)胞mRNA建庫方法较鼓，和更新的技術(shù)應(yīng)用會(huì)不斷地被開發(fā)出來

甲基化測序

本期節(jié)目椎木，要給大家介紹一下DNA的甲基化和羥甲基化的高通量測序。

DNA的甲基化是在DNA的序列不變的條件下博烂，在其中某些堿基上加上甲基的這樣一個(gè)過程香椎。

image

DNA甲基化的結(jié)果，一般是使甲基化位點(diǎn)的下游的基因表達(dá)量變少禽篱。

化學(xué)反應(yīng)

這個(gè)（甲基化）分析方法當(dāng)中的核心化學(xué)反應(yīng)畜伐，是用亞硫酸氫鹽來處理DNA。DNA當(dāng)中躺率，沒有甲基化或羥甲基化的C堿基玛界，就會(huì)被轉(zhuǎn)化成U堿基万矾。

我們來看這個(gè)轉(zhuǎn)化的過程，在弱酸性條件下慎框，亞硫酸氫根會(huì)結(jié)合到?jīng)]有甲基化的C堿基的6位良狈。而甲基化了的C堿基不會(huì)和亞硫酸氫根發(fā)生這個(gè)反應(yīng)的宵蕉。

image

然后愿险，用堿來處理。結(jié)合了亞硫酸氫根的非甲基化的C灭衷，就被脫氨基馅精，并且脫亞硫酸根严嗜。然后，就被轉(zhuǎn)化成U堿基洲敢。

image

那么漫玄，甲基化或者羥甲基化的C堿基，因?yàn)橹皼]有和亞硫酸氫根起反應(yīng)沦疾，所以現(xiàn)在用堿來處理称近，它也不會(huì)發(fā)生脫氨基反應(yīng)第队。所以哮塞，它還保持了是“C”。

用亞硫酸氫鹽來處理DNA凳谦，可以讓99%左右的非甲基化的C堿基變成U忆畅。

也就是說這種方法的的轉(zhuǎn)化效率非常高，轉(zhuǎn)化效率達(dá)到了99%尸执。

它的優(yōu)點(diǎn)家凯，就可以讓我們接下來通過高通量測序的方法，可以精確地看到單個(gè)堿基的甲基化的水平如失。

經(jīng)過亞硫酸氫鹽轉(zhuǎn)化過的DNA绊诲，再經(jīng)過PCR，PCR新合成出來的鏈褪贵，U堿基的位置掂之，就會(huì)被替換成了“T”。那么在接下來的測序過程中脆丁，測到的也是T堿基世舰。

而甲基化的C，因?yàn)闆]有被亞硫酸氫鹽所轉(zhuǎn)化槽卫，所以跟压，在接下來的測序過程中，被測到的歼培，還是“C”堿基震蒋。

這樣茸塞，通過測序，看一個(gè)位置是“C”喷好，還是“T”翔横。如果它保持是“C”，就說明這個(gè)位置是被甲基化梗搅、或者羥甲基化了禾唁。如果測到的是“T”，就說明這個(gè)位置是沒有被甲基化无切、或者羥甲基化荡短。

建庫方法

接下來，我們談一下甲基化的建庫過程哆键。

先說第一種掘托，用Illumina公司的Truseq DNA建庫方法，來做甲基化測序籍嘹。

image

因?yàn)镮llumina Truseq DNA建庫試劑盒當(dāng)中闪盔，它所提供的接頭，那么這個(gè)接頭上的C堿基都是已經(jīng)經(jīng)過甲基化修飾了辱士。

所以泪掀，用這些接頭做出來的文庫，在用亞硫酸氫鹽做轉(zhuǎn)化的過程當(dāng)中颂碘，它的（接頭上的）C還是保持是C 异赫，不會(huì)被轉(zhuǎn)成U。

帶了這些接頭的文庫分子头岔，就可以和測序芯片上的草皮DNA發(fā)生互補(bǔ)雜交塔拳。并且進(jìn)一步發(fā)生橋式PCR反應(yīng)。生成測序用的DNA的簇（Cluster）峡竣。

但是靠抑，這個(gè)方法有一個(gè)缺點(diǎn)，就是在用亞硫酸氫鹽處理DNA文庫的時(shí)侯适掰，90%以上的DNA鏈會(huì)斷掉颂碧。這樣，已經(jīng)建好的文庫攻谁，其中90%分子會(huì)被破壞掉稚伍。也就是說文庫的豐富度就會(huì)損失90%以上。

那么戚宦，相應(yīng)的它有它的好處个曙，它的好處就是，在這個(gè)建庫過程當(dāng)中用的PCR循環(huán)數(shù)較少。所以它PCR擴(kuò)增效率不同垦搬，所引起的文庫不均一程度也就較低呼寸。也就是我們通常所說的PCR bias較少。

接下來猴贰，再說第二種建庫方法对雪。

為了解決文庫豐富度受到損失的這個(gè)問題，EpiCentre公司開發(fā)了EpiGnome方法米绕，方法的操作過程如圖瑟捣。

第1步，亞硫酸氫鹽先處理DNA栅干，把未甲基化的C都轉(zhuǎn)變成U迈套。

image

第2步，把帶標(biāo)簽1的隨機(jī)引物加入碱鳞，進(jìn)行第一次的復(fù)制桑李。得到第1條的復(fù)制鏈。

image

第3步窿给，是消化掉過量的引物贵白。

第4步，是加入帶末端終止堿基崩泡、并帶標(biāo)簽2的隨機(jī)引物禁荒。這個(gè)引物的作用是讓第1復(fù)制鏈延伸，并且加上標(biāo)簽2允华。

image

第5步是加入建庫的PCR引物圈浇，進(jìn)行PCR寥掐。通過PCR靴寂，把Index序列和成簇引物序列加入到鏈的兩側(cè)。得到真正的文庫召耘。

image

這個(gè)方法的優(yōu)點(diǎn)是百炬，把亞硫酸氫鹽處理的過程，放在了建庫之前污它。這樣建成的庫的豐富程度會(huì)比較高剖踊。但是這個(gè)方法也有缺點(diǎn)，缺點(diǎn)就是要做較多的PCR循環(huán)衫贬，那么有了比較多的PCR循環(huán)之后德澈，PCR產(chǎn)物的擴(kuò)增均一性是不太好的。也就是說PCR bias會(huì)比較大固惯。

上述兩種方法梆造，各有優(yōu)缺點(diǎn)。

HiSeq2000/2500****測甲基化文庫的問題葬毫、和解決方案

在Illumina的HiSeq 2000或者2500平臺(tái)上進(jìn)行測序镇辉，如果文庫是堿基平衡的文庫屡穗，也就是說，每個(gè)特環(huán)當(dāng)中忽肛，A/C/G/T四種堿基的比例村砂，各占25%左右的話，測序儀對(duì)堿基的判讀會(huì)比較好屹逛。

但是如果缺少了一種或者幾種堿基础废，測序儀對(duì)堿基的判讀就會(huì)出問題。測序得到的數(shù)據(jù)質(zhì)量就會(huì)下降罕模。并且效的數(shù)據(jù)產(chǎn)量也會(huì)降低色迂。

關(guān)于文庫堿基平衡度影響數(shù)據(jù)質(zhì)量和產(chǎn)量的原因，在【陳巍學(xué)基因】第二期的視頻手销，HiSeq義器的工作原理這一集中有介紹歇僧。大家可以在優(yōu)酷當(dāng)中找一下，并且看一下锋拖。

因?yàn)榧谆膸熘薪?jīng)過亞硫酸氫鹽處理诈悍，絕大多數(shù)的C都變成了T。所以兽埃，這個(gè)文庫中是嚴(yán)重地缺少C堿基的侥钳，也就是四種堿基的比例是嚴(yán)重不平衡的。這樣在用HiSeq 2000或2500測序儀來測甲基化文庫的過程當(dāng)中柄错，文庫測序得到的數(shù)據(jù)質(zhì)理就較差舷夺。并且經(jīng)過PF過濾得到的有效的數(shù)據(jù)產(chǎn)量也會(huì)較低。

為了彌補(bǔ)甲基化文庫的堿基不平衡性售貌，一般情況下给猾，在上機(jī)過程當(dāng)中，是摻入大比例的基因組文庫颂跨，或者PhiX文庫敢伸，來補(bǔ)充比較多的C堿基，一般會(huì)摻30%的PhiX文庫恒削、或者基因組文庫池颈。

在摻入30%的PhiX文庫的條件下，一條HiSeq 2000 V3 PE100的Lane钓丰，大概可以得到20G 左右的甲基化文庫數(shù)據(jù)躯砰。

也就是說，在HiSeq 2000或者2500平臺(tái)上携丁，甲基化文庫的測序數(shù)據(jù)產(chǎn)量琢歇，一直都不是很高盖文。質(zhì)量也比較低脖阵。

羥甲基化測序

接下來，我們說一下區(qū)分“羥”甲基化和甲基化的測序方法。

在用單純的亞硫酸氫鹽法來測的過程當(dāng)中京郑，甲基化和差甲化的C堿基都不能被轉(zhuǎn)化成U堿基翠拣，所以單純的亞硫酸氫鹽法是無法區(qū)分甲基化或羥甲基化的C堿基的按摘。

image

為了區(qū)分甲基化和羥甲基化朗徊，科學(xué)家想出了兩種辦法。

第一種辦法娜庇，是通過高釕酸鉀（KRuO₄）來氧化羥甲基化的C塔次。羥甲基化的C可以被轉(zhuǎn)化成甲酰化的C堿基名秀，而甲趵海化的C堿基，是可以被亞硫酸氫鹽轉(zhuǎn)化成U的匕得。

image

而甲基化的C继榆，不會(huì)被轉(zhuǎn)化成U。這樣就把原來的羥甲基化的C和甲基化的C給區(qū)分開來了汁掠。

經(jīng)研究表明略吨，用高釕酸鉀氧化的方法來氧化羥甲基化的C，其轉(zhuǎn)化效率是94%左右考阱。也就是說翠忠，每100個(gè)羥甲基化的C中，有94個(gè)會(huì)被高釕酸鉀轉(zhuǎn)化成甲跗蛘ィ化的C秽之。并進(jìn)一步被亞硫酸氫鹽轉(zhuǎn)化成U。

同時(shí)吃既，原來的甲基貨攤C考榨，只有2.1%會(huì)被轉(zhuǎn)化成甲酰化的C态秧。

第二鐘區(qū)分羥甲基化C的方法董虱，是用糖基把羥甲基化的C給保護(hù)起來扼鞋。然后用TET蛋白（Ten-eleven translocation methylcytosine dioxygenase 1）申鱼，把甲基化的C轉(zhuǎn)化成羥基化的C。

image

進(jìn)一步將羥甲基化的C轉(zhuǎn)化成甲踉仆罚化的C和羧基化的C捐友。甲酰化的C和羧基化的C都可以被亞硫酸氫鹽轉(zhuǎn)化成U溃槐。

而之前被糖基化保護(hù)起來的羥甲基化的C匣砖，是不會(huì)被TET蛋白轉(zhuǎn)化成甲酰化的C或者羧基化的C的。在亞硫酸氫鹽的處理過程中猴鲫，它還保持是C对人。并且在之后的PCR擴(kuò)增產(chǎn)物中，也表現(xiàn)為C拂共。

這樣牺弄，就可以把羥甲基化的C，和甲基化的C宜狐，給區(qū)分開來势告。

用這個(gè)方法，沒有甲基化的C抚恒，99.6%都被轉(zhuǎn)化成了U咱台。甲基化的C，97.7%都被轉(zhuǎn)化成了U俭驮。而羥甲基化的C回溺，只有8%被化成了U。

也就是說92%的羥甲基化的C得到了糖基的保護(hù)混萝，還保持了C馅而。

上述，就是目前2個(gè)區(qū)分羥甲基化的C和甲基化C的方法譬圣。

設(shè)置內(nèi)參

在甲基化文庫建程當(dāng)中瓮恭，亞硫酸氫鹽對(duì)未甲基化的C的轉(zhuǎn)化效率并不是100%，一般是在99%左右厘熟。

為了對(duì)實(shí)驗(yàn)的轉(zhuǎn)化效率進(jìn)行質(zhì)量控制屯蹦。一般會(huì)在轉(zhuǎn)化實(shí)驗(yàn)當(dāng)中加入內(nèi)參對(duì)照品。

一般情況下绳姨，是用甲基化酶缺陷型的大腸桿菌登澜，所生產(chǎn)出來的完全沒有被甲基化的λ（噬菌體）DNA，或者pUC19（質(zhì)粒）DNA做內(nèi)參飘庄。來看一次實(shí)驗(yàn)當(dāng)中C的轉(zhuǎn)化效率脑蠕。

一般情況下，實(shí)驗(yàn)當(dāng)中是加入1%的完全沒有甲基化的λ DNA做內(nèi)參跪削。

同樣道理谴仙，也可以通過用甲基化酶處理過的，CpG島完全被甲基化的DNA碾盐，來跟蹤甲基化DNA對(duì)亞硫酸氫鹽轉(zhuǎn)化的抵抗效果晃跺。

數(shù)據(jù)分析

最后，我們來談一下毫玖，甲基化測序后的數(shù)據(jù)處理掀虎。

因?yàn)閬喠蛩釟潲}處理過后凌盯，絕大部分的C都被轉(zhuǎn)化成了T。這樣烹玉，測出來的序列在和基因組進(jìn)行對(duì)比的時(shí)侯驰怎，直接對(duì)比是對(duì)比不上的。

為了要進(jìn)行比對(duì)二打，就要把基因組的堿基做兩種轉(zhuǎn)變砸西。

第一種轉(zhuǎn)變是把基因組上所有的C都改到T，再來和測序測到的序列來對(duì)比址儒。這樣芹枷，就可以把原來的鏈給對(duì)比上。

image

第二種轉(zhuǎn)變莲趣，是把基因組上所有的G都變成A鸳慈，這樣才能和經(jīng)過PCR得到的原樣本鏈睥互補(bǔ)鏈對(duì)比得上。這樣做的原因喧伞，是原樣本鏈的互被鏈走芋，它上面絕大部分的G，都被變成了A潘鲫。所以翁逞，只有把（參考）基因組上的G，也都改成A溉仑，這樣才能對(duì)比得上挖函。

比對(duì)上之后，再來看哪些堿基是沒有被轉(zhuǎn)化的浊竟。這樣怨喘，就可以確認(rèn)這些堿基的甲基化修飾情況了。

再接下來振定，針對(duì)基因進(jìn)行GO和Pathway的分析必怜。在【陳巍學(xué)基因】第8期視頻，RNA-seq當(dāng)中后频，對(duì)GO和Pathway有詳細(xì)的介紹梳庆，大家可以在優(yōu)酷或者騰訊視頻當(dāng)中搜一下，看一下卑惜。

補(bǔ)充材料

DNA的甲基化分析膏执，還有很多種方法，有興趣的同學(xué)残揉，可以在微信公眾號(hào)【陳巍學(xué)基因】當(dāng)中胧后，回復(fù)“甲基”兩個(gè)字，就可以看到7種其它分析DNA甲基化的方法抱环。

7.Moleculo長測序

今天壳快，會(huì)和大家談一談“Moleculo”測序方法。

Moleculo原來是美國的一家創(chuàng)業(yè)公司镇草。這家公司開發(fā)了一種拼接長測序序列的方法眶痰。這個(gè)方法一經(jīng)面世，就引起了Illumina的重視梯啤，Illumina馬上出巨資竖伯，收購了這家公司。

在收購了Moleculo之后因宇，Illumina把這個(gè)方法進(jìn)行了優(yōu)化七婴。優(yōu)化之后，以“TruSeq Synthetic

Long-Read DNA Library Kit”的形式察滑，出現(xiàn)在Illumina的新產(chǎn)品當(dāng)中打厘。

在全新的基因組組裝工作中，也就是我們通常所說的“De Novo”工作中贺辰，最核心的技術(shù)點(diǎn)户盯，是能否得到大量的、長讀長的序列饲化。所以莽鸭，得到長的讀長序列，一直是做De novo工作的科學(xué)家所追求的有效技術(shù)手段吃靠。

另外硫眨，長讀長的序列還可以幫助科學(xué)家來確定染色體單體的基因型。

Illumina標(biāo)準(zhǔn)的HiSeq/MiSeq測序方法巢块，提供了一次給出大量序列的方法捺球。它的序列，精度也很高夕冲，每個(gè)G的數(shù)據(jù)的測序成本也很低氮兵，但是，相對(duì)于De novo工作來說歹鱼，它的讀長還是不夠長泣栈。

舉例來說，Illumina旗下測序長度最長的MiSeq測序儀它的測序長度是：雙端各300個(gè)堿基弥姻。那么南片，我們把這雙端的300個(gè)堿基拼起來，中間交錯(cuò)100個(gè)堿基庭敦，可以得到一個(gè)500堿基的讀長疼进，

那么，我們要用500堿基讀長的序列來組裝一個(gè)和人類基因組大小相近的一個(gè)基因組秧廉，也就是單倍體長度為30億個(gè)堿基長度的基因組，就相當(dāng)于用筷子那么長（25厘米）的鐵軌稳其，來拼出一個(gè)京滬鐵路（1300公里）唉堪。大家稍微想一想，就可以想出其中的難度减拭。

Moleculo方法，它的巧妙點(diǎn)就是可以把Illumina不算太長的序列区丑，拼接成一個(gè)一個(gè)10KB讀長的序列拧粪，然后，再拼出基因組來沧侥。

接下來可霎，我們就來介紹一下這個(gè)巧妙的辦法。

第一步宴杀，分拆

首先是把長片段的基因組DNA癣朗，也就是40KB以上的長片段的基因組DNA，打斷成10KB左右的DNA片段婴氮。

這個(gè)打斷的過程斯棒，是用Covaris公司出品的g-TUBE方法來打斷的。g-TUBE可以把長的基因組DNA主经，打斷成5KB-20KB長度的片段荣暮。

image

打斷了的DNA片段，末端大多數(shù)不是平齊的罩驻。接下來穗酥，就要用酶把這個(gè)末端給補(bǔ)平。

補(bǔ)平的過程惠遏，是用T4 DNA聚合酶砾跃、和Klenow聚合酶，兩者的混合酶來進(jìn)行補(bǔ)平节吮。然后抽高，再用T4 DNA寡核苷酸激酶，在5'端統(tǒng)一地加上磷酸基團(tuán)透绩。

補(bǔ)平之后翘骂，再用去掉了3'端外切酶活性的Klenow大片段聚合酶來進(jìn)行處理。

image

這樣帚豪，可以在每個(gè)片段的兩個(gè)3'端碳竟，都各加上一個(gè)A堿基。加好了A堿基之后再用連接酶狸臣，在DNA片段的兩端連上第一步的PCR接頭莹桅。

連好接頭的DNA片段，走瓊脂糖凝膠烛亦，切膠回收10KB左右的DNA片段诈泼。

回收下來的DNA片段懂拾，用qPCR進(jìn)行精確定量。

第二步厂汗，擴(kuò)增

用qPCR精確定量好之后的DNA片段委粉，做成一個(gè)長PCR的Master Mix呜师。

然后娶桦，把這個(gè)Master Mix分散到384孔PCR板里面，進(jìn)行長PCR汁汗。

image

那么這里有一個(gè)注意點(diǎn)：就是如果是用來做De novo的文庫衷畦，那么稀釋到384孔的每一個(gè)小孔里，是3個(gè)fg（1 fg = 1 * 10^-15 g）的DNA知牌。而如果是做染色體（單體）基因分型的祈争，則是稀釋到每個(gè)小孔75個(gè)fg的DNA。

之所以做De novo的這個(gè)PCR角寸，要用更稀的模板菩混，是因?yàn)椋幌Ｍ粋€(gè)小孔里面的片段扁藕，相互之間有交疊沮峡。

接下來，做長PCR在做長PCR的時(shí)侯亿柑，如果是用來做De novo的是做21個(gè)循環(huán)邢疙，而如果是做染色體基因分型的，則是做15個(gè)循環(huán)望薄。

這個(gè)區(qū)別疟游，是因?yàn)橹暗膬煞N反應(yīng)，所加的起始模板量是不一樣的痕支。那么颁虐，現(xiàn)在要在PCR的環(huán)節(jié)當(dāng)中，通過循環(huán)數(shù)的不一樣卧须，把DNA的最終產(chǎn)量另绩，給拉平。

第三步故慈，Nextera建庫板熊、測序

接下來，就用Nextera方法察绷，對(duì)擴(kuò)增好的片段干签，進(jìn)行打斷，并加上末端標(biāo)簽拆撼。

image

Nextera打斷的原理容劳，是用結(jié)合了DNA標(biāo)簽的轉(zhuǎn)座酶喘沿，和之前擴(kuò)增得到的10KB的DNA片段進(jìn)行反應(yīng)。

轉(zhuǎn)座酶竭贩，一方面蚜印，會(huì)把長片段給切斷成短的小片段。

另一方面留量，它也會(huì)把酶本身結(jié)合了的DNA標(biāo)簽窄赋，連在切出來的小片段DNA的末端上。

這個(gè)新加上的DNA標(biāo)簽楼熄，就成了接下來PCR擴(kuò)增的引物結(jié)合序列忆绰。

再接下來，就是加入有P5可岂、P7測序引物序列错敢，同時(shí)帶有Index序列的PCR引物，進(jìn)行新的一輪PCR擴(kuò)增缕粹。

image

那么這一輪PCR擴(kuò)增的結(jié)果稚茅，就會(huì)把Index序列，和P5平斩、P7測序引物序列都加到擴(kuò)增出來的DNA片段上亚享。

這一輪的擴(kuò)增完成之后，我們就得到的双戳，就是384個(gè)帶了完整的接頭序列虹蒋、Index序列的文庫。

再接下來飒货，就把這384個(gè)文庫混合在一起魄衅，用柱子進(jìn)行回收。

然后塘辅，就可以用Illumina測序儀進(jìn)行測序了晃虫。

第四步，組裝

測序完成之后扣墩，通過Index序列哲银，把384個(gè)文庫的序列可以分開，然后呻惕，分別進(jìn)行組裝荆责。

image

組裝的結(jié)果，就是得到了許多個(gè)10KB的組裝序列亚脆。

image

然后做院，可以用這10KB的組裝序列，再去拼染色體的序列。

上面所說键耕，就是Moleculo的合成長序列的測序方法寺滚。

要點(diǎn)總結(jié)

它的核心技術(shù)，就是把一個(gè)完整的基因組DNA屈雄，分成了384個(gè)小份村视。每一份中，又含了若干個(gè)10KB的DNA片段酒奶，而這一個(gè)小孔的中DNA片段蚁孔，相互交疊的可能性很小。

image

所以讥蟆，在重新組裝的時(shí)侯勒虾，先組裝成一個(gè)纺阔、一個(gè)10KB大小的片段瘸彤。然后，再從10KB的片段笛钝，組裝成染色體的序列质况。

這個(gè)，要比直接從幾百個(gè)BP的序列玻靡，組裝成染色體结榄，要容易許多。

總的來說囤捻，Moleculo方法臼朗，就是把一個(gè)大難題，分解成2個(gè)相對(duì)容易解決的小問題蝎土，再進(jìn)行分步地解決视哑。最后，得到一個(gè)我們想要的結(jié)果誊涯。

以上是本期節(jié)目的全部內(nèi)容挡毅，謝謝您的收看，我們下期節(jié)目再見暴构。

8. Ribozero和方向性RNA文庫

今天跪呈，會(huì)和大家談一下RNA建庫當(dāng)中的RiboZero處理還有建方向性的RNA文庫。

那么取逾，我們先來說用RiboZero的方法耗绿，來處理總RNA之所以要用RiboZero方法來處理RNA。是因?yàn)樵诳俁NA當(dāng)中砾隅，大部分是核糖體RNA误阻。而且這個(gè)比例高達(dá)95%左右而核糖體RNA在一個(gè)物種當(dāng)中是高度保守的。所以，測核糖體RNA堕绩，一般情況下是沒有什么研究意義的策幼。

科學(xué)家測RNA，一般是想得到mRNA奴紧、還有Long non-coding RNA的變化信息特姐。包括它的表達(dá)量變化，和結(jié)構(gòu)上的變異信息黍氮。

所以财松，在RNA建庫過程當(dāng)中娘锁，很重要的一步就是要去除核糖體RNA。那么，要去除核糖體RNA最常用的方法睬关，就是用帶poly(T)探針的磁珠來和總RNA進(jìn)行雜交。

image

這樣Poly（T）探針和mRNA上的Poly(A)尾巴結(jié)合肩祥。然后坞嘀，用磁珠來回收這些吸附在探針上的、帶poly(A)尾巴的mRNA本股，把mRNA洗脫下來之后攀痊，就可以進(jìn)行下面的建庫。

但是這個(gè)方法有一個(gè)缺點(diǎn)拄显，就是它對(duì)總RNA質(zhì)量的要求非常高苟径。一般會(huì)要求總RNA的RIN值在8.0以上。如果總RNA有一定程度的降解躬审，那么Poly(T)探針?biāo)芪降降募郑际强拷黰RNA的3’端的那些片段而mRNA的5’端的那些斷片，就會(huì)大部分地被丟失承边。所以遭殉，測序得到的結(jié)果就會(huì)有很大的偏向性。

image

另外炒刁，如果是要測的是長鏈非編碼RNA恩沽，也就是Longnon-coding RNA，也稱作LncRNA翔始，也是不能用Poly(T)方法來做的罗心。因?yàn)榇蟛糠值腖ncRNA，它是沒有Poly(A)尾巴的城瞎，所以它就不能用Poly(T)的探針來吸附渤闷。

RiboZero

為了解決上述的問題，Illumina公司旗下的EpiCentre公司開發(fā)了RiboZero方法脖镀，來去除核糖體RNA飒箭。這個(gè)方法的原理不是通過探針來吸附帶有Poly(A)尾巴的RNA序列。

而是倒過來，設(shè)計(jì)吸附核糖體RNA的探針弦蹂，用探針來吸附核糖體RNA肩碟。再用帶鏈霉親合素的磁珠來吸附這些帶生物素標(biāo)記的探針。

image

最后磁珠被磁鐵吸附在管壁上凸椿。

而其它的RNA削祈，包括mRNA、LncRNA脑漫、和small RNA等RNA則留在上清液當(dāng)中髓抑。

image

實(shí)驗(yàn)這樣設(shè)計(jì)，就得到了2個(gè)結(jié)果优幸。

第一點(diǎn)吨拍，就是對(duì)RNA樣本的質(zhì)量要求不再是很高。部分降解的RNA网杆、或者降解程度很嚴(yán)重的RNA都可以用RiboZero的方法去除核糖體RNA羹饰。

最典型的是從石蠟樣本歸中回收的RNA樣本，因?yàn)閺氖灅颖局谢厥盏腞NA樣本跛璧，它的質(zhì)量是非常差的严里，之前是很難用來做測序的。現(xiàn)在有了RiboZero方法追城，就可以很方便地制備出文庫來、并且進(jìn)行測序燥撞。

第二點(diǎn)座柱，就是那些不帶Poly(A)尾巴的LncRNA，現(xiàn)在也可以被測序測到了物舒。所以色洞，現(xiàn)在市場上，大部分的LncRNA建庫冠胯，都是通過RiboZero的方法火诸，去除核糖體，接下來再進(jìn)行建庫荠察。

但是RiboZero方法置蜀，它也有一個(gè)限制，就是每個(gè)物種的核糖體RNA的序列悉盆，它是有所不同的盯荤。

所以每種RiboZero的試劑盒，它其中的探針序列焕盟，都是有物種特異性的秋秤。EpiCentre公司開發(fā)了多個(gè)針對(duì)不同物種的RiboZero Kit。其中最常用的是針對(duì)：人、小鼠灼卢、大鼠的這個(gè)試劑盒绍哎。所以，科研客戶在請(qǐng)測序公司進(jìn)行RiboZero方法的建庫鞋真、測序的時(shí)候蛇摸，需要和測序公司確認(rèn)所測的物種信息。

接下來灿巧，我們要介紹一下建定向的RNA庫的方法赶袄。

目前最常用的Truseq RNA建庫方法，它是在雙鏈cDNA的兩端抠藕，對(duì)稱地加上了兩個(gè)Y型的接頭饿肺，然后變成文庫。

image

這個(gè)方法盾似，它有一個(gè)缺點(diǎn)敬辣，就是它加接頭的方向是對(duì)稱的。所以測完序后零院，我們無法知道測出來的序列的方向性溉跃。也就是說，無法知道測到的是RNA的正義鏈告抄，還是反義鏈撰茎。

image

如果我們測的是人、小鼠之類的樣本打洼，那么問題不是很大龄糊。因?yàn)檫@些模式生物基因組序列，轉(zhuǎn)錄本序列募疮，都是比較清楚的炫惩。

但是，如果我們是在測一些新的物種的時(shí)候阿浓，那么我們就不知道測到的是正義鏈他嚷，還是反義鏈了。

為了解決這個(gè)問題芭毙，科學(xué)家設(shè)計(jì)了多種方向性文庫的建庫方法筋蓖。今天，我們就為大家介紹其中兩種方向性的文庫的建庫方法稿蹲。

摻U法

我們先來看這第一種方法扭勉。這種方法的原理，它是用摻入U(xiǎn)堿基的辦法苛聘，來標(biāo)識(shí)cDNA的第二條鏈涂炎。

image

我們具體來看一下這個(gè)方法忠聚。

首先，它用常規(guī)的方法唱捣，從RNA上逆轉(zhuǎn)錄出第一鏈的cDNA两蟀。

然后，合成第二鏈時(shí)震缭，所用的dNTP赂毯，它是特殊的。它用dUTP來代替了dTTP拣宰，用這樣的dNTP來合成出的第二鏈党涕，它當(dāng)中就摻入了大量的U堿基。

而之前的第一鏈巡社，是沒有U堿基的膛堤。這樣，第一鏈和第二鏈就有了差別晌该。

接下來肥荔，在雙鏈cDNA的兩端接上Y型的接頭。然后朝群，用USER酶（Uracil-Specific Excision Reagent）進(jìn)行消化燕耿。

那我們這里介紹一下USER酶。USER酶姜胖，它是一個(gè)混合酶誉帅。其中的尿嘧啶DNA糖基化酶(UDG)能夠識(shí)別DNA鏈中的U堿基，并且把U堿基進(jìn)行糖基化谭期。接著堵第，這個(gè)糖基化的U堿基從核酸鏈上切掉。這樣核酸鏈上就型成了一個(gè)缺堿基的一個(gè)空位隧出。接著，混合酶當(dāng)中的核酸內(nèi)切酶VIII就在脫堿基位點(diǎn)上把核酸鏈給切斷掉阀捅。

剛才我們說了胀瞪，在合成第二鏈的時(shí)候，是摻入了大量的U堿基那么這個(gè)雙鏈的第二鏈就會(huì)被USER酶切得粉碎饲鄙。也就是說cDNA的第二鏈被降解掉了凄诞。

image

降解發(fā)生之后，雙鏈的文庫就只剩下了一條鏈忍级。而這條鏈的兩頭是接的不同序列的接頭帆谍。

接下來進(jìn)行PCR擴(kuò)增。擴(kuò)增出來的文庫轴咱，保持了模板上的雙個(gè)不對(duì)稱的接頭序列汛蝙。

那么接下來烈涮，我們?cè)跍y序的時(shí)候，測到就是有方向的文庫了跷敬。

ScriptSeq法

接下來辕宏，我們介紹第二種建方向性文庫的方法嫉嘀。

這個(gè)方法是Illumina公司的ScriptSeq方法。它的核心原理讶舰，是在加接頭的時(shí)侯，左右兩側(cè)就加不同的接頭需了。首先跳昼，它在合成第一鏈的cDNA的時(shí)候，它用的右側(cè)引物肋乍，就是帶了標(biāo)簽“A”

image

的接頭鹅颊。從這個(gè)接頭延伸出來的cDNA鏈，很自然地在其右側(cè)就連上了A接頭序列住拭。

image

接下來挪略，把一個(gè)特殊的TTO引物（Termianl TaggingOligo ）加進(jìn)去。這個(gè)TTO引物的5’端是左側(cè)的標(biāo)簽序列“B”滔岳。3’端是一連串隨機(jī)序列杠娱，這些隨機(jī)序列的作用是與剛才合成出來的第一鏈（cDNA）進(jìn)行雜交。

image

但是這個(gè)隨機(jī)序列的3’端的最后一個(gè)堿基是一個(gè)雙脫氧核苷酸谱煤，它的作用是不讓這個(gè)TTO引物發(fā)生延伸反應(yīng)摊求。這個(gè)TTO引物與剛才合成的第一鏈cDNA雜交之后，第一鏈cDNA就在聚合酶的作用下刘离，進(jìn)一步延伸室叉。延伸的結(jié)果就是把左側(cè)的標(biāo)簽“B”也加到cDNA鏈上。

接下來硫惕，再用外側(cè)的PCR引物對(duì)進(jìn)行擴(kuò)增茧痕，這對(duì)外側(cè)的引物即帶有一段與標(biāo)簽互補(bǔ)的序列。又帶一段有與測序芯片上的接頭互補(bǔ)的序列恼除。這樣擴(kuò)增得到的產(chǎn)物踪旷，就是正式的文庫了。

image

因?yàn)檫@個(gè)文庫的左右是帶了不同的標(biāo)簽的豁辉，所以這個(gè)文庫令野，它測出來就是有方向性的。這樣我們就得到了方向性的文庫徽级。

以上是本期視頻的全部內(nèi)容气破。

謝謝您的收看，我們下期節(jié)目再見餐抢。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末现使，一起剝皮案震驚了整個(gè)濱河市低匙，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌朴下，老刑警劉巖努咐，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異殴胧，居然都是意外死亡渗稍，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門团滥，熙熙樓的掌柜王于貴愁眉苦臉地迎上來竿屹，“玉大人，你說我怎么就攤上這事灸姊」叭迹” “怎么了？”我有些...
開封第一講書人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵力惯，是天一觀的道長碗誉。經(jīng)常有香客問我，道長父晶，這世上最難降的妖魔是什么哮缺？我笑而不...
開封第一講書人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮甲喝，結(jié)果婚禮上尝苇，老公的妹妹穿的比我還像新娘。我一直安慰自己埠胖，他們只是感情好糠溜，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著直撤，像睡著了一般非竿。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上谋竖，一...
開封第一講書人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說
那天汽馋，我揣著相機(jī)與錄音，去河邊找鬼圈盔。笑死，一個(gè)胖子當(dāng)著我的面吹牛悄雅，可吹牛的內(nèi)容都是我干的驱敲。我是一名探鬼主播，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼宽闲，長吁一口氣：“原來是場噩夢啊……” “哼众眨！你這毒婦竟也來了握牧？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,916評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤娩梨，失蹤者是張志新（化名）和其女友劉穎沿腰，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體狈定，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡颂龙，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了纽什。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片措嵌。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖芦缰，靈堂內(nèi)的尸體忽然破棺而出企巢，到底是詐尸還是另有隱情，我是刑警寧澤让蕾，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布浪规，位于F島的核電站，受9級(jí)特大地震影響探孝，放射性物質(zhì)發(fā)生泄漏笋婿。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一再姑、第九天我趴在偏房一處隱蔽的房頂上張望萌抵。院中可真熱鬧，春花似錦元镀、人聲如沸绍填。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評(píng)論 0贊 19
一樁弒父案栖疑，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽讨永。三九已至，卻和暖如春遇革，著一層夾襖步出監(jiān)牢的瞬間卿闹，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工萝快，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留锻霎，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓揪漩，卻偏偏與公主長得像旋恼，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子奄容，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345

8種特殊建庫測序

8種特殊建庫測序

推薦閱讀更多精彩內(nèi)容