【陳巍學基因-2】RNA-seq

歡迎關注oddxix

RNA-seq是高通量測序中最常見的一種應用摄欲，本期視頻介紹其：
1.方法原理
2.生物信息分析

表達差異
（1）火山圖展示
（2）聚類分析
（3）GO分析
（4）Pathway分析（KEGG分析）
結構變異
（1）可變剪接
（2）融合基因
（3）點突變

RNA高通量測序（RNA-sequencing,縮寫為RNA-seq）是目前高通量測序技術中被用得最廣的一種技術，RNA-seq可以幫助我們了解：各種比較條件下饰迹，所有基因的表達情況的差異刊愚。它可以檢測的差異有：正常組織和腫瘤組織的之間的差異对碌；也可以檢測藥物治療前后基因表達的差異；還可以檢測發(fā)育過程中荐虐，不同的發(fā)育階段踏枣，不同的組織之間的基因表達差異昌屉。諸如此類。那么在所有檢測的差異類型中茵瀑，最常見的间驮，就是檢測所有mRNA的表達量的差異，這是最常用的一種檢測马昨。同時竞帽，我們還可以檢測 RNA 的結構上的差異。例如：mRNA的剪接方式的差異鸿捧，也就是我們一般說的可變剪接屹篓，還可以檢測融合基因，同時還可以檢測基因單點突變導致的SNP（Single Nucleotide Polymorphisom)匙奴。

接下來堆巧，我們分成RNA-seq測序方法和RNA-seq測序數(shù)據(jù)分析兩個部分，分別介紹RNA-seq泼菌。

RNA測序方法

在測mRNA的過程當中谍肤，首先要解決的問題，是如何去除核糖體RNA也就是去除“rRNA”(Ribosomal RNA)哗伯。在通常抽提到的總RNA中荒揣，絕大部分都是核糖體RNA（rRNA）。以人類的細胞或組織為例焊刹，一般抽提到的總RNA當中系任，95%都是核糖體RNA。剩下的2%到3%是mRNA虐块。還有吶俩滥，2%到3%是Long non-coding RNA、或者tRNA贺奠、microRNA,這些RNA举农，也就是說mRNA只占了所有RNA中的一小部分。

如果我們把所有的RNA都拿來測序的話敞嗡，測到的絕大部分的序列數(shù)據(jù)都是核糖體RNA颁糟。而且這當中（rRNA）比例會高達95%左右航背，但是，核糖體RNA在整個人類當中都是非常保守的棱貌，而且在人的各個組織玖媚、器官當中也是極度穩(wěn)定的。也就是說婚脱，測rRNA今魔，它得到的數(shù)據(jù)，并不能為我們實驗者提供什么有用的信息障贸，而mRNA才是RNA當中信息含量最豐富的那個部分错森。

我們一般的RNA-seq要測的，也是mRNA的各種變化篮洁，所以在實驗過程當中涩维，我們一般要把核糖體RNA先去掉。然后再進行建庫測序袁波。

去除核糖體RNA瓦阐，并進行建庫的方法，有許多種篷牌。我們主要介紹一下應用最廣泛的illumina公司的TruseqRNA建庫方法睡蟋。

下圖是mRNA測序的建庫過程圖。首先是利用高等生物的mRNA都有Poly(A)尾巴這個特點枷颊，用帶有Poly(T)探針的磁珠與總RNA進行雜交戳杀。然后Poly(T)探針就和帶Poly(A)尾巴的mRNA結合在一起，接下來就回收磁珠夭苗，然后把這些帶Poly(A)的mRNA從磁珠上洗脫下來豺瘤。

再把這些洗脫下來的mRNA用鎂離子溶液進行處理。鎂離子溶液會把mRNA打斷听诸。

被打斷的這些mRNA片段，再用隨機引物進行逆轉錄蚕泽。

逆轉錄成（第一鏈）cDNA后晌梨，再合成出第二鏈（cDNA)。這樣就成為雙鏈的cDNA须妻。我們再在雙鏈的cDNA的兩端接上“Y”型的接頭仔蝌。就成了標準的測序文庫，這個標準的測序文庫就可以拿到HiSeq測序儀上進行測序了荒吏。

樣本質量要求

這個建庫方法對RNA的完整度有較高的要求敛惊。也就是說，只有在mRNA大部分是完整的狀態(tài)下绰更，才能得到比較好的效果瞧挤。這是因為帶Poly(T)的磁珠锡宋，它所吸附的是Poly(A)的那些序列。那么如果mRNA發(fā)生了降解特恬，也就是mRNA斷掉了执俩，那么磁珠所吸附下來的片段，都是那些靠近3'端的那些斷片癌刽，而那些5'端的斷片呢役首，是吸附不下來的。會在富集過程中被洗脫掉显拜。

那么接下來的數(shù)據(jù)分析當中衡奥，就會發(fā)生一定的數(shù)據(jù)偏差。為了保證能夠測到盡可能完整的mRNA序列呢远荠，Illumina公司是這樣建議的：它建議先對總RNA進行一次質量檢測矮固，一般是用Agilent公司出品的Bioanalyzer 2100毛細管電泳儀，對總RNA樣本進行一次電泳質檢矮台。那Bioanalyzer吶會根據(jù)18S和28S這兩個核糖體RNA的電泳峰是否高乏屯、是否尖，來判斷RNA的質量瘦赫。并且會自動打分辰晕。

這兩個峰越高、越尖确虱，也就說明RNA的降解就越少含友，完整度就越高。那么打分也會越高校辩。反之窘问，打分就會低。這個分值叫RIN值宜咒。也就是RNA的完整度評分值惠赫。是“RNA Integrity Number”的英文首字母縮寫。RIN值最高是10分故黑，最低是0分儿咱。

Illumina公司推薦用RIN值在8.0以上的RNA進行建庫和測序。測序完成之后吶场晶，就可以進行數(shù)據(jù)分析了混埠。

數(shù)據(jù)分析

第一步，一般是先把測到的RNA片段诗轻，先mapping(比對)到基因組上钳宪，在比對完了之后，可以先看一下，有多少的RNA片段吏颖，是在靠近基因的5'端的位置搔体，又有多少片段在是靠近基因的3'端的位置。

這張圖上侦高，就是把所有的基因嫉柴，都按其外顯子的長度吶，拉直奉呛，歸一化到“0 - 100”的這樣一個長度咳胃。來看比對上的片段竭恬，有多少是落在這0到100的這一個軸的哪個位置上袱箱。這樣一個比對的結果境析，就可以讓我們看見前面Poly(T)磁珠在抓mRNA的時侯。捕獲下來的這些mRNA是不是完整的咆槽，如果捕獲下來的這些mRNA大部分是完整的話吶陈轿，那么這個圖形靠近5'端的曲線就會顯得比較飽滿。它的高度會和3'端的高度差不多秦忿。反之麦射，如果這根曲線的3'端是很高的，而5'端是比較低的灯谣，我們就可以初步判斷潜秋，這個RNA有一定程度的降解。因此胎许，我們可以推斷在捕獲過程當中峻呛，有相當一部分（mRNA），它的5'片段因為與3'片段的Poly(A)片段的尾巴斷開了辜窑，所以钩述，沒有被捕獲下來。所以穆碎，這個RNA吶牙勘，是有一定程度降解的。

在知道了測序的質量之后吶所禀，接下大家來要關注的就是不同樣本之間方面、各個基因的mRNA的表達量的差異。

RPKM 指標

那么在做這些比較的過程當中北秽，目前最常用的，對基因表達量進行相對定量的一個指標最筒，就是RPKM值贺氓。那么RPKM是Reads Per Kilobase of exon model perMillion mapped reads的英文的首字母縮寫。

RPKM翻譯成中文就是每一百萬條可以比對到基因組上的Read當中，有幾條是可以比對到某個特定基因的辙培，然后這數(shù)值再除以該基因的外顯子的長度蔑水，得到的這樣一個最終的比值。

它的分子是經(jīng)對到某個基因的外顯子的read數(shù)扬蕊。它的分母的第一項是這次所有比對到基因組上的read數(shù)（M reads搀别，MillionReads），分母的第二項是這個特定基因的外顯子的長度尾抑。

我們接下來分步地對這個公式進行一下解釋歇父，首先，就是比對到某個基因的外顯子上的Read數(shù)再愈，去除以這次所測到的榜苫、全部可以比對到基因組上的Read數(shù)。這個比較容易理解就是：這個基因所表達出來的mRNA,它所被測到的片段翎冲，來和所有被測到的垂睬、可以Mapping(比對）到基因組上的片段來進行比較。比較費解的是抗悍，為什么還要除以第二項驹饺，就是“除以這個外顯子的長度”。這是因為建庫過程當中缴渊，這個RNA是用鎂離子溶液來處理赏壹，然后打斷（并逆錄）成若干個180-200BP左右的小片段，如果一個基因的長顯子越長疟暖，那么它所產生的mRNA就越長卡儒，那么mRNA越長吶，被打出來的小片段就越多俐巴。我們來假設骨望，一個A基因，它的mRNA的長度吶欣舵，假設它是1Kb擎鸠，那么它的1Kb的mRNA可能被打成“5”個，200Bp左右的小片段缘圈；那么還有一個B基因劣光，如果這個B基因的mRNA是2Kb長，那么糟把，它同樣被打成200Bp左右的小片段吶绢涡，它就會產生“10”個小片段。我們來看遣疯，A基因是5個小片段雄可，而B基因是整整10個小片段，所以，B基因在測序過程當中数苫，它被測到的概率就會比A基因整整大出去一倍聪舒。這就是我們?yōu)槭裁匆褎偛诺谝豁棻瘸鰜淼谋戎祬龋缓笤俪赃@個外顯子的長度虐急。

通過上面的解釋吶箱残，我們就可以理解：除以這個外顯子的長度，它的目的：是修正這個mRNA長度所引起的mRNA的Read數(shù)的偏差止吁。通過這種修正吶被辑，能夠還原出一個比較真實的、原始的表達拷貝數(shù)狀態(tài)赏殃。這就是“RPKM”定義的原理敷待。

火山圖

那么作為一種針對全轉錄組的分析，我們希望是一次看到一個整體的樣本（表達）差異的情況仁热。而不僅僅是看少數(shù)幾個基因的表達差異榜揖。科學家做了一種叫“火山圖”的一個圖形抗蠢，來比較形象地來說明2個樣本之間的表達差異举哟。

那么我們來看這張圖，這個樣子就象火山噴發(fā)的樣子迅矛，這是2個樣本的RNA的表達量的對比妨猩。這個圖的橫軸吶，是表示某個基因的表達是上升了秽褒，還是下降了壶硅。

縱軸是表示這種差異的置信程度，這其中的每個點销斟，就是兩個樣本當中同一個基因的mRNA表達量的變化庐椒。如果這個基因的表達是上調了，那么這個點就往右移動蚂踊。反之约谈，如果這個基因的表達量是下調了，那么這個點就往原點的左移動犁钟。

那么這個縱軸棱诱，就是這種變化差異的置信程度。如果這個置信程度越高吶涝动，那么這個點的縱軸位置也越高迈勋。那么我們在縱軸上劃了這樣一條水平線，超過這個水平線以上的（點）吶醋粟，（其差異水平的）置信程度是很高的靡菇。我們就把它標示成紅顏色担败。如果低于（這條水平線的）置信程度吶，它的置信程度也相對低一些镰官，我們把它標成藍顏色。

這里要解釋一下吗货，為什么差異程度是相同的情況下泳唠，它們的差異置信程度是不一樣的。比如說同樣是差了2的5次方宙搬，也就是32倍笨腥，它的差異置信程度會不一樣，有些是藍點勇垛，有些是紅點脖母。

A基因在甲樣本中，被測到了3200條闲孤，而在乙樣本中被測到了100條谆级；B基因在甲樣本中，被測到了320條讼积，而在乙樣本中被測到了10條肥照。它們同樣是差了31倍，但是因為A基因的樣本統(tǒng)計數(shù)勤众，遠大于B基因的樣本統(tǒng)計數(shù)舆绎，也就是說，它們的Reads數(shù)有那么大的差距们颜。所以吕朵，A基因的這個差異的置信程度，會比B基因的這個差異置信程度要高許多窥突。

那么努溃，我們再來對比這兩張圖。那么就可以比較直觀地發(fā)覺波岛，左側的這個圖當中茅坛，有更多的基因表現(xiàn)出明顯的差異，這樣吶则拷，火山圖就為我們提供了一個形象的贡蓖、直觀的、整體表達差異信息煌茬。

聚類分析圖

聚類分析吶斥铺，是RNA分析中非常常用的一個手段。它是通過多個樣本的全基因表達譜對比坛善，來找到它們之間的相似性和相近關系晾蜘。這是一張聚類分析的圖邻眷，橫軸是樣本，縱軸是基因剔交。通過聚類分析肆饶，可以發(fā)現(xiàn)：在這個群體中，樣本被分成了3個群體岖常。

每個群體的內部吶驯镊，都有著相似的表達特征。同時竭鞍，我們還可以看到板惑，基因的表達，也是成簇的偎快，大體上分成3個基因群冯乘。那么這3個基因群各自有著相似的表達量。聚類分析有很多的應用晒夹，比如說：我們可以分析疾病的亞型裆馒。那么還可以通過對多個基因在特定疾病當中的表達傾向性，來找出可能的丐怯、新的领追、診斷用的Biomark。

GO分析

GO分析是RNA-seq分析中非常常用的一種分析响逢。GO是Gene Ontology的縮寫绒窑，GeneOntology吶是一個國際化的、基因功能分類體系舔亭。這個體系用一整套動態(tài)更新的標準詞匯些膨、和嚴格定義的概念，來全面地概括任何生物中基因和基因產物的屬性钦铺。

GO主要描述基因的三個屬性：

第一订雾，是這個基因，它參與的生物過程
第二矛洞，是這個基因的產物的功能
第三洼哎、是這個基因產物在細胞器內的空間定位

差異基因GO富集柱狀圖：可以直觀的反映出在生物過程、細胞組分沼本、和分子功能富集的差異基因的個數(shù)分布情況噩峦。

有向無環(huán)圖，是差異基因GO富集分析的圖形化展示方式抽兆，從上到下吶识补，它所定義的功能范圍越來越小、越來越精準辫红。它的分支吶凭涂，表示包含關系祝辣。而這個圈圈的顏色越深吶，表示這個富集關系程度越高切油。

Pathway分析

通路分析：通路（Pathway）是指在系統(tǒng)水平上完成生物的某一功能的基本單元蝙斜、或者局部子網(wǎng)絡。KEGG澎胡，也就是：Kyoto Encyclopaedia of Genes andGenomes乍炉。翻成中文：就是《京都基因和基因組百科全書》，是目前公認的滤馍、最權威的基因功能數(shù)據(jù)庫。這其中的Pathway(通路）是KEGG的核心內容底循。目前針對Pathway的分析巢株、注釋，大多數(shù)是基于KEGGPathway來做的熙涤。

散點圖是KEGG富集分析結果的圖形化展示方式阁苞。在此圖中，KEGG富集程度通過Rich factor祠挫、Qvalue和富集到此通路上的基因個數(shù)來衡量那槽。點的面積越大，則富集的基因數(shù)越多等舔。富集的因子越大骚灸，則表示富集的程度越大。qValue是校正之后的pValue慌植。那么它越接近于0甚牲，表示富集程度越顯著。

結構變異分析

前面講的都是基于RNA表達量的差異分析蝶柿。接下來吶是RNA-seq當中丈钙，可以測到的mRNA上的各種結構上的變異。所謂結構上的變異吶交汤，也就是RNA序列的變異雏赦。主要吶，是3種：

第1種芙扎，是可變剪接
第2種吶星岗，是融合基因
第3種吶，是點突變戒洼，也就是SNP

結構分析需要較深的測序深度

對于想要測mRNA結構變異的用戶呢伍茄，建議測序深度要測比較深。我們一般是建議測10G以上的數(shù)據(jù)量施逾。原因是二代測序敷矫，目前的測長還不是很長例获，每一個Read，只有大約100到125個Bp左右曹仗。如果測序深度不夠榨汤，那么讀到的這些read在整個的mRNA上的分布，是一種比較零碎的一種狀態(tài)怎茫。那么在這種比較零碎的收壕、不完整的覆蓋情況下，要去分析哪里有一個剪接點轨蛤，哪里有一個斷點蜜宪，哪里有一個SNP，它不是很準確的祥山。

當測序深度足夠深的時侯圃验，在每一個位點，都有10幾次缝呕、或者幾10次的覆蓋的時侯澳窑，我們就可以比較有把握地來判斷出，哪兒有了一個新的剪接點供常，哪兒出現(xiàn)了一個斷點摊聋，哪兒堿基發(fā)生了突變。

可變剪接

可變剪接栈暇，在真核生物中普通存在麻裁。一般一個人的組織樣本當中，可以通過高通量測序源祈，發(fā)現(xiàn)有5000個到20000個左右的可變剪接悲立。

融合基因

融合基因，是指原來在基因組上分開的2個基因新博，因為某種原因薪夕，染色體發(fā)生了重排。重排的結果是讓A基因的頭赫悄，接到了B基因的身體上原献，這樣就產生了融合基因。上圖就是一個癌細胞中的融合基因的示意圖埂淮。我們可以看到這10幾個Reads都橫跨在這個融合基因的姑隅、交接點的兩側，由此吶倔撞，證明了這個癌細胞當中有這么一個融合基因讲仰。

點突變

RNA-seq還可以找出點突變，這個吶痪蝇，是一張泡泡圖鄙陡，來表示我們所找到的點突變冕房。發(fā)生突變頻率最高的這個基因，就用最大的泡泡來表示趁矾。（突變）頻率低一點的耙册，就畫一個小一點的泡泡（頻率），再小一點毫捣，那么再小一點的泡泡详拙。
這些泡泡呈逆時針排列，形成這樣一個泡泡圖蔓同。

參考：https://mp.weixin.qq.com/s/Or8Q4ps885W_6QffLclCig

歡迎關注oddxix

有趣的靈魂等著你~

如果覺得寫的不錯記得點個贊哦~

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末饶辙，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子斑粱，更是在濱河造成了極大的恐慌弃揽，老刑警劉巖，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件珊佣，死亡現(xiàn)場離奇詭異，居然都是意外死亡披粟，警方通過查閱死者的電腦和手機咒锻，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來守屉，“玉大人惑艇，你說我怎么就攤上這事∧捶海” “怎么了滨巴？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長俺叭。經(jīng)常有香客問我恭取，道長，這世上最難降的妖魔是什么熄守？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任蜈垮，我火速辦了婚禮，結果婚禮上裕照，老公的妹妹穿的比我還像新娘攒发。我一直安慰自己，他們只是感情好晋南，可當我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布惠猿。她就那樣靜靜地躺著，像睡著了一般负间。火紅的嫁衣襯著肌膚如雪偶妖。梳的紋絲不亂的頭發(fā)上姜凄，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天，我揣著相機與錄音餐屎，去河邊找鬼檀葛。笑死，一個胖子當著我的面吹牛腹缩，可吹牛的內容都是我干的屿聋。我是一名探鬼主播，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼藏鹊，長吁一口氣：“原來是場噩夢啊……” “哼润讥！你這毒婦竟也來了？” 一聲冷哼從身側響起盘寡，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤楚殿，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后竿痰，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體脆粥，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年影涉，在試婚紗的時候發(fā)現(xiàn)自己被綠了变隔。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡蟹倾，死狀恐怖匣缘，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情鲜棠，我是刑警寧澤肌厨，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站豁陆，受9級特大地震影響柑爸，放射性物質發(fā)生泄漏。R本人自食惡果不足惜盒音，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一竖配、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧里逆，春花似錦进胯、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案胁镐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春盯漂，著一層夾襖步出監(jiān)牢的瞬間颇玷，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工就缆，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留帖渠，地道東北人。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓竭宰，卻偏偏與公主長得像空郊，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子切揭，可洞房花燭夜當晚...
茶點故事閱讀 42,700評論 2贊 345