歡迎關注oddxix
RNA-seq是高通量測序中最常見的一種應用摄欲,本期視頻介紹其:
1.方法原理
2.生物信息分析
表達差異
(1)火山圖展示
(2)聚類分析
(3)GO分析
(4)Pathway分析(KEGG分析)結構變異
(1)可變剪接
(2)融合基因
(3)點突變
RNA高通量測序(RNA-sequencing,縮寫為RNA-seq)是目前高通量測序技術中被用得最廣的一種技術,RNA-seq可以幫助我們了解:各種比較條件下饰迹,所有基因的表達情況的差異刊愚。它可以檢測的差異有:正常組織和腫瘤組織的之間的差異对碌;也可以檢測藥物治療前后基因表達的差異;還可以檢測發(fā)育過程中荐虐,不同的發(fā)育階段踏枣,不同的組織之間的基因表達差異昌屉。諸如此類。那么在所有檢測的差異類型中茵瀑,最常見的间驮,就是檢測所有mRNA的表達量的差異,這是最常用的一種檢測马昨。同時竞帽,我們還可以檢測 RNA 的結構上的差異。例如:mRNA的剪接方式的差異鸿捧,也就是我們一般說的可變剪接屹篓,還可以檢測融合基因,同時還可以檢測基因單點突變導致的SNP(Single Nucleotide Polymorphisom)匙奴。
接下來堆巧,我們分成RNA-seq測序方法和RNA-seq測序數(shù)據(jù)分析兩個部分,分別介紹RNA-seq泼菌。
RNA測序方法
在測mRNA的過程當中谍肤,首先要解決的問題,是如何去除核糖體RNA也就是去除“rRNA”(Ribosomal RNA)哗伯。在通常抽提到的總RNA中荒揣,絕大部分都是核糖體RNA(rRNA)。以人類的細胞或組織為例焊刹,一般抽提到的總RNA當中系任,95%都是核糖體RNA。剩下的2%到3%是mRNA虐块。還有吶俩滥,2%到3%是Long non-coding RNA、或者tRNA贺奠、microRNA,這些RNA举农,也就是說mRNA只占了所有RNA中的一小部分。
如果我們把所有的RNA都拿來測序的話敞嗡,測到的絕大部分的序列數(shù)據(jù)都是核糖體RNA颁糟。而且這當中(rRNA)比例會高達95%左右航背,但是,核糖體RNA在整個人類當中都是非常保守的棱貌,而且在人的各個組織玖媚、器官當中也是極度穩(wěn)定的。也就是說婚脱,測rRNA今魔,它得到的數(shù)據(jù),并不能為我們實驗者提供什么有用的信息障贸,而mRNA才是RNA當中信息含量最豐富的那個部分错森。
我們一般的RNA-seq要測的,也是mRNA的各種變化篮洁,所以在實驗過程當中涩维,我們一般要把核糖體RNA先去掉。然后再進行建庫測序袁波。
去除核糖體RNA瓦阐,并進行建庫的方法,有許多種篷牌。我們主要介紹一下應用最廣泛的illumina公司的TruseqRNA建庫方法睡蟋。
下圖是mRNA測序的建庫過程圖。首先是利用高等生物的mRNA都有Poly(A)尾巴這個特點枷颊,用帶有Poly(T)探針的磁珠與總RNA進行雜交戳杀。然后Poly(T)探針就和帶Poly(A)尾巴的mRNA結合在一起,接下來就回收磁珠夭苗,然后把這些帶Poly(A)的mRNA從磁珠上洗脫下來豺瘤。
再把這些洗脫下來的mRNA用鎂離子溶液進行處理。鎂離子溶液會把mRNA打斷听诸。
被打斷的這些mRNA片段,再用隨機引物進行逆轉錄蚕泽。
逆轉錄成(第一鏈)cDNA后晌梨,再合成出第二鏈(cDNA)。這樣就成為雙鏈的cDNA须妻。我們再在雙鏈的cDNA的兩端接上“Y”型的接頭仔蝌。就成了標準的測序文庫,這個標準的測序文庫就可以拿到HiSeq測序儀上進行測序了荒吏。
樣本質量要求
這個建庫方法對RNA的完整度有較高的要求敛惊。也就是說,只有在mRNA大部分是完整的狀態(tài)下绰更,才能得到比較好的效果瞧挤。這是因為帶Poly(T)的磁珠锡宋,它所吸附的是Poly(A)的那些序列。那么如果mRNA發(fā)生了降解特恬,也就是mRNA斷掉了执俩,那么磁珠所吸附下來的片段,都是那些靠近3'端的那些斷片癌刽,而那些5'端的斷片呢役首,是吸附不下來的。會在富集過程中被洗脫掉显拜。
那么接下來的數(shù)據(jù)分析當中衡奥,就會發(fā)生一定的數(shù)據(jù)偏差。為了保證能夠測到盡可能完整的mRNA序列呢远荠,Illumina公司是這樣建議的:它建議先對總RNA進行一次質量檢測矮固,一般是用Agilent公司出品的Bioanalyzer 2100毛細管電泳儀,對總RNA樣本進行一次電泳質檢矮台。那Bioanalyzer吶會根據(jù)18S和28S這兩個核糖體RNA的電泳峰是否高乏屯、是否尖,來判斷RNA的質量瘦赫。并且會自動打分辰晕。
這兩個峰越高、越尖确虱,也就說明RNA的降解就越少含友,完整度就越高。那么打分也會越高校辩。反之窘问,打分就會低。這個分值叫RIN值宜咒。也就是RNA的完整度評分值惠赫。是“RNA Integrity Number”的英文首字母縮寫。RIN值最高是10分故黑,最低是0分儿咱。
Illumina公司推薦用RIN值在8.0以上的RNA進行建庫和測序。測序完成之后吶场晶,就可以進行數(shù)據(jù)分析了混埠。
數(shù)據(jù)分析
- 第一步,一般是先把測到的RNA片段诗轻,先mapping(比對)到基因組上钳宪,在比對完了之后,可以先看一下,有多少的RNA片段吏颖,是在靠近基因的5'端的位置搔体,又有多少片段在是靠近基因的3'端的位置。
這張圖上侦高,就是把所有的基因嫉柴,都按其外顯子的長度吶,拉直奉呛,歸一化到“0 - 100”的這樣一個長度咳胃。來看比對上的片段竭恬,有多少是落在這0到100的這一個軸的哪個位置上袱箱。這樣一個比對的結果境析,就可以讓我們看見前面Poly(T)磁珠在抓mRNA的時侯。捕獲下來的這些mRNA是不是完整的咆槽,如果捕獲下來的這些mRNA大部分是完整的話吶陈轿,那么這個圖形靠近5'端的曲線就會顯得比較飽滿。它的高度會和3'端的高度差不多秦忿。反之麦射,如果這根曲線的3'端是很高的,而5'端是比較低的灯谣,我們就可以初步判斷潜秋,這個RNA有一定程度的降解。因此胎许,我們可以推斷在捕獲過程當中峻呛,有相當一部分(mRNA),它的5'片段因為與3'片段的Poly(A)片段的尾巴斷開了辜窑,所以钩述,沒有被捕獲下來。所以穆碎,這個RNA吶牙勘,是有一定程度降解的。
在知道了測序的質量之后吶所禀,接下大家來要關注的就是不同樣本之間方面、各個基因的mRNA的表達量的差異。
RPKM 指標
那么在做這些比較的過程當中北秽,目前最常用的,對基因表達量進行相對定量的一個指標最筒,就是RPKM值贺氓。那么RPKM是Reads Per Kilobase of exon model perMillion mapped reads的英文的首字母縮寫。
RPKM翻譯成中文就是每一百萬條可以比對到基因組上的Read當中,有幾條是可以比對到某個特定基因的辙培,然后這數(shù)值再除以該基因的外顯子的長度蔑水,得到的這樣一個最終的比值。
它的分子是經(jīng)對到某個基因的外顯子的read數(shù)扬蕊。它的分母的第一項是這次所有比對到基因組上的read數(shù)(M reads搀别,MillionReads),分母的第二項是這個特定基因的外顯子的長度尾抑。
我們接下來分步地對這個公式進行一下解釋歇父,首先,就是比對到某個基因的外顯子上的Read數(shù)再愈,去除以這次所測到的榜苫、全部可以比對到基因組上的Read數(shù)。這個比較容易理解就是:這個基因所表達出來的mRNA,它所被測到的片段翎冲,來和所有被測到的垂睬、可以Mapping(比對)到基因組上的片段來進行比較。比較費解的是抗悍,為什么還要除以第二項驹饺,就是“除以這個外顯子的長度”。這是因為建庫過程當中缴渊,這個RNA是用鎂離子溶液來處理赏壹,然后打斷(并逆錄)成若干個180-200BP左右的小片段,如果一個基因的長顯子越長疟暖,那么它所產生的mRNA就越長卡儒,那么mRNA越長吶,被打出來的小片段就越多俐巴。我們來假設骨望,一個A基因,它的mRNA的長度吶欣舵,假設它是1Kb擎鸠,那么它的1Kb的mRNA可能被打成“5”個,200Bp左右的小片段缘圈;那么還有一個B基因劣光,如果這個B基因的mRNA是2Kb長,那么糟把,它同樣被打成200Bp左右的小片段吶绢涡,它就會產生“10”個小片段。我們來看遣疯,A基因是5個小片段雄可,而B基因是整整10個小片段,所以,B基因在測序過程當中数苫,它被測到的概率就會比A基因整整大出去一倍聪舒。這就是我們?yōu)槭裁匆褎偛诺谝豁棻瘸鰜淼谋戎祬龋缓笤俪赃@個外顯子的長度虐急。
通過上面的解釋吶箱残,我們就可以理解:除以這個外顯子的長度,它的目的:是修正這個mRNA長度所引起的mRNA的Read數(shù)的偏差止吁。通過這種修正吶被辑,能夠還原出一個比較真實的、原始的表達拷貝數(shù)狀態(tài)赏殃。這就是“RPKM”定義的原理敷待。
火山圖
那么作為一種針對全轉錄組的分析,我們希望是一次看到一個整體的樣本(表達)差異的情況仁热。而不僅僅是看少數(shù)幾個基因的表達差異榜揖。科學家做了一種叫“火山圖”的一個圖形抗蠢,來比較形象地來說明2個樣本之間的表達差異举哟。
那么我們來看這張圖,這個樣子就象火山噴發(fā)的樣子迅矛,這是2個樣本的RNA的表達量的對比妨猩。這個圖的橫軸吶,是表示某個基因的表達是上升了秽褒,還是下降了壶硅。
縱軸是表示這種差異的置信程度,這其中的每個點销斟,就是兩個樣本當中同一個基因的mRNA表達量的變化庐椒。如果這個基因的表達是上調了,那么這個點就往右移動蚂踊。反之约谈,如果這個基因的表達量是下調了,那么這個點就往原點的左移動犁钟。
那么這個縱軸棱诱,就是這種變化差異的置信程度。如果這個置信程度越高吶涝动,那么這個點的縱軸位置也越高迈勋。那么我們在縱軸上劃了這樣一條水平線,超過這個水平線以上的(點)吶醋粟,(其差異水平的)置信程度是很高的靡菇。我們就把它標示成紅顏色担败。如果低于(這條水平線的)置信程度吶,它的置信程度也相對低一些镰官,我們把它標成藍顏色。
這里要解釋一下吗货,為什么差異程度是相同的情況下泳唠,它們的差異置信程度是不一樣的。比如說同樣是差了2的5次方宙搬,也就是32倍笨腥,它的差異置信程度會不一樣,有些是藍點勇垛,有些是紅點脖母。
A基因在甲樣本中,被測到了3200條闲孤,而在乙樣本中被測到了100條谆级;B基因在甲樣本中,被測到了320條讼积,而在乙樣本中被測到了10條肥照。它們同樣是差了31倍,但是因為A基因的樣本統(tǒng)計數(shù)勤众,遠大于B基因的樣本統(tǒng)計數(shù)舆绎,也就是說,它們的Reads數(shù)有那么大的差距们颜。所以吕朵,A基因的這個差異的置信程度,會比B基因的這個差異置信程度要高許多窥突。
那么努溃,我們再來對比這兩張圖。那么就可以比較直觀地發(fā)覺波岛,左側的這個圖當中茅坛,有更多的基因表現(xiàn)出明顯的差異,這樣吶则拷,火山圖就為我們提供了一個形象的贡蓖、直觀的、整體表達差異信息煌茬。
聚類分析圖
聚類分析吶斥铺,是RNA分析中非常常用的一個手段。它是通過多個樣本的全基因表達譜對比坛善,來找到它們之間的相似性和相近關系晾蜘。這是一張聚類分析的圖邻眷,橫軸是樣本,縱軸是基因剔交。通過聚類分析肆饶,可以發(fā)現(xiàn):在這個群體中,樣本被分成了3個群體岖常。
每個群體的內部吶驯镊,都有著相似的表達特征。同時竭鞍,我們還可以看到板惑,基因的表達,也是成簇的偎快,大體上分成3個基因群冯乘。那么這3個基因群各自有著相似的表達量。聚類分析有很多的應用晒夹,比如說:我們可以分析疾病的亞型裆馒。那么還可以通過對多個基因在特定疾病當中的表達傾向性,來找出可能的丐怯、新的领追、診斷用的Biomark。
GO分析
GO分析是RNA-seq分析中非常常用的一種分析响逢。GO是Gene Ontology的縮寫绒窑,GeneOntology吶是一個國際化的、基因功能分類體系舔亭。這個體系用一整套動態(tài)更新的標準詞匯些膨、和嚴格定義的概念,來全面地概括任何生物中基因和基因產物的屬性钦铺。
GO主要描述基因的三個屬性:
第一订雾,是這個基因,它參與的生物過程
第二矛洞,是這個基因的產物的功能
第三洼哎、是這個基因產物在細胞器內的空間定位
差異基因GO富集柱狀圖:可以直觀的反映出在生物過程、細胞組分沼本、和分子功能富集的差異基因的個數(shù)分布情況噩峦。
有向無環(huán)圖,是差異基因GO富集分析的圖形化展示方式抽兆,從上到下吶识补,它所定義的功能范圍越來越小、越來越精準辫红。它的分支吶凭涂,表示包含關系祝辣。而這個圈圈的顏色越深吶,表示這個富集關系程度越高切油。
Pathway分析
通路分析:通路(Pathway)是指在系統(tǒng)水平上完成生物的某一功能的基本單元蝙斜、或者局部子網(wǎng)絡。KEGG澎胡,也就是:Kyoto Encyclopaedia of Genes andGenomes乍炉。翻成中文:就是《京都基因和基因組百科全書》,是目前公認的滤馍、最權威的基因功能數(shù)據(jù)庫。這其中的Pathway(通路)是KEGG的核心內容底循。目前針對Pathway的分析巢株、注釋,大多數(shù)是基于KEGGPathway來做的熙涤。
散點圖是KEGG富集分析結果的圖形化展示方式阁苞。在此圖中,KEGG富集程度通過Rich factor祠挫、Qvalue和富集到此通路上的基因個數(shù)來衡量那槽。點的面積越大,則富集的基因數(shù)越多等舔。富集的因子越大骚灸,則表示富集的程度越大。qValue是校正之后的pValue慌植。那么它越接近于0甚牲,表示富集程度越顯著。
結構變異分析
前面講的都是基于RNA表達量的差異分析蝶柿。接下來吶是RNA-seq當中丈钙,可以測到的mRNA上的各種結構上的變異。所謂結構上的變異吶交汤,也就是RNA序列的變異雏赦。主要吶,是3種:
第1種芙扎,是可變剪接
第2種吶星岗,是融合基因
第3種吶,是點突變戒洼,也就是SNP
結構分析需要較深的測序深度
對于想要測mRNA結構變異的用戶呢伍茄,建議測序深度要測比較深。我們一般是建議測10G以上的數(shù)據(jù)量施逾。原因是二代測序敷矫,目前的測長還不是很長例获,每一個Read,只有大約100到125個Bp左右曹仗。如果測序深度不夠榨汤,那么讀到的這些read在整個的mRNA上的分布,是一種比較零碎的一種狀態(tài)怎茫。那么在這種比較零碎的收壕、不完整的覆蓋情況下,要去分析哪里有一個剪接點轨蛤,哪里有一個斷點蜜宪,哪里有一個SNP,它不是很準確的祥山。
當測序深度足夠深的時侯圃验,在每一個位點,都有10幾次缝呕、或者幾10次的覆蓋的時侯澳窑,我們就可以比較有把握地來判斷出,哪兒有了一個新的剪接點供常,哪兒出現(xiàn)了一個斷點摊聋,哪兒堿基發(fā)生了突變。
可變剪接
可變剪接栈暇,在真核生物中普通存在麻裁。一般一個人的組織樣本當中,可以通過高通量測序源祈,發(fā)現(xiàn)有5000個到20000個左右的可變剪接悲立。
融合基因
融合基因,是指原來在基因組上分開的2個基因新博,因為某種原因薪夕,染色體發(fā)生了重排。重排的結果是讓A基因的頭赫悄,接到了B基因的身體上原献,這樣就產生了融合基因。上圖就是一個癌細胞中的融合基因的示意圖埂淮。我們可以看到這10幾個Reads都橫跨在這個融合基因的姑隅、交接點的兩側,由此吶倔撞,證明了這個癌細胞當中有這么一個融合基因讲仰。
點突變
RNA-seq還可以找出點突變,這個吶痪蝇,是一張泡泡圖鄙陡,來表示我們所找到的點突變冕房。發(fā)生突變頻率最高的這個基因,就用最大的泡泡來表示趁矾。(突變)頻率低一點的耙册,就畫一個小一點的泡泡(頻率),再小一點毫捣,那么再小一點的泡泡详拙。
這些泡泡呈逆時針排列,形成這樣一個泡泡圖蔓同。
參考:https://mp.weixin.qq.com/s/Or8Q4ps885W_6QffLclCig
歡迎關注oddxix
有趣的靈魂等著你~
如果覺得寫的不錯記得點個贊哦~