【陳巍學基因-2】RNA-seq

歡迎關注oddxix

RNA-seq是高通量測序中最常見的一種應用摄欲,本期視頻介紹其:
1.方法原理
2.生物信息分析

  • 表達差異
    (1)火山圖展示
    (2)聚類分析
    (3)GO分析
    (4)Pathway分析(KEGG分析)

  • 結構變異
    (1)可變剪接
    (2)融合基因
    (3)點突變

RNA高通量測序(RNA-sequencing,縮寫為RNA-seq)是目前高通量測序技術中被用得最廣的一種技術,RNA-seq可以幫助我們了解:各種比較條件下饰迹,所有基因的表達情況的差異刊愚。它可以檢測的差異有:正常組織和腫瘤組織的之間的差異对碌;也可以檢測藥物治療前后基因表達的差異;還可以檢測發(fā)育過程中荐虐,不同的發(fā)育階段踏枣,不同的組織之間的基因表達差異昌屉。諸如此類。那么在所有檢測的差異類型中茵瀑,最常見的间驮,就是檢測所有mRNA的表達量的差異,這是最常用的一種檢測马昨。同時竞帽,我們還可以檢測 RNA 的結構上的差異。例如:mRNA的剪接方式的差異鸿捧,也就是我們一般說的可變剪接屹篓,還可以檢測融合基因,同時還可以檢測基因單點突變導致的SNP(Single Nucleotide Polymorphisom)匙奴。

接下來堆巧,我們分成RNA-seq測序方法RNA-seq測序數(shù)據(jù)分析兩個部分,分別介紹RNA-seq泼菌。


RNA測序方法

在測mRNA的過程當中谍肤,首先要解決的問題,是如何去除核糖體RNA也就是去除“rRNA”(Ribosomal RNA)哗伯。在通常抽提到的總RNA中荒揣,絕大部分都是核糖體RNA(rRNA)。以人類的細胞或組織為例焊刹,一般抽提到的總RNA當中系任,95%都是核糖體RNA。剩下的2%到3%是mRNA虐块。還有吶俩滥,2%到3%是Long non-coding RNA、或者tRNA贺奠、microRNA,這些RNA举农,也就是說mRNA只占了所有RNA中的一小部分。

如果我們把所有的RNA都拿來測序的話敞嗡,測到的絕大部分的序列數(shù)據(jù)都是核糖體RNA颁糟。而且這當中(rRNA)比例會高達95%左右航背,但是,核糖體RNA在整個人類當中都是非常保守的棱貌,而且在人的各個組織玖媚、器官當中也是極度穩(wěn)定的。也就是說婚脱,測rRNA今魔,它得到的數(shù)據(jù),并不能為我們實驗者提供什么有用的信息障贸,而mRNA才是RNA當中信息含量最豐富的那個部分错森。

我們一般的RNA-seq要測的,也是mRNA的各種變化篮洁,所以在實驗過程當中涩维,我們一般要把核糖體RNA先去掉。然后再進行建庫測序袁波。

去除核糖體RNA瓦阐,并進行建庫的方法,有許多種篷牌。我們主要介紹一下應用最廣泛的illumina公司的TruseqRNA建庫方法睡蟋。

下圖是mRNA測序的建庫過程圖。首先是利用高等生物的mRNA都有Poly(A)尾巴這個特點枷颊,用帶有Poly(T)探針的磁珠與總RNA進行雜交戳杀。然后Poly(T)探針就和帶Poly(A)尾巴的mRNA結合在一起,接下來就回收磁珠夭苗,然后把這些帶Poly(A)的mRNA從磁珠上洗脫下來豺瘤。

再把這些洗脫下來的mRNA用鎂離子溶液進行處理。鎂離子溶液會把mRNA打斷听诸。

被打斷的這些mRNA片段,再用隨機引物進行逆轉錄蚕泽。

逆轉錄成(第一鏈)cDNA后晌梨,再合成出第二鏈(cDNA)。這樣就成為雙鏈的cDNA须妻。我們再在雙鏈的cDNA的兩端接上“Y”型的接頭仔蝌。就成了標準的測序文庫,這個標準的測序文庫就可以拿到HiSeq測序儀上進行測序了荒吏。


樣本質量要求

這個建庫方法對RNA的完整度有較高的要求敛惊。也就是說,只有在mRNA大部分是完整的狀態(tài)下绰更,才能得到比較好的效果瞧挤。這是因為帶Poly(T)的磁珠锡宋,它所吸附的是Poly(A)的那些序列。那么如果mRNA發(fā)生了降解特恬,也就是mRNA斷掉了执俩,那么磁珠所吸附下來的片段,都是那些靠近3'端的那些斷片癌刽,而那些5'端的斷片呢役首,是吸附不下來的。會在富集過程中被洗脫掉显拜。

那么接下來的數(shù)據(jù)分析當中衡奥,就會發(fā)生一定的數(shù)據(jù)偏差。為了保證能夠測到盡可能完整的mRNA序列呢远荠,Illumina公司是這樣建議的:它建議先對總RNA進行一次質量檢測矮固,一般是用Agilent公司出品的Bioanalyzer 2100毛細管電泳儀,對總RNA樣本進行一次電泳質檢矮台。那Bioanalyzer吶會根據(jù)18S和28S這兩個核糖體RNA的電泳峰是否高乏屯、是否尖,來判斷RNA的質量瘦赫。并且會自動打分辰晕。

這兩個峰越高、越尖确虱,也就說明RNA的降解就越少含友,完整度就越高。那么打分也會越高校辩。反之窘问,打分就會低。這個分值叫RIN值宜咒。也就是RNA的完整度評分值惠赫。是“RNA Integrity Number”的英文首字母縮寫。RIN值最高是10分故黑,最低是0分儿咱。

Illumina公司推薦用RIN值在8.0以上的RNA進行建庫和測序。測序完成之后吶场晶,就可以進行數(shù)據(jù)分析了混埠。


數(shù)據(jù)分析

  • 第一步,一般是先把測到的RNA片段诗轻,先mapping(比對)到基因組上钳宪,在比對完了之后,可以先看一下,有多少的RNA片段吏颖,是在靠近基因的5'端的位置搔体,又有多少片段在是靠近基因的3'端的位置。

這張圖上侦高,就是把所有的基因嫉柴,都按其外顯子的長度吶,拉直奉呛,歸一化到“0 - 100”的這樣一個長度咳胃。來看比對上的片段竭恬,有多少是落在這0到100的這一個軸的哪個位置上袱箱。這樣一個比對的結果境析,就可以讓我們看見前面Poly(T)磁珠在抓mRNA的時侯。捕獲下來的這些mRNA是不是完整的咆槽,如果捕獲下來的這些mRNA大部分是完整的話吶陈轿,那么這個圖形靠近5'端的曲線就會顯得比較飽滿。它的高度會和3'端的高度差不多秦忿。反之麦射,如果這根曲線的3'端是很高的,而5'端是比較低的灯谣,我們就可以初步判斷潜秋,這個RNA有一定程度的降解。因此胎许,我們可以推斷在捕獲過程當中峻呛,有相當一部分(mRNA),它的5'片段因為與3'片段的Poly(A)片段的尾巴斷開了辜窑,所以钩述,沒有被捕獲下來。所以穆碎,這個RNA吶牙勘,是有一定程度降解的。

在知道了測序的質量之后吶所禀,接下大家來要關注的就是不同樣本之間方面、各個基因的mRNA的表達量的差異。

RPKM 指標

那么在做這些比較的過程當中北秽,目前最常用的,對基因表達量進行相對定量的一個指標最筒,就是RPKM值贺氓。那么RPKM是Reads Per Kilobase of exon model perMillion mapped reads的英文的首字母縮寫。

RPKM翻譯成中文就是每一百萬條可以比對到基因組上的Read當中,有幾條是可以比對到某個特定基因的辙培,然后這數(shù)值再除以該基因的外顯子的長度蔑水,得到的這樣一個最終的比值。

它的分子是經(jīng)對到某個基因的外顯子的read數(shù)扬蕊。它的分母的第一項是這次所有比對到基因組上的read數(shù)(M reads搀别,MillionReads),分母的第二項是這個特定基因的外顯子的長度尾抑。

我們接下來分步地對這個公式進行一下解釋歇父,首先,就是比對到某個基因的外顯子上的Read數(shù)再愈,去除以這次所測到的榜苫、全部可以比對到基因組上的Read數(shù)。這個比較容易理解就是:這個基因所表達出來的mRNA,它所被測到的片段翎冲,來和所有被測到的垂睬、可以Mapping(比對)到基因組上的片段來進行比較。比較費解的是抗悍,為什么還要除以第二項驹饺,就是“除以這個外顯子的長度”。這是因為建庫過程當中缴渊,這個RNA是用鎂離子溶液來處理赏壹,然后打斷(并逆錄)成若干個180-200BP左右的小片段,如果一個基因的長顯子越長疟暖,那么它所產生的mRNA就越長卡儒,那么mRNA越長吶,被打出來的小片段就越多俐巴。我們來假設骨望,一個A基因,它的mRNA的長度吶欣舵,假設它是1Kb擎鸠,那么它的1Kb的mRNA可能被打成“5”個,200Bp左右的小片段缘圈;那么還有一個B基因劣光,如果這個B基因的mRNA是2Kb長,那么糟把,它同樣被打成200Bp左右的小片段吶绢涡,它就會產生“10”個小片段。我們來看遣疯,A基因是5個小片段雄可,而B基因是整整10個小片段,所以,B基因在測序過程當中数苫,它被測到的概率就會比A基因整整大出去一倍聪舒。這就是我們?yōu)槭裁匆褎偛诺谝豁棻瘸鰜淼谋戎祬龋缓笤俪赃@個外顯子的長度虐急。

通過上面的解釋吶箱残,我們就可以理解:除以這個外顯子的長度,它的目的:是修正這個mRNA長度所引起的mRNA的Read數(shù)的偏差止吁。通過這種修正吶被辑,能夠還原出一個比較真實的、原始的表達拷貝數(shù)狀態(tài)赏殃。這就是“RPKM”定義的原理敷待。


火山圖

那么作為一種針對全轉錄組的分析,我們希望是一次看到一個整體的樣本(表達)差異的情況仁热。而不僅僅是看少數(shù)幾個基因的表達差異榜揖。科學家做了一種叫“火山圖”的一個圖形抗蠢,來比較形象地來說明2個樣本之間的表達差異举哟。

那么我們來看這張圖,這個樣子就象火山噴發(fā)的樣子迅矛,這是2個樣本的RNA的表達量的對比妨猩。這個圖的橫軸吶,是表示某個基因的表達是上升了秽褒,還是下降了壶硅。

縱軸是表示這種差異的置信程度,這其中的每個點销斟,就是兩個樣本當中同一個基因的mRNA表達量的變化庐椒。如果這個基因的表達是上調了,那么這個點就往右移動蚂踊。反之约谈,如果這個基因的表達量是下調了,那么這個點就往原點的左移動犁钟。

那么這個縱軸棱诱,就是這種變化差異的置信程度。如果這個置信程度越高吶涝动,那么這個點的縱軸位置也越高迈勋。那么我們在縱軸上劃了這樣一條水平線,超過這個水平線以上的(點)吶醋粟,(其差異水平的)置信程度是很高的靡菇。我們就把它標示成紅顏色担败。如果低于(這條水平線的)置信程度吶,它的置信程度也相對低一些镰官,我們把它標成藍顏色。

這里要解釋一下吗货,為什么差異程度是相同的情況下泳唠,它們的差異置信程度是不一樣的。比如說同樣是差了2的5次方宙搬,也就是32倍笨腥,它的差異置信程度會不一樣,有些是藍點勇垛,有些是紅點脖母。

A基因在甲樣本中,被測到了3200條闲孤,而在乙樣本中被測到了100條谆级;B基因在甲樣本中,被測到了320條讼积,而在乙樣本中被測到了10條肥照。它們同樣是差了31倍,但是因為A基因的樣本統(tǒng)計數(shù)勤众,遠大于B基因的樣本統(tǒng)計數(shù)舆绎,也就是說,它們的Reads數(shù)有那么大的差距们颜。所以吕朵,A基因的這個差異的置信程度,會比B基因的這個差異置信程度要高許多窥突。

那么努溃,我們再來對比這兩張圖。那么就可以比較直觀地發(fā)覺波岛,左側的這個圖當中茅坛,有更多的基因表現(xiàn)出明顯的差異,這樣吶则拷,火山圖就為我們提供了一個形象的贡蓖、直觀的、整體表達差異信息煌茬。


聚類分析圖

聚類分析吶斥铺,是RNA分析中非常常用的一個手段。它是通過多個樣本的全基因表達譜對比坛善,來找到它們之間的相似性和相近關系晾蜘。這是一張聚類分析的圖邻眷,橫軸是樣本,縱軸是基因剔交。通過聚類分析肆饶,可以發(fā)現(xiàn):在這個群體中,樣本被分成了3個群體岖常。

每個群體的內部吶驯镊,都有著相似的表達特征。同時竭鞍,我們還可以看到板惑,基因的表達,也是成簇的偎快,大體上分成3個基因群冯乘。那么這3個基因群各自有著相似的表達量。聚類分析有很多的應用晒夹,比如說:我們可以分析疾病的亞型裆馒。那么還可以通過對多個基因在特定疾病當中的表達傾向性,來找出可能的丐怯、新的领追、診斷用的Biomark。


GO分析

GO分析是RNA-seq分析中非常常用的一種分析响逢。GO是Gene Ontology的縮寫绒窑,GeneOntology吶是一個國際化的、基因功能分類體系舔亭。這個體系用一整套動態(tài)更新的標準詞匯些膨、和嚴格定義的概念,來全面地概括任何生物中基因和基因產物的屬性钦铺。

GO主要描述基因的三個屬性:

  • 第一订雾,是這個基因,它參與的生物過程

  • 第二矛洞,是這個基因的產物的功能

  • 第三洼哎、是這個基因產物在細胞器內的空間定位

差異基因GO富集柱狀圖:可以直觀的反映出在生物過程、細胞組分沼本、和分子功能富集的差異基因的個數(shù)分布情況噩峦。

有向無環(huán)圖,是差異基因GO富集分析的圖形化展示方式抽兆,從上到下吶识补,它所定義的功能范圍越來越小、越來越精準辫红。它的分支吶凭涂,表示包含關系祝辣。而這個圈圈的顏色越深吶,表示這個富集關系程度越高切油。


Pathway分析

通路分析:通路(Pathway)是指在系統(tǒng)水平上完成生物的某一功能的基本單元蝙斜、或者局部子網(wǎng)絡。KEGG澎胡,也就是:Kyoto Encyclopaedia of Genes andGenomes乍炉。翻成中文:就是《京都基因和基因組百科全書》,是目前公認的滤馍、最權威的基因功能數(shù)據(jù)庫。這其中的Pathway(通路)是KEGG的核心內容底循。目前針對Pathway的分析巢株、注釋,大多數(shù)是基于KEGGPathway來做的熙涤。

散點圖是KEGG富集分析結果的圖形化展示方式阁苞。在此圖中,KEGG富集程度通過Rich factor祠挫、Qvalue和富集到此通路上的基因個數(shù)來衡量那槽。點的面積越大,則富集的基因數(shù)越多等舔。富集的因子越大骚灸,則表示富集的程度越大。qValue是校正之后的pValue慌植。那么它越接近于0甚牲,表示富集程度越顯著。


結構變異分析

前面講的都是基于RNA表達量的差異分析蝶柿。接下來吶是RNA-seq當中丈钙,可以測到的mRNA上的各種結構上的變異。所謂結構上的變異吶交汤,也就是RNA序列的變異雏赦。主要吶,是3種:

  • 第1種芙扎,是可變剪接

  • 第2種吶星岗,是融合基因

  • 第3種吶,是點突變戒洼,也就是SNP

結構分析需要較深的測序深度

對于想要測mRNA結構變異的用戶呢伍茄,建議測序深度要測比較深。我們一般是建議測10G以上的數(shù)據(jù)量施逾。原因是二代測序敷矫,目前的測長還不是很長例获,每一個Read,只有大約100到125個Bp左右曹仗。如果測序深度不夠榨汤,那么讀到的這些read在整個的mRNA上的分布,是一種比較零碎的一種狀態(tài)怎茫。那么在這種比較零碎的收壕、不完整的覆蓋情況下,要去分析哪里有一個剪接點轨蛤,哪里有一個斷點蜜宪,哪里有一個SNP,它不是很準確的祥山。

當測序深度足夠深的時侯圃验,在每一個位點,都有10幾次缝呕、或者幾10次的覆蓋的時侯澳窑,我們就可以比較有把握地來判斷出,哪兒有了一個新的剪接點供常,哪兒出現(xiàn)了一個斷點摊聋,哪兒堿基發(fā)生了突變。


可變剪接

可變剪接栈暇,在真核生物中普通存在麻裁。一般一個人的組織樣本當中,可以通過高通量測序源祈,發(fā)現(xiàn)有5000個到20000個左右的可變剪接悲立。


融合基因

融合基因,是指原來在基因組上分開的2個基因新博,因為某種原因薪夕,染色體發(fā)生了重排。重排的結果是讓A基因的頭赫悄,接到了B基因的身體上原献,這樣就產生了融合基因。上圖就是一個癌細胞中的融合基因的示意圖埂淮。我們可以看到這10幾個Reads都橫跨在這個融合基因的姑隅、交接點的兩側,由此吶倔撞,證明了這個癌細胞當中有這么一個融合基因讲仰。


點突變

RNA-seq還可以找出點突變,這個吶痪蝇,是一張泡泡圖鄙陡,來表示我們所找到的點突變冕房。發(fā)生突變頻率最高的這個基因,就用最大的泡泡來表示趁矾。(突變)頻率低一點的耙册,就畫一個小一點的泡泡(頻率),再小一點毫捣,那么再小一點的泡泡详拙。
這些泡泡呈逆時針排列,形成這樣一個泡泡圖蔓同。

參考:https://mp.weixin.qq.com/s/Or8Q4ps885W_6QffLclCig

歡迎關注oddxix

有趣的靈魂等著你~

如果覺得寫的不錯記得點個贊哦~

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末饶辙,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子斑粱,更是在濱河造成了極大的恐慌弃揽,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件珊佣,死亡現(xiàn)場離奇詭異,居然都是意外死亡披粟,警方通過查閱死者的電腦和手機咒锻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來守屉,“玉大人惑艇,你說我怎么就攤上這事∧捶海” “怎么了滨巴?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長俺叭。 經(jīng)常有香客問我恭取,道長,這世上最難降的妖魔是什么熄守? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任蜈垮,我火速辦了婚禮,結果婚禮上裕照,老公的妹妹穿的比我還像新娘攒发。我一直安慰自己,他們只是感情好晋南,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布惠猿。 她就那樣靜靜地躺著,像睡著了一般负间。 火紅的嫁衣襯著肌膚如雪偶妖。 梳的紋絲不亂的頭發(fā)上姜凄,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機與錄音餐屎,去河邊找鬼檀葛。 笑死,一個胖子當著我的面吹牛腹缩,可吹牛的內容都是我干的屿聋。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼藏鹊,長吁一口氣:“原來是場噩夢啊……” “哼润讥!你這毒婦竟也來了?” 一聲冷哼從身側響起盘寡,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤楚殿,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后竿痰,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體脆粥,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年影涉,在試婚紗的時候發(fā)現(xiàn)自己被綠了变隔。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡蟹倾,死狀恐怖匣缘,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情鲜棠,我是刑警寧澤肌厨,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站豁陆,受9級特大地震影響柑爸,放射性物質發(fā)生泄漏。R本人自食惡果不足惜盒音,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一竖配、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧里逆,春花似錦进胯、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春盯漂,著一層夾襖步出監(jiān)牢的瞬間颇玷,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工就缆, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留帖渠,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓竭宰,卻偏偏與公主長得像空郊,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子切揭,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內容