RNA-Seq簡介
舉個例子,現(xiàn)在我們有一群正常的神經(jīng)細胞,一群突變的神經(jīng)細胞涉馅,突變細胞的行為與正常細胞不同。我們想知道是什么遺傳機制造成了這種差異黄虱,這意味著我們想要觀察基因表達的差異稚矿。每一個細胞有一堆染色體(chromosomes),每一個染色體上有一堆基因,有一些基因是活躍的捻浦,有的是不活躍的晤揣,高通量測序告訴我們哪些基因是活躍的,以及轉(zhuǎn)錄了多少朱灿。我們可以使用RNA-Seq去檢測正常細胞和突變的細胞中的基因表達昧识。然后我們就可以比較這兩種細胞類型,在突變細胞中找出它們的不同之處盗扒。
RNA-Seq分三個主要的步驟:
準備一個測序文庫
測序
數(shù)據(jù)分析
1.準備一個測序文庫
注意:我使用Illumina協(xié)議(protocol)和測序儀(sequencer)作為我的例子跪楞,因為他們是常用的,但記住侣灶,有其他協(xié)議和測序儀是不同的甸祭。
第一步:分離RNA
第二步:將RNA打斷成小片段
我們這樣做是因為RNA轉(zhuǎn)錄本可以有數(shù)千個堿基長,但測序機只能對較短的片段(200-300 bp)進行測序褥影。
第三步:將RNA片段轉(zhuǎn)化為雙鏈DNA池户。
雙鏈DNA比RNA更穩(wěn)定,易于擴增和修飾(modified)。
第四步:添加測序接頭(adaptors)校焦。
接頭做兩件事:
允許測序儀識別片段赊抖。
允許你同時測序不同的樣品,因為不同的樣品可以使用不同的接頭
注意:這個步驟并不是100%有效的
第五步:PCR擴增
只有具有測序接頭的片段被放大;他們是豐富的寨典。
第六步:QC
驗證文庫濃度
驗證文庫片段長度
2.測序
想象一下我們要測序的DNA片段熏迹,它是垂直的,因為它在測序儀里就是這樣的凝赛。實際上注暗,大約有4億個片段垂直排列在一個網(wǎng)格中。我只是給你看4個片段墓猎,網(wǎng)格(grid)捆昏,我們叫做流動池(flow cell),這臺機器有熒光探針,不同顏色的探針結(jié)合不同的核苷酸(nucleotide)毙沾。探針連接到每個序列的第一個堿基上骗卜。一旦探針連接好,機器就會從上面給流動池拍照左胞。這幅圖告訴機器左下角的第一個堿基是“A”寇仓,右下角為‘’G‘’,后方還有兩個‘’A‘’烤宙。然后機器會洗掉探針的顏色遍烦,然后探針被綁定到每個片段中的下一個堿基上,重復以上步驟躺枕。這個過程不斷重復服猪,直到機器確定每個核苷酸序列。
有時拐云,探針的亮度不高罢猪,機器也不確定自己判斷的是正確的顏色,質(zhì)量分數(shù)(Quality scores)是輸出的一部分叉瘩,反映了機器對堿基識別的自信程度膳帕,在這種情況下,褪色的點會得到低質(zhì)量得分薇缅。
你可能會得到低質(zhì)量分數(shù)的另一個原因是危彩,在同一區(qū)域有許多相同顏色的探針,這被稱為“低多樣性”捅暴,單一顏色的過多會使識別單個序列變得困難恬砂,顏色會模糊在一起咧纠。
每個測序“read”包含4行數(shù)據(jù)蓬痒。第一行(總是以@'開始)是序列的唯一ID。第二行包含序列片段的堿基漆羔。第三行總是一個“+”字符梧奢。第四行包含序列片段中每個堿基的質(zhì)量得分狱掂。
現(xiàn)在我們了解了原始數(shù)據(jù)以及它是如何生成的,我們需要:
1.過濾掉垃圾reads
reads含有低質(zhì)量的堿基
read顯然是化學反應的產(chǎn)物(接頭序列)
2.將高質(zhì)量的reads與基因組比對
- 匹配read片段的基因組片段將決定一個位置(染色體和位置)在基因組中亲轨。
3.計算每個基因的reads
一旦我們知道染色體和位置趋惨,我們可以看到它是否在一個基因的坐標(或其他一些有趣的特征)。
在你計算每個基因的讀數(shù)之后惦蚊,你會得到一個像這樣的數(shù)字矩陣
在分析之前我們做的最后一件事是標準化數(shù)據(jù)器虾。這是因為每個樣本都有不同的reads,這是由于一個樣本可能有更多低質(zhì)量的reads蹦锋,或者另一個樣本可能在流動池上的濃度稍高兆沙。舉個例子,樣本1有635reads莉掂,樣本2有1270reads葛圃。這并不意味著樣本2中的基因轉(zhuǎn)錄量是樣本1的兩倍。相反憎妙,這意味著樣品2有較少的低質(zhì)量reads库正,可能比樣品1在流動池上有更多的點。然而厘唾,從reads來看褥符,樣本2的基因轉(zhuǎn)錄量似乎是樣本1的兩倍。因此抚垃,我們需要調(diào)整每個基因的read属瓣,以反映分配給每個樣本的reads的差異。最簡單的方法就是用每個基因的reads除以每個樣本的總reads讯柔。然而抡蛙,還有許多更復雜的方法可以做到這一點。
3.數(shù)據(jù)分析
第一步:任何數(shù)據(jù)分析的第一步是相同的魂迄,繪制數(shù)據(jù)
我們需要一張有20,000個軸的圖表來繪制原始數(shù)據(jù)粗截,所以我們使用PCA(主成分分析)或者類似的方法來繪制這些數(shù)據(jù)。PCA減少了顯示數(shù)據(jù)重要方面所需的軸數(shù)捣炬。這是一個在神經(jīng)細胞上做的RNA-seq實驗的PCA圖熊昌。“wt”樣本是“正常的”湿酸⌒鲆伲“ko”樣本是研究人員突變的樣本⊥评#“ko”樣品在角落里形成了一個漂亮的小簇昂利。“wt”樣本都在左側(cè),但分布在y軸上蜂奸。這些圖的繪制方式犁苏,最重要的區(qū)別是在x軸上,在y軸的區(qū)別不重要扩所,這意味著“wt”和“ko”樣本之間的差異最大围详,然而,當我們做進一步分析時祖屏,我們可能希望排除“wt2”助赞。
總結(jié):
告訴我們是否可以期待發(fā)現(xiàn)有趣的差異。
告訴我們是否應該從下游分析中排除一些樣品袁勺。
第二步:鑒定“正臣倒眨”和“突變”樣本之間的差異表達基因
這通常使用edgeR或DESeq2來完成,結(jié)果通常使用這種圖表來顯示魁兼。
如果你知道你在尋找什么婉徘,你就可以看看實驗是否驗證了你的假設。
如果你不知道你在尋找什么咐汞,你可以看到某些通路富集在正掣呛簦或突變基因集。