RNA-seq 分析之我見（一）

一餐屎、為什么要做RNA-seq

先說下生物體內(nèi)RNA的大致組成：

編碼RNA:根據(jù)中心法則我們知道，DNA轉(zhuǎn)錄為mRNA，mRNA通過tRNA翻譯為蛋白質(zhì)胰耗，蛋白質(zhì)行使生命功能,例如呼吸祟剔，運動隔躲，消化等等。人類只有2萬左右個蛋白質(zhì)編碼基因物延，這些編碼基因只占人類全基因組的2%左右宣旱。mRNA占細(xì)胞RNA總量的2%～5%， tRNA占細(xì)胞RNA總量的15%左右叛薯。

非編碼RNA:有些DNA轉(zhuǎn)錄為RNA后响鹃，不繼續(xù)編碼蛋白質(zhì)驾霜，這種RNA叫非編碼RNA（ncRNA），包括microRNA,lncRNA,cirRNA买置，之前人們認(rèn)為這些RNA是“垃圾”粪糙，但是近年來的研究證明，這些RNA對編碼基因發(fā)揮著重要的調(diào)控作用忿项，是當(dāng)下研究的熱點蓉冈。

rRNA：核糖體RNA,占RNA總量的80%左右。

廣義上說占總RNA95%左右的rRNA和tRNA也屬于非編碼RNA轩触，但是一般研究中寞酿，使用的是它的狹義概念，即除去rRNA和tRNA之外的非編碼RNA脱柱。

view.jpg

正常情況下伐弹，非編碼RNA調(diào)控基因的轉(zhuǎn)錄翻譯，這些都是有序進行的榨为。

但是當(dāng)處于異常條件下惨好，或者由于自身衰老變異或者受到外部的刺激，比如細(xì)菌病毒的感染随闺，射線照射等日川，這之后往往導(dǎo)致非編碼RNA表達的變化，進而影響蛋白表達的變化矩乐，從而引起一系列的病理反應(yīng)龄句，最終導(dǎo)致疾病。

那么反過來散罕，如果我們想了解某一疾病具體的發(fā)病機理分歇，我們是不是可以提取某一疾病狀態(tài)下組織或者細(xì)胞的總RNA，去分析它們和正常組表達的異同欧漱，我們有理由相信卿樱，這些差異表達的RNA分子，很可能與發(fā)病機制有關(guān)硫椰，研究這些差異分子繁调，可以給我們對這一疾病的發(fā)病機制的研究提供重要線索，從而研發(fā)出更有效的診斷和治療方法靶草。

二蹄胰、RNA-seq的大致流程

通過上面的分析，接下來面臨的問題就是奕翔，我怎么分析某一疾病狀態(tài)下組織或者細(xì)胞所有RNA的表達情況裕寨，一個一個分析，肯定不現(xiàn)實，而且可能還有很多未被發(fā)現(xiàn)但是很重要的分子宾袜。怎么辦捻艳？只有一個辦法，轉(zhuǎn)錄組測序庆猫，即RNA-Seq, 某一條件下所有轉(zhuǎn)錄出來的RNA堿基序列认轨，我都給你測出來是什么。

那么這涉及6個步驟

1月培、提取組織或細(xì)胞總RNA后嘁字，除去占大部分的rRNA和tRNA，剩下編碼RNA 和非編碼RNA

2杉畜、對這些RNA進行測序纪蜒，理想情況下，是直接檢測此叠，但是不現(xiàn)實纯续，只有通過堿基互補配對的合成過程，才能知道原來樣品中模板的序列灭袁，但是這個合成的長度是有限制的猬错，所以只能先把這些RNA切割成小片段，再檢測這些小片段的序列简卧。具體原理見陳巍學(xué)基因視頻。這個過程得到兩種數(shù)據(jù)烤芦，一種是許許多多的堿基序列举娩，一個是這些序列的表達頻率。也就是一個是RNA是什么堿基序列构罗，一個是RNA表達了多少量

3铜涉、由于上一步把RNA切割了，好像是一塊拼圖打散了遂唧，所以芙代，這一步需要將這一個個的小塊再重新拼成一個完整的圖片。也就是比對盖彭，將檢測到的RNA堿基序列纹烹，比對到參考基因組上，看某段RNA位于參考基因組的哪段序列上召边。這一步就好像一個拼好的拼圖铺呵，上面有高高低低的小塊，有些分子表達量高隧熙，它對應(yīng)那個小塊就高片挂，反之就低。通過這一步，實驗組和對照組都得到一個高高低低的拼圖音念。

4沪饺、把實驗組和對照組的拼圖比較一下，看哪些RNA小塊表達量是不一樣的闷愤≌希或者你高我低，或者我高你低肝谭，從而得到這些差異表達基因名字的列表掘宪。因此這一步的結(jié)果都是一些基因名字或者轉(zhuǎn)錄本編號了。

5攘烛、將這些差異表達的分子魏滚，進行下游功能分析，比方看看它們都跟什么信號通路相關(guān)啊坟漱，可能跟什么功能有聯(lián)系啊等等鼠次。這一步得到的就是很多結(jié)果圖了。

6芋齿、下一步就是將篩選到的差異基因腥寇，結(jié)合你感興趣的生物學(xué)功能或者過程，挑選出幾個觅捆，進行再進一步的機制研究赦役。這步就是濕實驗了，也是決定文章層次的核心栅炒，這是需要人力和財力掂摔，再加上運氣的事情，不過就算不做這一步赢赊，前5步也能發(fā)篇小文章灌灌水了乙漓。由于這一步涉及基礎(chǔ)醫(yī)學(xué)的機制研究方法，不在這篇文章的討論范圍內(nèi)释移。

timg.jpg

三叭披、為什么需要學(xué)習(xí)生信知識

樣品送測序儀器后，也就是上述第2步后得到會產(chǎn)生大量的數(shù)據(jù)玩讳，可能是多少個G的級別涩蜘，有幾萬，甚至幾十萬的堿基序列熏纯，首先你要比對到參考基因組吧皱坛，然后你要看看實驗組和對照組哪些基因表達有差異吧，其實這不是很復(fù)雜的事情豆巨，就是數(shù)據(jù)量太大了剩辟，如果就幾十個，你完全可以用EXCEL查找，再標(biāo)記贩猎，但是幾十萬個基因熊户，誰能做到啊。所以現(xiàn)在需要一種工具吭服，可以對數(shù)據(jù)進行批量編輯和操作嚷堡。

感謝計算機發(fā)達的技術(shù)，前人早就幫我們想出來艇棕。Linux操作系統(tǒng)就可以實現(xiàn)對大量數(shù)據(jù)的批量編輯

蝌戒，R語言可以實現(xiàn)大量數(shù)據(jù)的統(tǒng)計和做圖。

好了沼琉，我們的下一步就是學(xué)習(xí)Linux操作系統(tǒng)和R語言了北苟。

但是這兩個部分包含了很多很多的知識，我們完全零基礎(chǔ)打瘪，要是從頭開始學(xué)友鼻，效率有點低，畢竟不是專業(yè)計算機出身闺骚，不需要一下子把所有東西都學(xué)會彩扔，先把目前需要掌握的學(xué)到，將來再舉一反三僻爽，慢慢學(xué)其它的虫碉。

所以現(xiàn)在就開始模擬實戰(zhàn)，從一個測序數(shù)據(jù)的樣本開始胸梆，看看是怎么一步步得到文章中的結(jié)果的敦捧。

未完待續(xù)...

這兩天寶寶得了幼兒急疹，耽誤了幾天乳绕，現(xiàn)在真的是上有老绞惦，下有小了逼纸，生活的壓力會逼得你迅速成長起來洋措。到這個時候才能深刻體會到時間是非常寶貴的，盡量少干不必要的事情杰刽，抓緊提升吧~