一餐屎、為什么要做RNA-seq
先說下生物體內(nèi)RNA的大致組成:
編碼RNA:根據(jù)中心法則我們知道,DNA轉(zhuǎn)錄為mRNA,mRNA通過tRNA翻譯為蛋白質(zhì)胰耗,蛋白質(zhì)行使生命功能,例如呼吸祟剔,運動隔躲,消化等等。人類只有2萬左右個蛋白質(zhì)編碼基因物延,這些編碼基因只占人類全基因組的2%左右宣旱。mRNA占細(xì)胞RNA總量的2%~5%, tRNA占細(xì)胞RNA總量的15%左右叛薯。
非編碼RNA:有些DNA轉(zhuǎn)錄為RNA后响鹃,不繼續(xù)編碼蛋白質(zhì)驾霜,這種RNA叫非編碼RNA(ncRNA),包括microRNA,lncRNA,cirRNA买置,之前人們認(rèn)為這些RNA是“垃圾”粪糙,但是近年來的研究證明,這些RNA對編碼基因發(fā)揮著重要的調(diào)控作用忿项,是當(dāng)下研究的熱點蓉冈。
rRNA:核糖體RNA,占RNA總量的80%左右。
廣義上說占總RNA95%左右的rRNA和tRNA也屬于非編碼RNA轩触,但是一般研究中寞酿,使用的是它的狹義概念,即除去rRNA和tRNA之外的非編碼RNA脱柱。
正常情況下伐弹,非編碼RNA調(diào)控基因的轉(zhuǎn)錄翻譯,這些都是有序進行的榨为。
但是當(dāng)處于異常條件下惨好,或者由于自身衰老變異或者受到外部的刺激,比如細(xì)菌病毒的感染随闺,射線照射等日川,這之后往往導(dǎo)致非編碼RNA表達的變化,進而影響蛋白表達的變化矩乐,從而引起一系列的病理反應(yīng)龄句,最終導(dǎo)致疾病。
那么反過來散罕,如果我們想了解某一疾病具體的發(fā)病機理分歇,我們是不是可以提取某一疾病狀態(tài)下組織或者細(xì)胞的總RNA,去分析它們和正常組表達的異同欧漱,我們有理由相信卿樱,這些差異表達的RNA分子,很可能與發(fā)病機制有關(guān)硫椰,研究這些差異分子繁调,可以給我們對這一疾病的發(fā)病機制的研究提供重要線索,從而研發(fā)出更有效的診斷和治療方法靶草。
二蹄胰、RNA-seq的大致流程
通過上面的分析,接下來面臨的問題就是奕翔,我怎么分析某一疾病狀態(tài)下組織或者細(xì)胞所有RNA的表達情況裕寨,一個一個分析,肯定不現(xiàn)實,而且可能還有很多未被發(fā)現(xiàn)但是很重要的分子宾袜。怎么辦捻艳?只有一個辦法,轉(zhuǎn)錄組測序庆猫,即RNA-Seq, 某一條件下所有轉(zhuǎn)錄出來的RNA堿基序列认轨,我都給你測出來是什么。
那么這涉及6個步驟
1月培、提取組織或細(xì)胞總RNA后嘁字,除去占大部分的rRNA和tRNA,剩下編碼RNA 和非編碼RNA
2杉畜、對這些RNA進行測序纪蜒,理想情況下,是直接檢測此叠,但是不現(xiàn)實纯续,只有通過堿基互補配對的合成過程,才能知道原來樣品中模板的序列灭袁,但是這個合成的長度是有限制的猬错,所以只能先把這些RNA切割成小片段,再檢測這些小片段的序列简卧。具體原理見陳巍學(xué)基因視頻。這個過程得到兩種數(shù)據(jù)烤芦,一種是許許多多的堿基序列举娩,一個是這些序列的表達頻率。也就是一個是RNA是什么堿基序列构罗,一個是RNA表達了多少量
3铜涉、由于上一步把RNA切割了,好像是一塊拼圖打散了遂唧,所以芙代,這一步需要將這一個個的小塊再重新拼成一個完整的圖片。也就是比對盖彭,將檢測到的RNA堿基序列纹烹,比對到參考基因組上,看某段RNA位于參考基因組的哪段序列上召边。這一步就好像一個拼好的拼圖铺呵,上面有高高低低的小塊,有些分子表達量高隧熙,它對應(yīng)那個小塊就高片挂,反之就低。通過這一步,實驗組和對照組都得到一個高高低低的拼圖音念。
4沪饺、把實驗組和對照組的拼圖比較一下,看哪些RNA小塊表達量是不一樣的闷愤≌希或者你高我低,或者我高你低肝谭,從而得到這些差異表達基因名字的列表掘宪。因此這一步的結(jié)果都是一些基因名字或者轉(zhuǎn)錄本編號了。
5攘烛、將這些差異表達的分子魏滚,進行下游功能分析,比方看看它們都跟什么信號通路相關(guān)啊坟漱,可能跟什么功能有聯(lián)系啊等等鼠次。這一步得到的就是很多結(jié)果圖了。
6芋齿、下一步就是將篩選到的差異基因腥寇,結(jié)合你感興趣的生物學(xué)功能或者過程,挑選出幾個觅捆,進行再進一步的機制研究赦役。這步就是濕實驗了,也是決定文章層次的核心栅炒,這是需要人力和財力掂摔,再加上運氣的事情,不過就算不做這一步赢赊,前5步也能發(fā)篇小文章灌灌水了乙漓。由于這一步涉及基礎(chǔ)醫(yī)學(xué)的機制研究方法,不在這篇文章的討論范圍內(nèi)释移。
三叭披、為什么需要學(xué)習(xí)生信知識
樣品送測序儀器后,也就是上述第2步后得到會產(chǎn)生大量的數(shù)據(jù)玩讳,可能是多少個G的級別涩蜘,有幾萬,甚至幾十萬的堿基序列熏纯,首先你要比對到參考基因組吧皱坛,然后你要看看實驗組和對照組哪些基因表達有差異吧,其實這不是很復(fù)雜的事情豆巨,就是數(shù)據(jù)量太大了剩辟,如果就幾十個,你完全可以用EXCEL查找,再標(biāo)記贩猎,但是幾十萬個基因熊户,誰能做到啊。所以現(xiàn)在需要一種工具吭服,可以對數(shù)據(jù)進行批量編輯和操作嚷堡。
感謝計算機發(fā)達的技術(shù),前人早就幫我們想出來艇棕。Linux操作系統(tǒng)就可以實現(xiàn)對大量數(shù)據(jù)的批量編輯
蝌戒,R語言可以實現(xiàn)大量數(shù)據(jù)的統(tǒng)計和做圖。
好了沼琉,我們的下一步就是學(xué)習(xí)Linux操作系統(tǒng)和R語言了北苟。
但是這兩個部分包含了很多很多的知識,我們完全零基礎(chǔ)打瘪,要是從頭開始學(xué)友鼻,效率有點低,畢竟不是專業(yè)計算機出身闺骚,不需要一下子把所有東西都學(xué)會彩扔,先把目前需要掌握的學(xué)到,將來再舉一反三僻爽,慢慢學(xué)其它的虫碉。
所以現(xiàn)在就開始模擬實戰(zhàn),從一個測序數(shù)據(jù)的樣本開始胸梆,看看是怎么一步步得到文章中的結(jié)果的敦捧。
未完待續(xù)...
這兩天寶寶得了幼兒急疹,耽誤了幾天乳绕,現(xiàn)在真的是上有老绞惦,下有小了逼纸,生活的壓力會逼得你迅速成長起來洋措。到這個時候才能深刻體會到時間是非常寶貴的,盡量少干不必要的事情杰刽,抓緊提升吧~