RNA-seq基礎(chǔ)知識

單端測序和雙端測序

單端測序只有一種測序引物 ,使得PCR只能沿著這個引物的方向進行奕扣,所有的 reads 都只能按照一個方向進行讀取显押。但是測序的質(zhì)量會隨著測序的進行而下降,所以 reads 越往后面越不準(zhǔn)確待诅。一個解決辦法就是雙端測序,對一個長為 500 bp 的序列熊镣,單端測序下游質(zhì)量會很差卑雁,但是從兩個方向上分別測 250 bp-300 bp 然后再拼接起來,就可以大大提高測序的準(zhǔn)確率了绪囱。雙端測序的測序的接頭序列要復(fù)雜一些测蹲,首先為了兩個方向上分別進行測序,就需要有兩個不同方向的測序引物(下圖 Rd1 SP 和 Rd2 SP)鬼吵;其次扣甲,為了區(qū)分兩個方向的 reads,其中一個測序引物前面要添加一小段 index 序列進行標(biāo)記齿椅。

雙端測序中每一個單獨的 Read 其長度都超過整個待測序列的一半琉挖,所以可以根據(jù)兩個 Reads 重合的部分進行拼接


為何要有Paired-end這樣的技術(shù)發(fā)明呢?

①假設(shè)一個DNA片段剛好跨越了重復(fù)序列區(qū)域(下圖左側(cè))以及獨特序列區(qū)域(下圖右側(cè))涣脚。假如只讀取Single-Read示辈,我們只會獲得紅色實線的序列信息,也就是ATATATAT遣蚀。接下來顽耳,當(dāng)我們想要將這段read跟reference genome做比對的時候,便會出現(xiàn)問題:到底這段read是出自于紅色實線的位置妙同,還是紅色虛線的位置?這個問題我們就可以使用Paired-end的技術(shù)來加以解決膝迎。由于Paired-end reads之間的距離為已知(在此我們設(shè)為34bp)粥帚,我們便可以先定位綠色read的位置,在正確定位出左邊紅色reads之間AT的位置限次,而不至于將其誤判在紅色虛線的位置芒涡。如下圖所示:

②因為單端測得太長錯誤率會提高,像一代測序也是卖漫,能夠測幾百bp的長度费尽,但是越往后測序出來的條帶雜峰會多,而且不清晰羊始,二代測序也是一樣的道理旱幼,單端測600bp會很不準(zhǔn)確,雙端300bp測序會準(zhǔn)很多突委。


junction

可能序列比較長有四五百bp柏卤,兩邊各測120-150bp冬三,junction就是雙端測序中間沒有測到的區(qū)域。


基因豐富和基因表達的豐度

基因豐度是指基因組中該基因的拷貝數(shù)量缘缚」窗剩基因豐度高,即這個基因的數(shù)量多桥滨,那么可能這個基因的表達量也會多窝爪,但是不一定,主要還是要看該基因的啟動子強弱齐媒。所以基因豐度高不代表表達豐度也高蒲每。

基因表達豐度高是指該基因轉(zhuǎn)錄成mRNA多,那么表達的蛋白也多里初,對于表型的影響就大啃勉。


轉(zhuǎn)錄本

轉(zhuǎn)錄本是由一條基因通過轉(zhuǎn)錄形成的一種或多種可供編碼蛋白質(zhì)的成熟的mRNA,一條基因通過內(nèi)含子的不同剪接可構(gòu)成不同的轉(zhuǎn)錄本双妨。轉(zhuǎn)錄組是由許多轉(zhuǎn)錄本拼接而成淮阐。


RNA與DNA測序之間的差異

測序深度和測序覆蓋度

對長100bp的目標(biāo)區(qū)域進行測序:采用單端測序,每個read長5bp刁品;總共得到了200個reads泣特;把所有的reads比對到目標(biāo)區(qū)域后,100bp的目標(biāo)區(qū)域中有98bp的位置至少有1個read覆蓋到挑随,換言之状您,剩余的2bp沒有1個read覆蓋。

深度:200 x 5 / 100 = 10? ? ? ? ? ? ? ? ? 我們說這此測序的深度為10X兜挨。

覆蓋度:98 / 100 × 100% = 98%? ? ? 我們說這次測序的覆蓋度為98%

測序深度越高膏孟,基因覆蓋度越高。一般人的測序深度到10x拌汇,基因覆蓋度就100%了柒桑,測序深度就飽和了,測序深度再升高沒有什么效果了噪舀。

插入片段大小

通過檢測雙端測序的起止位置魁淳,可以得到插入片段的長度,決定了測序的長度与倡。


引物和接頭

提取基因組DNA后界逛,用超聲波打斷或酶切打斷,然后跑膠得到300-500bp的小片段纺座,因為打斷是隨機打斷的息拜,可能有粘性末端,所以用酶來形成平末端,再在平末端后面加上A堿基得到粘性末端该溯,在加上adapter岛抄,加到flowcell上,進行幾輪的PCR擴增狈茉,就得到了測序文庫夫椭。接頭包括了三部分,依次是與flowcell上結(jié)合的寡聚體氯庆,區(qū)分樣品的index蹭秋,測序需要的引物premer。

在測序時堤撵,首先是測序引物和序列結(jié)合仁讨,然后進行邊合成邊測序(連上一個堿基,測一次实昨,然后進行化學(xué)反應(yīng)洞豁,再連堿基,再測序荒给,這樣循環(huán)下去)丈挟,測夠長度后,將合成的序列去掉志电,然后加上另外一個premer來測index曙咽,這樣每個reads都有一個index(用來識別樣品來源),然后在進行一次橋式PCR擴增挑辆,去掉已經(jīng)測過序的那條鏈例朱,再進行一次測序。

有一點需要注意的是鱼蝉,當(dāng)插入的序列(也就是超聲波打斷的小片段)如果比較短的話洒嗤,或者文庫插入的片段比測序讀長還要短就可能測到premer和index,所以得到數(shù)據(jù)后魁亦,要進行去接頭烁竭。

Index:每個樣品由一個index修飾,得到的reads中也包含了index吉挣,根據(jù)index可以得知雙端測序是否來自于同一個樣品。

鏈特異性建庫

正鏈/負鏈: 對于一個基因來說婉弹,DNA的兩條鏈中有一條鏈作為RNA合成時的模板睬魂,這條鏈叫負鏈(模板鏈/反義鏈),另一條叫正鏈(非模板鏈/正義鏈)镀赌。

反義鏈/正義鏈:在雙鏈DNA中氯哮,用來轉(zhuǎn)錄mRNA的DNA鏈稱為模板鏈,不用于轉(zhuǎn)錄的鏈則稱為非模板鏈商佛。根據(jù)堿基互補配對原則喉钢,轉(zhuǎn)錄出的mRNA鏈的堿基序列與非模板鏈的堿基序列一致姆打,惟一不同的是,非模板鏈中的T在mRNA鏈中全部置換成了U肠虽,因此非模板鏈又被稱為編碼鏈或正義鏈幔戏。

鏈特異性: 鏈特異性建庫,可以確定轉(zhuǎn)錄本來自正鏈還是負鏈税课。以便更加準(zhǔn)確的獲得基因的結(jié)構(gòu)以及基因表達信息闲延。并且可以更好的發(fā)現(xiàn)新的基因。(研究表明:很多基因組區(qū)域具有正負鏈的轉(zhuǎn)錄本韩玩,反義轉(zhuǎn)錄是真核基因的一個特征垒玲,是一種重要的調(diào)控方式。對于原核以及低等真核生物的基因組找颓,常常具有重疊基因合愈。


為何illumina會限制合成的鏈的長度呢,不能像Sanger法一樣击狮,最長測1k佛析?

原因就出在二代測序多出來的PCR過程:每一個位點都要測許多次,比如一段時間后的PCR得到的每個cluster都各包含200條完全相同的序列帘不,那就需要對這200條序列的同一個位點進行測序说莫。

第一輪我們來測第一個位點(假設(shè)位點1是A)正常來講,200條序列都應(yīng)該加A堿基寞焙,但是不巧只有199個在位點1都加了堿基A储狭,有一條序列沒有加上,所以就出現(xiàn)了199個紅色1個灰色【當(dāng)然目前還構(gòu)不成影響】捣郊;

第二輪(假設(shè)位點2是G)大家應(yīng)該都加G測得綠色辽狈,但是之前的那個沒有加上A的,他要對之前的失誤進行補償呛牲,因此別的序列加G的時候刮萌,它加上了本該上次就加的A,它得到了紅色娘扩,這個紅色在一大群的綠色中就是作為雜信號存在的着茸。依次向下,測序長度越長琐旁,雜信號越多涮阔,最后可能標(biāo)準(zhǔn)信號和雜信號各一半,這樣系統(tǒng)無法判斷灰殴,只能給N敬特,而N多了對于后續(xù)的分析處理很麻煩,去了吧丟失數(shù)據(jù),不去吧又是冗余伟阔。


基因注釋

①RefSeq Gene注釋; 來自于NCBI辣之,對gene的不同轉(zhuǎn)錄本進行注釋,1個轉(zhuǎn)錄本對應(yīng)1個編號成為RefSeq id皱炉,例如對于可以翻譯成蛋白的轉(zhuǎn)錄本怀估,都會以NM_開頭如NM_015658;對于不能翻譯的轉(zhuǎn)錄本娃承,都會以NR_開頭如NR_027055奏夫;不同注釋的情況如下圖(ps:注釋的數(shù)據(jù)庫來源不一樣,編號不一樣)

②Ensembl注釋历筝;對gene的不同轉(zhuǎn)錄本進行注釋酗昼,以ENSG開頭的表示Ensembl gene_id如ENSG00000227232,以ENST開頭的表示Ensembl transcript id如ENST00000438504梳猪。

③UCSC gene注釋麻削;對gene的不同轉(zhuǎn)錄本進行注釋,一般是類似uc004cpf這樣的名稱春弥。


反向互補序列的意義

生物的DNA序列有兩條鏈呛哟,雖然在查看基因組序列的時候網(wǎng)站一般先提供正向鏈,但是不同基因在基因組序列中的轉(zhuǎn)錄起始方向是不同的匿沛,有的基因是正著待著的扫责,有的就是反著待著的。當(dāng)你需要查看轉(zhuǎn)錄方向與正向鏈相反的基因序列時逃呼,你要找到該基因的啟動子(ATG)就需要查看正向鏈的反向互補序列鳖孤。

還有從基因組上擴增序列時需要針對兩條鏈同時設(shè)計引物,此時也需要正向序列及反向互補序列

還有很多很多的基因調(diào)控都是針對兩條鏈同時發(fā)揮作用的抡笼,反向互補序列就是根據(jù)一條鏈的信息推算出另一條鏈的信息苏揣。


基因座

一個基因座可以是一個基因,一個基因的一部分推姻,或具有某種調(diào)控作用的DNA序列平匈。基因座是染色體上的固定部位藏古,在相同基因座上編碼相同的DNA被稱為等位基因增炭。同一基因座上有相同的等位基因就是純合子,相同基因座上是不同的等位基因就是雜合子拧晕。


gene isoforms

亞型/異構(gòu)體隙姿,可以理解為一個基因的不同形態(tài),就是由同一個基因座產(chǎn)生的mRNA防症,在轉(zhuǎn)錄起始位點(TSS),編碼蛋白序列,非翻譯區(qū)這些地方有差別蔫敲,間接地改變了基因的功能饲嗽。

圖中1、2奈嘿、3是mRNA的三個外顯子貌虾,由于連接方式不同,產(chǎn)生了三種isoforms裙犹。

gene isoforms

可變剪切

大多數(shù)真核基因轉(zhuǎn)錄產(chǎn)生的mRNA 前體一般按一種方式剪接產(chǎn)生出一種mRNA尽狠,結(jié)果只產(chǎn)生一種蛋白質(zhì)。但有些基因產(chǎn)生的mRNA 前體可按不同的方式剪接叶圃,產(chǎn)生多于兩種的mRNA袄膏。

編碼蛋白的成熟mRNA是mRNA前體經(jīng)過剪切過的,外顯子可以不按其線性次序剪接掺冠,內(nèi)含子也可以不被切除而保留沉馆。因此成熟的mRNA中每一個外顯子、內(nèi)含子的存在與否都是不一定的德崭。

有5種類型:外顯子跳躍斥黑、內(nèi)含子保留、3眉厨、5‘端可變剪切锌奴、3‘端可變剪切、特定外顯子可變剪切(比如第一個或者最后一個外顯子)憾股。

正常翻譯
外顯子跳躍
3'可變剪切
5'可變剪切

分析的阻礙

(1)測量標(biāo)準(zhǔn):為了比較誰多誰少鹿蜀,一般都是采用相對定量的分析方法。但是同樣的絕對數(shù)量對于不同的基數(shù)來講荔燎,得到的相對值也是不同的耻姥。比如,第一次測A有咨、B基因表達量是10琐簇,那么這一次中A基因的豐度就是10/(10+10)=50%;第二次測A座享、B婉商、C表達量都是10,那么這一次渣叛,A的豐度就成了33.3%丈秩,但是能說第二次比第一次A基因的表達量豐度下降了嗎?因此淳衙,只看表面的數(shù)字可能不能反映實際問題蘑秽。

(2)測量方法:目前轉(zhuǎn)錄組測序采用的二代測序饺著,還是測一段DNA的一小部分。由于可變剪切一般將內(nèi)含子去除肠牲,而拼接不同的外顯子幼衰,但畢竟它們“師出同門”,因此得到的轉(zhuǎn)錄本也是相似的缀雳,就像圖中1渡嚣、2組成的轉(zhuǎn)錄本a和1、3組成的轉(zhuǎn)錄本b都含有3肥印,因此要將一小段比對到原始轉(zhuǎn)錄本就比較難(比如识椰,一條reads符合3的一小部分,那么這條reads是屬于轉(zhuǎn)錄本a還是轉(zhuǎn)錄本b呢深碱?)

(3)測量對象:mRNA不像DNA一樣穩(wěn)定腹鹉,它很容易降解,因此它的豐度是時刻改變的莹痢。因此測轉(zhuǎn)錄組之前需要這個時間節(jié)點確保觀察到了變化种蘸,并且這個變化與實驗條件有關(guān)系。一般為了證明這一點竞膳,需要測定一個狀態(tài)下的樣本好幾次航瞭,也就是所做的重復(fù)。差異基因的確定也必須通過重復(fù)來驗證坦辟,也就是一個條件下幾個重復(fù)得到的值如果都與標(biāo)準(zhǔn)條件下幾個重復(fù)的值有差別刊侯,這才認為這個差異基因有效。推薦最少設(shè)置三個重復(fù)锉走,五個更好滨彻。


剪切感知比對

有許多測序reads是來自兩個外顯子的連接處(也就是剪切位點),如果要比對會參考基因組挪蹭,reads的中間肯定會被加入一段空白(也就是原來的內(nèi)含子)亭饵。相當(dāng)于原來reads是腳踏兩條船,現(xiàn)在兩條船要回家梁厉,reads的腿就開始劈叉了辜羊。因此,對比軟件必須要考慮到這一點词顾,容許reads比對回去后八秃,中間含有大大的空隙。


批次效應(yīng)

在不同芯片肉盹、不同測序儀昔驱、不同測序通道或在不同時間點收集的mRNA進行測序,即便是相同的mRNA也會導(dǎo)致測序得到的基因表達量有較大的不同上忍,這就是批次效應(yīng)骤肛。


Short-read短讀長:測序得到的長度最大是500 bp的reads纳本,常見的測序片段長度為100-300 bp。

Long-read長讀長:測序得到的超過1000 bp的reads腋颠,代表全長或近乎全長的mRNA饮醇。

Direct RNA sequencing(dRNA-seq): 直接測序RNA而非cDNA的測序技術(shù),通常用于測序全長或近全長的mRNA 秕豫。

Multi-mapped reads多重比對的reads:從轉(zhuǎn)錄組同源區(qū)域測序得到的reads,不能精確確認其轉(zhuǎn)錄本或基因組的來源观蓄。

Synthetic long reads合成long reads:通過組裝多個短讀長得到長讀長的方法混移。

唯一分子標(biāo)識符(UMIs):在擴增前,構(gòu)建RNA-seq文庫的時候加入的短序列或barcodes侮穿,理想情況下每條轉(zhuǎn)錄本結(jié)合一個唯一的標(biāo)識符歌径,含有此標(biāo)識符的reads都來源于此轉(zhuǎn)錄本,定量時只計算一次亲茅』仡酰可以用來降低RNA-seq的定量偏好性,在RNA起始量低的單細胞實驗中尤為適用克锣。

Read length讀長:單個測序reads的長度茵肃,short-read RNA測序得到的長度通常是50-150 bp。

Sensitivity敏感性:樣本中多大比例的轉(zhuǎn)錄本會被測到袭祟,敏感性越高验残,這一比例越高。它受樣本處理巾乳、文庫制備、測序和計算偏好性的影響。

Specificity特異性:度量差異表達轉(zhuǎn)錄本被正確鑒定出的比例的方法佳头,它受樣本處理颜屠,文庫制備,測序和計算偏好性的影響压状。

Duplication rates重復(fù)Reads比率:比對到轉(zhuǎn)錄組相同位置的的測序reads的比例仆抵。在RNA-seq文庫中,一些轉(zhuǎn)錄本可能有高的重復(fù)率何缓,因為它們在樣本中表達水平高肢础。高表達的基因的重復(fù)率很高,而低表達基因的或許有著最小的重復(fù)率碌廓。由此RNA-seq面臨著一個挑戰(zhàn)传轰,該技術(shù)中大部分重復(fù)可能是高表達轉(zhuǎn)錄本帶來的真實信號,而另一些則是由于擴增和測序偏好性造成的谷婆。

生物學(xué)重復(fù):對生物來源不同的樣本的多次檢測慨蛙,比如來自三個個體的組織辽聊,用于捕獲生物個體自身的變化;這個變化要么是待研究的對象期贫,要么是噪音跟匆。相較之下,技術(shù)重復(fù)是對同樣的樣本做重復(fù)的操作—比如通砍,對一個組織做三次處理玛臂。

Spike-in control內(nèi)參:按特定濃度添加到樣品中的外源核酸庫。它們通常是預(yù)先合成的不同濃度的RNA封孙,用于監(jiān)測反應(yīng)效率和技術(shù)方法的偏差和假陰性結(jié)果迹冤。

Translatome翻譯組:細胞、組織或生物體中正在翻譯成蛋白質(zhì)的mRNA集合虎忌。

Structurome結(jié)構(gòu)組:細胞泡徙、組織或生物體中RNA的二級和三級結(jié)構(gòu)集合。

Interactome互作組:細胞膜蠢、組織和生物體中分子相互作用的集合堪藐,包括有RNA-RNA或者RNA-蛋白質(zhì)的相互作用。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末挑围,一起剝皮案震驚了整個濱河市礁竞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌杉辙,老刑警劉巖苏章,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異奏瞬,居然都是意外死亡枫绅,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門硼端,熙熙樓的掌柜王于貴愁眉苦臉地迎上來并淋,“玉大人,你說我怎么就攤上這事珍昨∠氐ⅲ” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵镣典,是天一觀的道長兔毙。 經(jīng)常有香客問我,道長兄春,這世上最難降的妖魔是什么澎剥? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮赶舆,結(jié)果婚禮上哑姚,老公的妹妹穿的比我還像新娘祭饭。我一直安慰自己,他們只是感情好叙量,可當(dāng)我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布倡蝙。 她就那樣靜靜地躺著,像睡著了一般绞佩。 火紅的嫁衣襯著肌膚如雪寺鸥。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天品山,我揣著相機與錄音析既,去河邊找鬼。 笑死谆奥,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的拂玻。 我是一名探鬼主播酸些,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼檐蚜!你這毒婦竟也來了魄懂?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤闯第,失蹤者是張志新(化名)和其女友劉穎市栗,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體咳短,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡填帽,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了咙好。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片篡腌。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖勾效,靈堂內(nèi)的尸體忽然破棺而出嘹悼,到底是詐尸還是另有隱情,我是刑警寧澤层宫,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布杨伙,位于F島的核電站,受9級特大地震影響萌腿,放射性物質(zhì)發(fā)生泄漏限匣。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一毁菱、第九天 我趴在偏房一處隱蔽的房頂上張望膛腐。 院中可真熱鬧睛约,春花似錦、人聲如沸哲身。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽勘天。三九已至怔揩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間脯丝,已是汗流浹背商膊。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留宠进,地道東北人晕拆。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像材蹬,于是被迫代替她去往敵國和親实幕。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,877評論 2 345