一、基本概念
RNA-seq即轉(zhuǎn)錄組測(cè)序技術(shù)闯团,就是用高通量測(cè)序技術(shù)進(jìn)行測(cè)序分析朴恳,反映出mRNA,smallRNA,noncodingRNA等或者其中一些的表達(dá)水平。RNA測(cè)序最經(jīng)常用于分析差異表達(dá)基因(DEG)拌夏。
轉(zhuǎn)錄組是某個(gè)物種或者特定細(xì)胞類型產(chǎn)生的所有轉(zhuǎn)錄本的集合衅斩。轉(zhuǎn)錄組研究能夠從整體水平研究基因功能以及基因結(jié)構(gòu),揭示特定生物學(xué)過(guò)程以及疾病發(fā)生過(guò)程中的分子機(jī)理锥惋,已廣泛應(yīng)用于基礎(chǔ)研究、臨床診斷和藥物研發(fā)等領(lǐng)域开伏。
二膀跌、基本名詞解釋
gene:具有編碼蛋白質(zhì)或決定某一性狀作用的一段核酸序列。
Q20,Q30:Phred 數(shù)值大于 20固灵、30 的堿基占總體堿基的百分比捅伤,其中
Phred=-10log10(e).
intron:內(nèi)含子,是真核生物細(xì)胞 DNA 中的間插序列巫玻。這些序列被
轉(zhuǎn)錄在前體 RNA 中丛忆,經(jīng)過(guò)剪接被去除,最終不存在于成熟 RNA 分
子中仍秤。術(shù)語(yǔ)內(nèi)含子也指編碼相應(yīng) RNA 內(nèi)含子的 DNA 中的區(qū)域熄诡。
exon:外顯子,是真核生物基因的一部分诗力,它在剪接(Splicing)后仍會(huì)被保存下來(lái)凰浮,并可在蛋白質(zhì)生物合成過(guò)程中被表達(dá)為蛋白質(zhì)。外顯子是最后出現(xiàn)在成熟 RNA 中的基因序列,又稱表達(dá)序列袜茧。既存在于最初的轉(zhuǎn)錄產(chǎn)物中菜拓,也存在于成熟的 RNA 分子中的核苷酸序列。術(shù)語(yǔ)外顯子也指編碼相應(yīng) RNA 外顯子的 DNA 中的區(qū)域笛厦。
intergenic:基因間區(qū)纳鼎,指基因與基因之間的間隔序列,不屬于基因結(jié)構(gòu)递递,不直接決定氨基酸喷橙,可能通過(guò)轉(zhuǎn)錄后調(diào)控影響性狀的區(qū)域。
UTR:Untranslated Regions, 非翻譯區(qū)域登舞。是信使 RNA(mRNA)分子兩端的非編碼片段贰逾。5'-UTR 從 mRNA 起點(diǎn)的甲基化鳥(niǎo)嘌呤核苷酸帽延伸至 AUG 起始密碼子,3'-UTR 從編碼區(qū)末端的終止密碼子延伸至多聚 A 尾巴(Poly-A)的前端菠秒。
transcript:轉(zhuǎn)錄本疙剑,是由一條基因通過(guò)轉(zhuǎn)錄形成的一種或多種可供編碼蛋白質(zhì)的成熟的 mRNA昂儒。一條基因通過(guò)內(nèi)含子的不同剪接可構(gòu)成不同的轉(zhuǎn)錄本竟趾。
isoform:同一個(gè)基因經(jīng)可變剪切或內(nèi)含子選擇機(jī)制產(chǎn)生不同的轉(zhuǎn)錄本,這些不同轉(zhuǎn)錄本即稱 isoform导而。 reconstruction:重組禁灼,由于不同 DNA 鏈的斷裂和連接而產(chǎn)生 DNA片段的交換和重新組合管挟,從而形成新 DNA 分子。plus strand/minus strand:正鏈/負(fù)鏈弄捕。對(duì)于一個(gè)基因來(lái)說(shuō)僻孝,DNA 的兩條鏈中有一條鏈作為 RNA 合成時(shí)的模板,這條鏈叫負(fù)鏈守谓,另一條叫正鏈穿铆。
antisense strand/sense strand:無(wú)義鏈/有義鏈。模板鏈在雙鏈 DNA中斋荞,用來(lái)轉(zhuǎn)錄 mRNA 的 DNA 鏈稱為模板鏈(template strand)荞雏,不用于轉(zhuǎn)錄的鏈則稱為非模板鏈(nontemplate strand)。根據(jù)堿基互補(bǔ)配對(duì)原則平酿,轉(zhuǎn)錄出的 mRNA 鏈的堿基序列與非模板鏈的堿基序列一致凤优,惟一不同的是,非模板鏈中的 T 在 mRNA 鏈中全部置換成了 U蜈彼。正是由于非模板鏈的堿基序列實(shí)際上代表了 mRNA 的堿基序列(只不過(guò)在 mRNA 中 T 換成了 U)筑辨,因此非模板鏈又被稱為編碼鏈(coding strand),有義鏈(sense strand)和克里克鏈(crick strand),而用來(lái)轉(zhuǎn)錄mRNA 的 DNA 鏈被稱為非編碼鏈(anticoding strand)或無(wú)義(antisense strand)或沃森鏈(watson strand)柳刮。
gene family:基因家族挖垛。真核細(xì)胞中,許多相關(guān)的基因常按功能成套組合秉颗,被稱為基因家族痢毒。它們來(lái)源于同一祖先,由一個(gè)基因通過(guò)基因重復(fù)產(chǎn)生兩個(gè)或更多的拷貝而構(gòu)成的一組基因蚕甥,它們?cè)诮Y(jié)構(gòu)和功能上具有明顯的相似性哪替,編碼相似的蛋白質(zhì)產(chǎn)物。
gtf/gff:基因結(jié)構(gòu)注釋文件菇怀。gtf(gene transfer format)指包含基因特
征的注釋文件凭舶,而 gff(general feature format)是指包含基因組特征
的注釋文件。
ORF:open reading frame爱沟,開(kāi)放閱讀框或開(kāi)放讀碼框帅霜。是結(jié)構(gòu)基因的正常核苷酸序列,從起始密碼子到終止密碼子的閱讀框可編碼完整的
多肽鏈呼伸,其間不存在使翻譯中斷的終止密碼子身冀。
reference genome/ reference:參考基因組。RNA-seq 有參分析的基礎(chǔ)括享。
small RNA:是長(zhǎng)度大約在 18-30bp 的非編碼 RNA 分子搂根,包括 micro RNAs、siRNAs 和 pi RNAs铃辖,是生命活動(dòng)重要的調(diào)控因子剩愧,在基因表達(dá)調(diào)控、生物個(gè)體發(fā)育娇斩、代謝及疾病的發(fā)生等生理過(guò)程中起著重要作
用仁卷。
ncRNA:non-coding RNA,非編碼 RNA成洗。指不編碼蛋白質(zhì)的 RNA五督。其中包括 rRNA,tRNA瓶殃,snRNA充包,snoRNA 和 microRNA 等多種已知功能的 RNA,及未知功能的 RNA遥椿。其共同特點(diǎn)是都能從基因組上轉(zhuǎn)錄而來(lái)基矮,不需要翻譯成蛋白即可在 RNA 水平上行使各自的生物學(xué)功能。
lncRNA:long noncoding RNA冠场,長(zhǎng)鏈非編碼 RNA家浇。長(zhǎng)度在 200-100000nt之間,不具有編碼蛋白功能的轉(zhuǎn)錄本碴裙。根據(jù)與編碼基因的位置關(guān)系可分為:Antisense lncRNA (反義長(zhǎng)非編碼 RNA)钢悲、Intronic lncRNA (內(nèi)含子長(zhǎng)非編碼 RNA)点额、Long intergenic noncoding RNA (基因間區(qū)長(zhǎng)非編碼 RNA)、Sense lncRNA(正義長(zhǎng)非編碼 RNA)莺琳、Bidirectional lncRNA(雙向長(zhǎng)非編碼 RNA)还棱。
參考鏈接: