蛋白質(zhì)編碼基因至少包含四個(gè)組件:TU, MODEL, EXON, CDS
? TU代表轉(zhuǎn)錄單位夫偶,是基因的最高順式元件。僅在可變剪接體存在時(shí)可編碼多個(gè)基因MODEL
? 基因MODEL封裝了單個(gè)剪接異構(gòu)體所有的的編碼和非編碼結(jié)構(gòu)觉增,每個(gè)基因MODEL可編碼剪接數(shù)個(gè)mRNA EXONS并代表基因剪接后無(wú)內(nèi)含子的部分兵拢。?
一個(gè)mRNA EXON可能僅部分編碼蛋白質(zhì),恰恰是上游或下游非編碼區(qū)存在時(shí)抑片。每個(gè)EXON的蛋白質(zhì)編碼部分由CDS元件表示卵佛。CDS元件還編碼終止密碼子〕ㄕ基因組件不是根據(jù)它們的坐標(biāo)進(jìn)行排序的截汪。
? 對(duì)于存在非翻譯區(qū)的區(qū)域,將出現(xiàn)UTR植捎。UTR代表了RNA EXON的非蛋白質(zhì)編碼部分衙解。目前,UTRs不支持該DTD以外的TIGR數(shù)據(jù)類型焰枢,它們的存在僅為了便于外部數(shù)據(jù)分析蚓峦。
5'UTR :region at the 5' end of a mature transcript (preceding the initiation codon) that is not translated into a protein
3'UTR: 3‘端非翻譯區(qū),也就是mRNA兩端的非編碼片段
順便介紹一下“轉(zhuǎn)錄本”(轉(zhuǎn)載解螺旋公共號(hào))
我們平常通過(guò)數(shù)據(jù)庫(kù)查找某個(gè)基因的相關(guān)信息時(shí)济锄,會(huì)發(fā)現(xiàn)該基因有多個(gè)轉(zhuǎn)錄本暑椰。為什么一個(gè)基因可以有多個(gè)轉(zhuǎn)錄本呢?轉(zhuǎn)錄本能干什么荐绝?
?轉(zhuǎn)錄本其實(shí)就是基因通過(guò)轉(zhuǎn)錄形成的一種或多種可供編碼蛋白質(zhì)的成熟的mRNA一汽。
一個(gè)基因有可能有多個(gè)轉(zhuǎn)錄本,原因是由于不同的剪接方式造成的低滩。我們都知道召夹,基因轉(zhuǎn)錄之后岩喷,首先是形成前體mRNA,通過(guò)剪切內(nèi)含子連接外顯子监憎,5’端加帽及3’端加尾之后形成成熟的mRNA纱意。
但是在剪切的過(guò)程中可能會(huì)剪切掉外顯子,也有可能保留部分內(nèi)含子鲸阔,這樣就形成了多種mRNA即多個(gè)轉(zhuǎn)錄本偷霉。
?舉個(gè)栗子:這是一個(gè)
三個(gè)外顯子兩個(gè)內(nèi)含子的基因結(jié)構(gòu)圖
該圖通過(guò)不同的剪接方式得到了四種mRNA即四種轉(zhuǎn)錄本(我只是列出了部分可能性),實(shí)際中可能該基因只具有其中的一種或兩種轉(zhuǎn)錄本隶债,也有可能都具有腾它。
我們需要特別注意的是大多數(shù)基因有多個(gè)轉(zhuǎn)錄本,而且有可能每個(gè)轉(zhuǎn)錄本都會(huì)編碼產(chǎn)生相應(yīng)的蛋白死讹,這樣就有可能造成一個(gè)基因有多種功能瞒滴。
我們平常研究某個(gè)基因時(shí)(該基因有多個(gè)轉(zhuǎn)錄本),其實(shí)我們研究的是它的其中一個(gè)轉(zhuǎn)錄本所編碼的蛋白的功能赞警。雖然該基因有多個(gè)轉(zhuǎn)錄本妓忍,而且每個(gè)轉(zhuǎn)錄本都編碼蛋白,但是一般情況下它的不同的轉(zhuǎn)錄本分布在不同類型的細(xì)胞中愧旦,當(dāng)然也有可能多種轉(zhuǎn)錄本同時(shí)存在于某一細(xì)胞中世剖。
?那我們研究該基因時(shí)應(yīng)該怎么做呢?
首先笤虫,我們需要確定我們應(yīng)該研究該基因的哪個(gè)轉(zhuǎn)錄本旁瘫。
因?yàn)槲覀兤匠Q芯磕硞€(gè)基因的功能的時(shí)候,是因?yàn)樵摶蛟谀骋惶囟ǖ慕M織和細(xì)胞中表達(dá)琼蚯,它在這些組織和細(xì)胞中具有特定的功能酬凳,所以我們只需要確定該基因的哪個(gè)轉(zhuǎn)錄本在這些組織和細(xì)胞中表達(dá)即可。
確定的方法當(dāng)然就是設(shè)計(jì)每種轉(zhuǎn)錄本特異性引物遭庶,然后通過(guò)RT-PCR就可知道哪種轉(zhuǎn)錄本在組織和細(xì)胞中特異性表達(dá)宁仔。那這個(gè)轉(zhuǎn)錄本就是我們接下來(lái)要研究的。
之所以要確定我們應(yīng)該研究哪個(gè)轉(zhuǎn)錄本峦睡,那是因?yàn)樗P(guān)系到引物的設(shè)計(jì)以及蛋白分子量的計(jì)算翎苫。
當(dāng)我們研究某個(gè)基因的功能時(shí),通常會(huì)抽提總的RNA榨了,然后反轉(zhuǎn)錄得到cDNA煎谍,然后將cDNA連接到表達(dá)載體中轉(zhuǎn)化到原核或真核細(xì)胞中進(jìn)行表達(dá),然后進(jìn)行接下來(lái)的研究龙屉。
通過(guò)反轉(zhuǎn)錄獲得cDNA時(shí)呐粘,引物的設(shè)計(jì)就是根據(jù)轉(zhuǎn)錄本設(shè)計(jì)的。而且之后我們會(huì)將表達(dá)的蛋白跑電泳后進(jìn)行分析,那蛋白的大小是如何計(jì)算的呢事哭,當(dāng)然也是通過(guò)該轉(zhuǎn)錄本編碼的蛋白的氨基酸序列計(jì)算的啊。
至于轉(zhuǎn)錄本的查詢瓜富,也非常簡(jiǎn)單鳍咱。在pubmed gene一欄輸入目的基因,出現(xiàn)的頁(yè)面下拉与柑,發(fā)現(xiàn)如下
CDS與ORF的區(qū)別谤辜?為什么CDS可以包括很多個(gè)開(kāi)放閱讀框?
1. 基因的編碼區(qū)(Coding region)价捧,亦稱為“編碼序列”(Coding sequence)或“CDS”(Coding DNA Sequence)丑念,是指mRNA序列中編碼蛋白質(zhì)的那部分序列。
2. CDS也等同于ORF(open reading frame)是編碼蛋白質(zhì)的序列结蟋,以ATG開(kāi)始--終止密碼子結(jié)束脯倚。
CDS的定義是對(duì)的,即CDS是已知的一個(gè)基因上確確實(shí)實(shí)翻譯成蛋白質(zhì)的區(qū)段嵌屎。
ORF則是指推正,任意一段序列,只要起于ATG止于終止子宝惰,都可以叫做ORF植榕。ORF是一種預(yù)測(cè),而不是一種已知的翻譯區(qū)尼夺。即隨意寫(xiě)下一段DNA序列尊残,只要以三個(gè)堿基為單位能找到ATG和終止子,就可以稱作ORF淤堵,這段ORF甚至可能不是一段真正存在的DNA序列寝衫,但是它仍然是ORF。一段序列是可以有多個(gè)ORF的粘勒,只有當(dāng)ORF符合已知的可翻譯成蛋白的序列時(shí)竞端,才能等同于CDS。
圖片來(lái)自wiki
圖中序列為
ATGCAATGGGGAAATGTTACCAGGTCCGAACTTATTGAGGTAAGACAGATTTAA
假設(shè)這是某種基因的CDS庙睡。那么在這段序列中事富,由圖所示,會(huì)出現(xiàn)三種始于ATG終于終止子的片段乘陪,由于這三種都有可能翻譯成氨基酸统台,所以你可以說(shuō)這段序列有三種可能的ORF。但是在基因中真正翻譯出來(lái)的只有1啡邑,那么當(dāng)你說(shuō)這段基因的CDS的時(shí)候贱勃,只能是1.
1. 基因經(jīng)過(guò)轉(zhuǎn)錄形成Pre mRNA,這里面包含著內(nèi)含子和外顯子(5端是以外顯子打頭,但是這段外顯子不僅包含CDS贵扰,還包含5' UTR仇穗;3端是以外顯子結(jié)束,但是這段外顯子不僅包含CDS戚绕,還包含3' UTR)纹坐,經(jīng)過(guò)剪接形成成熟mRNA,內(nèi)含子已減掉,如果拋開(kāi)后來(lái)加上去的cap和poly A的話舞丛,這時(shí)全是外顯子耘子,但是不全是CDS,因?yàn)橹挥兄虚g的那部分以起始密碼子開(kāi)始球切、以終止密碼子結(jié)束的片段才是CDS谷誓,只有這部分才會(huì)被翻譯成蛋白質(zhì)。
2. CDS是指被翻譯成蛋白質(zhì)的片段(故而肯定是以起始密碼子開(kāi)始吨凑,以終止密碼子結(jié)束的片段)捍歪,而ORF僅僅是指以起始密碼子開(kāi)始,以終止密碼子結(jié)束的片段鸵钝,可以說(shuō)是潛在的CDS费封。
轉(zhuǎn)自丁香園:http://www.dxy.cn/bbs/topic/36728037