FEATURES 是非常重要的注釋內(nèi)容焕参,它描述了核酸序列中各個(gè)已確定的片段區(qū)域张吉,包含 很多子條目齿梁,比如來(lái)源,啟動(dòng)子肮蛹,核糖體結(jié)合位點(diǎn)等等勺择。
1.原核生物大腸桿菌的基因序列features解讀:
source 說(shuō)明了核酸序列的來(lái)源,據(jù)此可以容易的分辨出這條序列是來(lái)源于克隆載體還 是基因組伦忠∈『耍可以看到,當(dāng)前序列來(lái)源于大腸桿菌的基因組 DNA昆码。
-
在regulatory中
promoter 列出了啟動(dòng)子的位置气忠。細(xì)菌有兩個(gè)啟動(dòng)子區(qū),-35 區(qū)和-10 區(qū)赋咽。-35 區(qū)位于第 286 個(gè)堿基到第 291 個(gè)堿基 旧噪,-10 區(qū)位于第 310 個(gè)堿基到第 316 個(gè)堿基。
RBS 是核糖體結(jié)合位點(diǎn)的位置脓匿。
misc_feature 列出了一些雜項(xiàng)淘钟,比如,這條說(shuō)明了從第 322 個(gè)堿基到第 324 個(gè)堿基是一個(gè)推測(cè)的陪毡,無(wú)實(shí)驗(yàn)證實(shí)的轉(zhuǎn)錄起始位置米母。
對(duì)于原核生物來(lái)講勾扭,CDS 記錄了一個(gè)開(kāi)放閱讀框ORF,從 第 343 個(gè)堿基開(kāi)始的起始密碼子 ATG 到第 798 個(gè)堿基結(jié)束的結(jié)束密碼子 TAA铁瞒。除了位置信息妙色,還包括翻譯產(chǎn)物的諸多信息。
翻譯產(chǎn)物蛋白的名字是 dUTPase精拟,這個(gè)編碼區(qū)編碼該蛋白的第 1 到第 151 個(gè)氨基酸燎斩。
事實(shí)上,蛋白質(zhì)數(shù)據(jù)庫(kù)中的大多數(shù)蛋白質(zhì)序列都是根據(jù)核酸序列由計(jì)算機(jī)根據(jù)翻譯密碼本自動(dòng)翻譯出來(lái)的蜂绎。
中間部分是翻譯出的蛋白在各種蛋白質(zhì)數(shù)據(jù)庫(kù)中對(duì)應(yīng)的檢索號(hào)栅表。 通過(guò)這些檢索號(hào)可以輕松的鏈接到其他數(shù)據(jù)庫(kù)。
此外师枣,X01714 這條核酸序列還包含第二個(gè)“潛在的”基因怪瓶,也就是計(jì)算機(jī)預(yù)測(cè)出來(lái)的 基因。它編碼的蛋白目前的數(shù)據(jù)庫(kù)里沒(méi)有詳細(xì)記錄践美,是個(gè)未知的蛋白洗贰。
像這樣,一條核酸序列包含多個(gè)基因的情況在 Genbank 里是很常見(jiàn)的陨倡。
ORIGIN 作為最后一個(gè)條目記錄的是核酸序列敛滋,并以雙斜線作為整條記錄的結(jié)束符。至此整條記錄就瀏覽完了兴革。有時(shí)你可能會(huì)想要保存這條序列绎晃,但是直接從這里拷貝,序列里既有空格杂曲,又有數(shù)字庶艾, 不是純序列,手動(dòng)刪除這些又很麻煩擎勘。
這時(shí)咱揍,你可以在這條記錄的標(biāo)題下面找到一個(gè)叫做 FASTA 的鏈接:點(diǎn)擊他,你會(huì)獲得 FASTA 格式的核酸序列棚饵。
FASTA 格式是最常用的序列書(shū)寫(xiě)格式煤裙,他由兩部分組成。
第一行:以大于號(hào)開(kāi)始噪漾。后面接序列的名稱(chēng)或注釋
第二行:純序列部分积暖,每行 60 個(gè)字母。(這部分只能寫(xiě)序列怪与,不能有其他內(nèi)容夺刑,比如空格,注釋?zhuān)刑?hào)之類(lèi)的都不能在序列部分出現(xiàn)。)
早期的 FASTA 格式要求序列部分每行 60 個(gè)字母遍愿。但這個(gè)規(guī)定早已被打破存淫,每行 80,或每行100都可以沼填。
標(biāo)題下方桅咆,除了 FASTA 鏈接,還有一個(gè)圖形化鏈接:點(diǎn)擊可以看到 Features 里的注釋信息以圖形的形式更直觀的展示出來(lái)坞笙。
可以看到這條序列包含的兩個(gè)基因岩饼,他們的啟動(dòng)子的位置,核糖體結(jié)合位點(diǎn)的位置等薛夜。其中一條基因是編碼 dUTPase 的 dUT基因籍茧,另一個(gè)是編碼未知蛋白的潛在的通過(guò)計(jì)算預(yù)測(cè)出的基因。
如果想要保存這條記錄梯澜,最好的方法是像保存 PubMed 文獻(xiàn)列表那樣寞冯,點(diǎn)擊發(fā)送鏈接, 然后選擇以純文本文件的形式保存整條記錄到本地電腦上晚伙。現(xiàn)在我們來(lái)看真核生物基因組的DNA序列 (:
2.真核生物人的dUTPase 的成熟 mRNA 序列
Features 里的注釋內(nèi)容與原核生物的數(shù)據(jù)庫(kù)記錄相似吮龄。
CDS 指出了從 63 到 821 是一 段編碼區(qū),在這段編碼區(qū)里基因是連續(xù)的咆疗,因?yàn)槭墙?jīng)過(guò)剪切后的成熟 mRNA漓帚,它將被翻譯 成線粒體型 dUTPase 蛋白。
/translation 里給出的是計(jì)算機(jī)翻譯出的該蛋白的序列午磁。
-
在 Features 里還有兩個(gè)新的條目sig_peptide 和 mat_peptide之前沒(méi)有見(jiàn)到過(guò)尝抖。
sig_peptide,也就是 signal peptide漓踢,指出了編碼信號(hào)肽的堿基的位置。信號(hào)肽決定了蛋白質(zhì)的亞細(xì)胞定位漏隐,也就是蛋白質(zhì)工作的地方喧半。
mat_peptide,也就是 mature peptide青责,指 出了編碼成熟肽鏈的堿基的位置挺据。他從信號(hào)肽后面開(kāi)始,到編碼區(qū)結(jié)尾提前三個(gè)堿基結(jié)束脖隶。
-
編碼區(qū)一直到第 821 號(hào)堿基扁耐,而編碼成熟蛋白的最后一個(gè)堿基是第 818 號(hào)堿基,這中間差了 3 個(gè)堿基产阱,那最后的這三個(gè)堿基干嘛去了呢婉称?
- 編碼區(qū)的最后三個(gè)堿基是終止密碼子,不翻譯。
這條真核生物序列的 Genbank 注釋看起來(lái)和原核生物的差不多王暗,這是因?yàn)槲覀兒苄⌒牡奶袅艘粭l成熟 mRNA 的序列悔据。