基因ID類型
常見基因ID類型包含Gene ID憾朴,Gene Symbol资柔,Ensembl ID慧脱,RefSeq Accesion Number等。
Gene ID(Entrez Gene ID):來(lái)源于Entrez?基因數(shù)據(jù)庫(kù)的編號(hào)系統(tǒng)签餐,Entrez?基因數(shù)據(jù)庫(kù)歸屬于NCBI的子數(shù)據(jù)庫(kù),整合了核酸盯串、蛋白氯檐、基因組等生物信息檢索系統(tǒng)。Gene ID也是目前最權(quán)威的基因ID編號(hào)体捏,格式為一串?dāng)?shù)字冠摄,以CDKN1A基因?yàn)槔梢酝ㄟ^(guò)NCBI網(wǎng)站中Gene去進(jìn)行搜索几缭,檢索如下河泳,緊跟著CDKN1A那欄標(biāo)注了Gene ID:1026。
在Gene界面奏司,我們可以看到該信息的Summary乔询,包含Officical Symbol,Official Full Name韵洋,Primary source等竿刁,另外我們還可以看到其Ensembl number,如CDKN1A搪缨,Ensembl:ENSG00000124762?MIM:116899食拜。該基因是否屬于蛋白編碼基因,這里我們可以看到CDKN1A的Gene type屬于protein coding副编;RefSeq status為Reviewed(人工審核)负甸;Organism:Homo sapiens;Lineage:細(xì)胞系來(lái)源痹届;以及不同的基因Symbol叫法呻待。該基因的概述等。
Gene symbol:剛才我們介紹了NCBI中Gene頁(yè)面队腐,我們?cè)赟ummary的第一欄顯示的是Official Symbol廊营,就是我們通常所說(shuō)的Gene symbol匾南。物種來(lái)源于人的情连,由HGNC(人類基因命名委員會(huì))命名,同理小鼠來(lái)源的由MGNC命名秘通,大鼠來(lái)源的由RGNC命名。第二欄中的Official Full Name也是由基因命名委員會(huì)批準(zhǔn)的基因名稱敛熬。
Ensembl ID:我們可以在NCBI Gene中可以查詢到肺稀,另外就是Ensembl主頁(yè)中檢索。其命名規(guī)則包含五個(gè)部分应民,ENS前綴话原,提醒我們?cè)撁麃?lái)源于Ensembl ID,第二部分物種的前綴瑞妇,第三部分Object type稿静,G就是基因,P指蛋白辕狰,我們通過(guò)我們的示例改备,Ensembl:ENSG00000124762?MIM:116899,可以看出該Ensembl ID是個(gè)基因名稱蔓倍,第四部分悬钳,identifier,是一段特定的數(shù)字偶翅,第五部分默勾,版本號(hào)。如果沒(méi)有物種的前綴聚谁,則默認(rèn)物種是人母剥。但是注明的是這五個(gè)部分不一定都具備的。
RefSeq?Accesion?Number:即RefSeq?ID形导,其數(shù)據(jù)庫(kù)也是由NCBI?提供的具有生物意義的非冗余的基因或蛋白質(zhì)片段數(shù)據(jù)庫(kù)环疼。在NCBI?Gene搜索下,我們可以看到RefSeq?狀態(tài)朵耕,包括MODEL炫隶,INFERRED,PREDICTED阎曹,REVIEWED伪阶,VALIDATED等狀態(tài),我們示例顯示的就是REVIEWED处嫌,表明該數(shù)據(jù)人工審核過(guò)栅贴,可信度還是比較高的。
這里就簡(jiǎn)單對(duì)基因常見類型ID進(jìn)行概述熏迹,咱們下期再見筹误。