NCBI (National Center for Biotechnology Information)`是指美國(guó)國(guó)立生物技術(shù)信息中心
第一步進(jìn)入NCBI 進(jìn)行搜索:https://www.ncbi.nlm.nih.gov/gene/672
Official Full Name 和 See related 列出的都是BRCA1的其他名字的烁,最常用的就是Official Full Name 禁添,后面的“DNA repair associated”說明該基因和DNA的修復(fù)有關(guān).
HGNC 全稱為HUGO Gene Nomenclature Committee,叫做 HUGO基因命名委員會(huì)。并且不是所有的基因都有official symbol的倒戏,如果缺少HGNC提供的symbol筒溃,那么就在Entrez ID前加上LOC前綴杨刨,比如LOC109761693
,前面的標(biāo)題也變成了Gene Symbol
因此粟判,NCBI的基因都具有Entrez ID和symbol亿昏,但是不一定有官方的HGNC symbol
Organism 物種的來(lái)源, Homo sapiens 表示人類
最上方的 Gene ID
:672, 表示這個(gè)基因在NCBI Entrez gene 數(shù)據(jù)庫(kù)中的代號(hào)
什么是Entrez档礁?
Entrez是一個(gè)綜合性在線資源檢索器角钩,包含核酸、蛋白質(zhì)呻澜、基因递礼、基因組、GEO羹幸、pubMed等很多常用的數(shù)據(jù)庫(kù)脊髓,把序列和相關(guān)文獻(xiàn)都匯集到一起,用起來(lái)就像谷歌百度一樣包羅萬(wàn)象栅受。相信你不少聽到別人說去NCBI 查一下将硝,其實(shí)準(zhǔn)確來(lái)說是去Entrez查一下,因?yàn)镹CBI只是一個(gè)組織窘疮,Entrez才是干活的袋哼。
什么是Entrez ID?
NCBI的Gene數(shù)據(jù)庫(kù)包含了不同物種的基因信息闸衫,其中每一個(gè)基因都被編制一個(gè)唯一的識(shí)別號(hào)ID(因此不同生物或者同屬不同種的生物間的同源基因編號(hào)也不相同), 這個(gè)ID就叫做Entrez ID涛贯,就是基因身份證啦。它對(duì)應(yīng)于染色體上一個(gè)gene location蔚出。
image
如何檢索Entrez弟翘?
選擇Gene數(shù)據(jù)庫(kù)虫腋,然后輸入基因名(symbol)或者編號(hào)(ID),比如上面檢索BRCA1的過程就是這樣
進(jìn)入官網(wǎng):https://www.ncbi.nlm.nih.gov/geo/
image選擇Gene數(shù)據(jù)庫(kù)稀余,輸入待查詢的 Symbol 或者 Gene ID.
image
See related 相關(guān)的其他數(shù)據(jù)庫(kù)名稱:
-
Ensembl:ENSG00000012048
很明顯是Ensembl數(shù)據(jù)庫(kù)中的ID號(hào)悦冀。Emsembl是英國(guó)Snager研究所和歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBI-EBI)共同運(yùn)作的一個(gè)數(shù)據(jù)庫(kù),目的是對(duì)真核生物的基因組進(jìn)行自動(dòng)化的注釋睛琳,其中脊椎動(dòng)物最多盒蟆,包括爬行類、鳥類师骗、魚類历等、哺乳類和兩棲類。命名規(guī)則:
ENSxxxG/T/E
辟癌,xxx
表示物種(除了人類不需要)寒屯。其中ENS表示Ensembl,最后的G表示基因ID黍少;T表示轉(zhuǎn)錄本ID寡夹;E表示外顯子ID。需要注意的是有的基因名稱后面有小數(shù)點(diǎn)厂置,后面的數(shù)字代表版本菩掏,實(shí)際分析的時(shí)候需要去掉
MIM:113705
這個(gè)是OMIM數(shù)據(jù)庫(kù)中的代號(hào),OMIM是0nline Mendelian Inheritance in Man
即在線版的人類孟德爾遺傳农渊,提供人類基因和遺傳紊亂的數(shù)據(jù)患蹂,專注于遺傳病。其中會(huì)對(duì)這個(gè)基因進(jìn)行詳細(xì)的描述砸紊,并且有相關(guān)的參考文獻(xiàn)作指導(dǎo)Vega:OTTHUMG00000157426
來(lái)自Vega數(shù)據(jù)庫(kù)Vertebrate Genome Annotation
即脊椎動(dòng)物基因組注釋
大部分基因都有自己的5種類型ID传于,特定的基因如miRNA在miRBase中有自己的ID;LncRNA雖然沒有標(biāo)準(zhǔn)的命名醉顽,但是相關(guān)的數(shù)據(jù)庫(kù)IncRNAdb沼溜、LNCipedia都有自己的一套命名方式
5種類型:NCBI的entrez ID及gene symbol,Ensembl的gene ID游添,UCSC的gene ID系草,KEGG的gene ID,大部分的ID都可以在HGNC
中查找
前三種上面??有所了解了唆涝,那么UCSC的ID以uc
開頭找都,BRCA1對(duì)應(yīng)的就是uc002ict.4
;
KEGG的gene數(shù)據(jù)庫(kù)的命名方式是:三個(gè)小寫字母表示物種廊酣,后面再加ID號(hào)能耻,例如BRCA1對(duì)應(yīng)hsa:672
https://www.kegg.jp/dbget-bin/www_bget?hsa:672