生物信息數(shù)據(jù)庫(kù)

轉(zhuǎn)載https://www.plob.org/article/3856.html

生物信息數(shù)據(jù)庫(kù)與查詢

近年來(lái)大量生物學(xué)實(shí)驗(yàn)的數(shù)據(jù)積累,形成了當(dāng)前數(shù)以百計(jì)的生物信息數(shù)據(jù)庫(kù)词顾。它們各自按一定的目標(biāo)收集和整理生物學(xué)實(shí)驗(yàn)數(shù)據(jù),并提供相關(guān)的數(shù)據(jù)查詢倍啥、數(shù)據(jù)處理的服務(wù)剑勾。隨著因特網(wǎng)的普及,這些數(shù)據(jù)庫(kù)大多可以通過(guò)網(wǎng)絡(luò)來(lái)訪問(wèn)惑畴,或者通過(guò)網(wǎng)絡(luò)下載。

一般而言寡夹,這些生物信息數(shù)據(jù)庫(kù)可以分為一級(jí)數(shù)據(jù)庫(kù)和二級(jí)數(shù)據(jù)庫(kù)处面。一級(jí)數(shù)據(jù)庫(kù)的數(shù)據(jù)都直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋菩掏;二級(jí)數(shù)據(jù)庫(kù)是在一級(jí)數(shù)據(jù)庫(kù)魂角、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定目標(biāo)衍生而來(lái),是對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步整理智绸。國(guó)際上著名的一級(jí)核酸數(shù)據(jù)庫(kù)有Genbank數(shù)據(jù)庫(kù)野揪、EMBL核酸庫(kù)和DDBJ庫(kù)等;蛋白質(zhì)序列數(shù)據(jù)庫(kù)有SWISS-PROT瞧栗、PIR等斯稳;蛋白質(zhì)結(jié)構(gòu)庫(kù)有PDB等。國(guó)際上二級(jí)生物學(xué)數(shù)據(jù)庫(kù)非常多迹恐,它們因針對(duì)不同的研究?jī)?nèi)容和需要而各具特色挣惰,如人類基因組圖譜庫(kù)GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫(kù)TRANSFAC殴边、蛋白質(zhì)結(jié)構(gòu)家族分類庫(kù)SCOP等等憎茂。

下面將順序簡(jiǎn)要介紹一些著名和有特色的生物信息數(shù)據(jù)庫(kù)。

2.1 基因和基因組數(shù)據(jù)庫(kù)

1. Genbank

Genbank庫(kù)包含了所有已知的核酸序列和蛋白質(zhì)序列锤岸,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋竖幔。它是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)建立和維護(hù)的。它的數(shù)據(jù)直接來(lái)源于測(cè)序工作者提交的序列是偷;由測(cè)序中心提交的大量EST序列和其它測(cè)序數(shù)據(jù)拳氢;以及與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換數(shù)據(jù)而來(lái)。Genbank每天都會(huì)與歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL)的數(shù)據(jù)庫(kù)晓猛,和日本的DNA數(shù)據(jù)庫(kù)(DDBJ)交換數(shù)據(jù)饿幅,使這三個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)同步凡辱。到1999年8月戒职,Genbank中收集的序列數(shù)量達(dá)到460萬(wàn)條,34億個(gè)堿基透乾,而且數(shù)據(jù)增長(zhǎng)的速度還在不斷加快洪燥。Genbank的數(shù)據(jù)可以從NCBI的FTP服務(wù)器上免費(fèi)下載完整的庫(kù),或下載積累的新數(shù)據(jù)乳乌。NCBI還提供廣泛的數(shù)據(jù)查詢捧韵、序列相似性搜索以及其它分析服務(wù),用戶可以從NCBI的主頁(yè)上找到這些服務(wù)汉操。

Genbank庫(kù)里的數(shù)據(jù)按來(lái)源于約55,000個(gè)物種再来,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數(shù)據(jù)記錄包含了對(duì)序列的簡(jiǎn)要描述,它的科學(xué)命名芒篷,物種分類名稱搜变,參考文獻(xiàn),序列特征表针炉,以及序列本身挠他。序列特征表里包含對(duì)序列生物學(xué)特征注釋如:編碼區(qū)、轉(zhuǎn)錄單元篡帕、重復(fù)區(qū)域殖侵、突變位點(diǎn)或修飾位點(diǎn)等。所有數(shù)據(jù)記錄被劃分在若干個(gè)文件里镰烧,如細(xì)菌類拢军、病毒類、靈長(zhǎng)類怔鳖、嚙齒類朴沿,以及EST數(shù)據(jù)、基因組測(cè)序數(shù)據(jù)败砂、大規(guī)亩脑基因組序列數(shù)據(jù)等16類,其中EST數(shù)據(jù)等又被各自分成若干個(gè)文件昌犹。

(1)Genbank數(shù)據(jù)檢索

NCBI的數(shù)據(jù)庫(kù)檢索查詢系統(tǒng)是Entrez坚芜。Entrez是基于Web界面的綜合生物信息數(shù)據(jù)庫(kù)檢索系統(tǒng)。利用Entrez系統(tǒng)斜姥,用戶不僅可以方便地檢索Genbank的核酸數(shù)據(jù)鸿竖,還可以檢索來(lái)自Genbank和其它數(shù)據(jù)庫(kù)的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)铸敏、來(lái)自分子模型數(shù)據(jù)庫(kù)(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)缚忧、種群序列數(shù)據(jù)集、以及由PubMed獲得Medline的文獻(xiàn)數(shù)據(jù)杈笔。

Entrez提供了方便實(shí)用的檢索服務(wù)闪水,所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)蒙具、索引(Index)球榆、檢索歷史(History)和剪貼板(Clipboard)等功能來(lái)實(shí)現(xiàn)復(fù)雜的檢索查詢工作。對(duì)于檢索獲得的記錄禁筏,用戶可以選擇需要顯示的數(shù)據(jù)持钉,保存查詢結(jié)果,甚至以圖形方式觀看檢索獲得的序列篱昔。更詳細(xì)的Entrez使用說(shuō)明可以在該主頁(yè)上獲得每强。

(2)向Genbank提交序列數(shù)據(jù)

測(cè)序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數(shù)據(jù)庫(kù)。這個(gè)任務(wù)可以由基于Web界面的BankIt或獨(dú)立程序Sequin來(lái)完成空执。

BankIt是一系列表單窘茁,包括聯(lián)絡(luò)信息、發(fā)布要求脆烟、引用參考信息山林、序列來(lái)源信息、以及序列本身的信息等邢羔。用戶提交序列后驼抹,會(huì)從電子郵件收到自動(dòng)生成的數(shù)據(jù)條目,Genbank的新序列編號(hào)拜鹤,以及完成注釋后的完整的數(shù)據(jù)記錄框冀。用戶還可以在BankIt頁(yè)面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨(dú)立測(cè)序工作者提交少量序列敏簿,而不適合大量序列的提交明也,也不適合提交很長(zhǎng)的序列,EST序列和GSS序列也不應(yīng)用BankIt提交惯裕。BankIt使用說(shuō)明和對(duì)序列的要求可詳見(jiàn)其主頁(yè)面温数。

大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復(fù)雜注釋蜻势,并包含一系列內(nèi)建的檢查函數(shù)來(lái)提高序列的質(zhì)量保證撑刺。它還被設(shè)計(jì)用于提交來(lái)自系統(tǒng)進(jìn)化、種群和突變研究的序列握玛,可以加入比對(duì)的數(shù)據(jù)够傍。Sequin除了用于編輯和修改序列數(shù)據(jù)記錄,還可以用于序列的分析挠铲,任何以FASTA或ASN.1格式序列為輸入數(shù)據(jù)的序列分析程序都可以整合到Sequin程序下冕屯。在不同操作系統(tǒng)下運(yùn)行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin的使用說(shuō)明可詳見(jiàn)其網(wǎng)頁(yè)拂苹。

NCBI的網(wǎng)址是:http://www.ncbi.nlm.nih.gov安聘。

Entrez的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/entrez/

BankIt的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/BankIt醋寝。

Sequin的相關(guān)網(wǎng)址是:http://www.ncbi.nlm.nih.gov/Sequin/搞挣。

2. EMBL核酸序列數(shù)據(jù)庫(kù)

EMBL核酸序列數(shù)據(jù)庫(kù)由歐洲生物信息學(xué)研究所(EBI)維護(hù)的核酸序列數(shù)據(jù)構(gòu)成带迟,由于與Genbank和DDBJ的數(shù)據(jù)合作交換音羞,它也是一個(gè)全面的核酸序列數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)由Oracal數(shù)據(jù)庫(kù)系統(tǒng)管理維護(hù)仓犬,查詢檢索可以通過(guò)通過(guò)因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成嗅绰。向EMBL核酸序列數(shù)據(jù)庫(kù)提交序列可以通過(guò)基于Web的WEBIN工具,也可以用Sequin軟件來(lái)完成。

數(shù)據(jù)庫(kù)網(wǎng)址是:http://www.ebi.ac.uk/embl/窘面。

SRS的網(wǎng)址是:http://srs.ebi.ac.uk/翠语。

WEBIN的網(wǎng)址是:http://www.ebi.ac.uk/embl/Submission/webin.html

3. DDBJ數(shù)據(jù)庫(kù)

日本DNA數(shù)據(jù)倉(cāng)庫(kù)(DDBJ)也是一個(gè)全面的核酸序列數(shù)據(jù)庫(kù)财边,與Genbank和EMBL核酸庫(kù)合作交換數(shù)據(jù)肌括。可以使用其主頁(yè)上提供的SRS工具進(jìn)行數(shù)據(jù)檢索和序列分析酣难〉玻可以用Sequin軟件向該數(shù)據(jù)庫(kù)提交序列。

DDBJ的網(wǎng)址是:http://www.ddbj.nig.ac.jp/憨募。

4. GDB

基因組數(shù)據(jù)庫(kù)(GDB)為人類基因組計(jì)劃(HGP)保存和處理基因組圖譜數(shù)據(jù)紧索。GDB的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書(shū),除了構(gòu)建基因組圖譜之外菜谣,還開(kāi)發(fā)了描述序列水平的基因組內(nèi)容的方法珠漂,包括序列變異和其它對(duì)功能和表型的描述。目前GDB中有:人類基因組區(qū)域(包括基因尾膊、克隆媳危、amplimers PCR 標(biāo)記、斷點(diǎn)breakpoints冈敛、細(xì)胞遺傳標(biāo)記cytogenetic markers济舆、易碎位點(diǎn)fragile sites、EST序列莺债、綜合區(qū)域syndromic regions滋觉、contigs和重復(fù)序列);人類基因組圖譜(包括細(xì)胞遺傳圖譜齐邦、連接圖譜椎侠、放射性雜交圖譜、content contig圖譜和綜合圖譜等)措拇;人類基因組內(nèi)的變異(包括突變和多態(tài)性我纪,加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫(kù)以對(duì)象模型來(lái)保存數(shù)據(jù)丐吓,提供基于Web的數(shù)據(jù)對(duì)象檢索服務(wù)浅悉,用戶可以搜索各種類型的對(duì)象,并以圖形方式觀看基因組圖譜券犁。

GDB的網(wǎng)址是:http://www.gdb.org术健。

GDB的國(guó)內(nèi)鏡像是:http://gdb.pku.edu.cn/gdb/

2.2 蛋白質(zhì)數(shù)據(jù)庫(kù)

1. PIR和PSD

PIR國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(kù)(PSD)是由蛋白質(zhì)信息資源(PIR)粘衬、慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(kù)(JIPID)共同維護(hù)的國(guó)際上最大的公共蛋白質(zhì)序列數(shù)據(jù)庫(kù)荞估。這是一個(gè)全面的咳促、經(jīng)過(guò)注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫(kù)勘伺,包含超過(guò)142,000條蛋白質(zhì)序列(至99年9月)跪腹,其中包括來(lái)自幾十個(gè)完整基因組的蛋白質(zhì)序列。所有序列數(shù)據(jù)都經(jīng)過(guò)整理飞醉,超過(guò)99%的序列已按蛋白質(zhì)家族分類冲茸,一半以上還按蛋白質(zhì)超家族進(jìn)行了分類。PSD的注釋中還包括對(duì)許多序列缅帘、結(jié)構(gòu)噪裕、基因組和文獻(xiàn)數(shù)據(jù)庫(kù)的交叉索引,以及數(shù)據(jù)庫(kù)內(nèi)部條目之間的索引股毫,這些內(nèi)部索引幫助用戶在包括復(fù)合物膳音、酶-底物相互作用、活化和調(diào)控級(jí)聯(lián)和具有共同特征的條目之間方便的檢索铃诬。每季度都發(fā)行一次完整的數(shù)據(jù)庫(kù)祭陷,每周可以得到更新部分。

PSD數(shù)據(jù)庫(kù)有幾個(gè)輔助數(shù)據(jù)庫(kù)趣席,如基于超家族的非冗余庫(kù)等兵志。PIR提供三類序列搜索服務(wù):基于文本的交互式檢索;標(biāo)準(zhǔn)的序列相似性搜索宣肚,包括BLAST想罕、FASTA等;結(jié)合序列相似性霉涨、注釋信息和蛋白質(zhì)家族信息的高級(jí)搜索按价,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索GeneFIND等笙瑟。

PIR和PSD的網(wǎng)址是:http://pir.georgetown.edu/楼镐。

數(shù)據(jù)庫(kù)下載地址是:ftp://nbrfa.georgetown.edu/pir/

2. SWISS-PROT

SWISS-PROT是經(jīng)過(guò)注釋的蛋白質(zhì)序列數(shù)據(jù)庫(kù)往枷,由歐洲生物信息學(xué)研究所(EBI)維護(hù)框产。數(shù)據(jù)庫(kù)由蛋白質(zhì)序列條目構(gòu)成,每個(gè)條目包含蛋白質(zhì)序列错洁、引用文獻(xiàn)信息秉宿、分類學(xué)信息、注釋等屯碴,注釋中包括蛋白質(zhì)的功能描睦、轉(zhuǎn)錄后修飾、特殊位點(diǎn)和區(qū)域窿锉、二級(jí)結(jié)構(gòu)酌摇、四級(jí)結(jié)構(gòu)膝舅、與其它序列的相似性嗡载、序列殘缺與疾病的關(guān)系窑多、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗余序列洼滚,并與其它30多個(gè)數(shù)據(jù)建立了交叉引用埂息,其中包括核酸序列庫(kù)、蛋白質(zhì)序列庫(kù)和蛋白質(zhì)結(jié)構(gòu)庫(kù)等遥巴。

利用序列提取系統(tǒng)(SRS)可以方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫(kù)千康。

SWISS-PROT只接受直接測(cè)序獲得的蛋白質(zhì)序列,序列提交可以在其Web頁(yè)面上完成铲掐。

SWISS-PROT的網(wǎng)址是:http://www.ebi.ac.uk/swissprot/拾弃。

3. PROSITE

PROSITE數(shù)據(jù)庫(kù)收集了生物學(xué)有顯著意義的蛋白質(zhì)位點(diǎn)和序列模式,并能根據(jù)這些位點(diǎn)和模式快速和可靠地鑒別一個(gè)未知功能的蛋白質(zhì)序列應(yīng)該屬于哪一個(gè)蛋白質(zhì)家族摆霉。有的情況下豪椿,某個(gè)蛋白質(zhì)與已知功能蛋白質(zhì)的整體序列相似性很低,但由于功能的需要保留了與功能密切相關(guān)的序列模式携栋,這樣就可能通過(guò)PROSITE的搜索找到隱含的功能motif搭盾,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點(diǎn)婉支、配體結(jié)合位點(diǎn)鸯隅、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸向挖、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等蝌以;除了序列模式之外,PROSITE還包括由多序列比對(duì)構(gòu)建的profile何之,能更敏感地發(fā)現(xiàn)序列與profile的相似性饼灿。PROSITE的主頁(yè)上提供各種相關(guān)檢索服務(wù)。

PROSITE的網(wǎng)址是:http://www.expasy.ch/prosite/帝美。

4. PDB

蛋白質(zhì)數(shù)據(jù)倉(cāng)庫(kù)(PDB)是國(guó)際上唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)檔案庫(kù)碍彭,由美國(guó)Brookhaven國(guó)家實(shí)驗(yàn)室建立。PDB收集的數(shù)據(jù)來(lái)源于X光晶體衍射和核磁共振(NMR)的數(shù)據(jù)悼潭,經(jīng)過(guò)整理和確認(rèn)后存檔而成庇忌。目前PDB數(shù)據(jù)庫(kù)的維護(hù)由結(jié)構(gòu)生物信息學(xué)研究合作組織(RCSB)負(fù)責(zé)。RCSB的主服務(wù)器和世界各地的鏡像服務(wù)器提供數(shù)據(jù)庫(kù)的檢索和下載服務(wù)舰褪,以及關(guān)于PDB數(shù)據(jù)文件格式和其它文檔的說(shuō)明皆疹,PDB數(shù)據(jù)還可以從發(fā)行的光盤獲得。使用Rasmol等軟件可以在計(jì)算機(jī)上按PDB文件顯示生物大分子的三維結(jié)構(gòu)占拍。

RCSB的PDB數(shù)據(jù)庫(kù)網(wǎng)址是:http://www.rcsb.org/pdb/略就。

5. SCOP

蛋白質(zhì)結(jié)構(gòu)分類(SCOP)數(shù)據(jù)庫(kù)詳細(xì)描述了已知的蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系捎迫。分類基于若干層次:家族,描述相近的進(jìn)化關(guān)系表牢;超家族窄绒,描述遠(yuǎn)源的進(jìn)化關(guān)系;折疊子(fold)崔兴,描述空間幾何結(jié)構(gòu)的關(guān)系彰导;折疊類,所有折疊子被歸于全α敲茄、全β位谋、α/β、α+β和多結(jié)構(gòu)域等幾個(gè)大類堰燎。SCOP還提供一個(gè)非冗余的ASTRAIL序列庫(kù)掏父,這個(gè)庫(kù)通常被用來(lái)評(píng)估各種序列比對(duì)算法。此外秆剪,SCOP還提供一個(gè)PDB-ISL中介序列庫(kù)赊淑,通過(guò)與這個(gè)庫(kù)中序列的兩兩比對(duì),可以找到與未知結(jié)構(gòu)序列遠(yuǎn)緣的已知結(jié)構(gòu)序列鸟款。

SCOP的網(wǎng)址是:http://scop.mrc-lmb.cam.ac.uk/scop/趟章。

6. COG

蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫(kù)是對(duì)細(xì)菌摹察、藻類和真核生物的21個(gè)完整基因組的編碼蛋白酸纲,根據(jù)系統(tǒng)進(jìn)化關(guān)系分類構(gòu)建而成咖楣。COG庫(kù)對(duì)于預(yù)測(cè)單個(gè)蛋白質(zhì)的功能和整個(gè)新基因組中蛋白質(zhì)的功能都很有用。利用COGNITOR程序处渣,可以把某個(gè)蛋白質(zhì)與所有COGs中的蛋白質(zhì)進(jìn)行比對(duì)伶贰,并把它歸入適當(dāng)?shù)腃OG簇。COG庫(kù)提供了對(duì)COG分類數(shù)據(jù)的檢索和查詢罐栈,基于Web的COGNITOR服務(wù)黍衙,系統(tǒng)進(jìn)化模式的查詢服務(wù)等。

COG庫(kù)的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/COG荠诬。

下載COG庫(kù)和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG琅翻。

2.3 功能數(shù)據(jù)庫(kù)

1. KEGG

京都基因和基因組百科全書(shū)(KEGG)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的知識(shí)庫(kù)柑贞》阶担基因組信息存儲(chǔ)在GENES數(shù)據(jù)庫(kù)里,包括完整和部分測(cè)序的基因組序列钧嘶;更高級(jí)的功能信息存儲(chǔ)在PATHWAY數(shù)據(jù)庫(kù)里棠众,包括圖解的細(xì)胞生化過(guò)程如代謝、膜轉(zhuǎn)運(yùn)有决、信號(hào)傳遞闸拿、細(xì)胞周期空盼,還包括同系保守的子通路等信息;KEGG的另一個(gè)數(shù)據(jù)庫(kù)是LIGAND新荤,包含關(guān)于化學(xué)物質(zhì)揽趾、酶分子、酶反應(yīng)等信息迟隅。KEGG提供了Java的圖形工具來(lái)訪問(wèn)基因組圖譜但骨,比較基因組圖譜和操作表達(dá)圖譜励七,以及其它序列比較智袭、圖形比較和通路計(jì)算的工具,可以免費(fèi)獲取掠抬。

KEGG的網(wǎng)址是:http://www.genome.ad.jp/kegg/吼野。

2. DIP

相互作用的蛋白質(zhì)數(shù)據(jù)庫(kù)(DIP)收集了由實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)-蛋白質(zhì)相互作用。數(shù)據(jù)庫(kù)包括蛋白質(zhì)的信息两波、相互作用的信息和檢測(cè)相互作用的實(shí)驗(yàn)技術(shù)三個(gè)部分瞳步。用戶可以根據(jù)蛋白質(zhì)、生物物種腰奋、蛋白質(zhì)超家族单起、關(guān)鍵詞、實(shí)驗(yàn)技術(shù)或引用文獻(xiàn)來(lái)查詢DIP數(shù)據(jù)庫(kù)劣坊。

DIP的網(wǎng)址是:http://dip.doe-mbi.ucla.edu/嘀倒。

3. ASDB

可變剪接數(shù)據(jù)庫(kù)(ASDB)包括蛋白質(zhì)庫(kù)和核酸庫(kù)兩部分。ASDB(蛋白質(zhì))部分來(lái)源于SWISS-PROT蛋白質(zhì)序列庫(kù)局冰,通過(guò)選取有可變剪接注釋的序列测蘑,搜索相關(guān)可變剪接的序列,經(jīng)過(guò)序列比對(duì)康二、篩選和分類構(gòu)建而成碳胳。ASDB(核酸)部分來(lái)自Genbank中提及和注釋的可變剪接的完整基因構(gòu)成。數(shù)據(jù)庫(kù)提供了方便的搜索服務(wù)沫勿。

ASDB的網(wǎng)址是:http://cbcg.nersc.gov/asdb挨约。

4. TRRD

轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫(kù)(TRRD)是在不斷積累的真核生物基因調(diào)控區(qū)結(jié)構(gòu)-功能特性信息基礎(chǔ)上構(gòu)建的。每一個(gè)TRRD的條目里包含特定基因各種結(jié)構(gòu)-功能特性:轉(zhuǎn)錄因子結(jié)合位點(diǎn)产雹、啟動(dòng)子诫惭、增強(qiáng)子、靜默子洽故、以及基因表達(dá)調(diào)控模式等贝攒。TRRD包括五個(gè)相關(guān)的數(shù)據(jù)表:TRRDGENES(包含所有TRRD庫(kù)基因的基本信息和調(diào)控單元信息);TRRDSITES(包括調(diào)控因子結(jié)合位點(diǎn)的具體信息)时甚;TRRDFACTORS(包括TRRD中與各個(gè)位點(diǎn)結(jié)合的調(diào)控因子的具體信息)隘弊;TRRDEXP(包括對(duì)基因表達(dá)模式的具體描述)哈踱;TRRDBIB(包括所有注釋涉及的參考文獻(xiàn))。TRRD主頁(yè)提供了對(duì)這幾個(gè)數(shù)據(jù)表的檢索服務(wù)梨熙。

TRRD的網(wǎng)址是:http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/开镣。

5. TRANSFAC

TRANSFAC數(shù)據(jù)庫(kù)是關(guān)于轉(zhuǎn)錄因子、它們?cè)诨蚪M上的結(jié)合位點(diǎn)和與DNA結(jié)合的profiles的數(shù)據(jù)庫(kù)咽扇。由SITE邪财、GENE、FACTOR质欲、CLASS树埠、MATRIX、CELLS嘶伟、METHOD和REFERENCE等數(shù)據(jù)表構(gòu)成怎憋。此外,還有幾個(gè)與TRANSFAC密切相關(guān)的擴(kuò)展庫(kù):PATHODB庫(kù)收集了可能導(dǎo)致病態(tài)的突變的轉(zhuǎn)錄因子和結(jié)合位點(diǎn)九昧;S/MART DB收集了與染色體結(jié)構(gòu)變化相關(guān)的蛋白因子和位點(diǎn)的信息绊袋;TRANSPATH庫(kù)用于描述與轉(zhuǎn)錄因子調(diào)控相關(guān)的信號(hào)傳遞的網(wǎng)絡(luò);CYTOMER庫(kù)表現(xiàn)了人類轉(zhuǎn)錄因子在各個(gè)器官铸鹰、細(xì)胞類型癌别、生理系統(tǒng)和發(fā)育時(shí)期的表達(dá)狀況。TRANSFAC及其相關(guān)數(shù)據(jù)庫(kù)可以免費(fèi)下載蹋笼,也可以通過(guò)Web進(jìn)行檢索和查詢展姐。

TRANSFAC的網(wǎng)址是:http://transfac.gbf.de/TRANSFAC/

2.4 其它數(shù)據(jù)庫(kù)資源

1. DBCat

DBCat是生物信息數(shù)據(jù)庫(kù)的目錄數(shù)據(jù)庫(kù)姓建,它收集了500多個(gè)生物信息學(xué)數(shù)據(jù)庫(kù)的信息诞仓,并根據(jù)它們的應(yīng)用領(lǐng)域進(jìn)行了分類。包括DNA速兔、RNA墅拭、蛋白質(zhì)、基因組涣狗、圖譜谍婉、蛋白質(zhì)結(jié)構(gòu)、文獻(xiàn)著作等基本類型镀钓。數(shù)據(jù)庫(kù)可以免費(fèi)下載或在網(wǎng)絡(luò)上檢索查詢穗熬。

DBCat的網(wǎng)址是:http://www.infobiogen.fr/services/dbcat/

下載DBCat在:ftp://ftp.infobiogen.fr/pub/db/dbcat丁溅。

2. PubMed

PubMed是NCBI維護(hù)的文獻(xiàn)引用數(shù)據(jù)庫(kù)唤蔗,提供對(duì)MEDLINE、Pre-MEDLINE等文獻(xiàn)數(shù)據(jù)庫(kù)的引用查詢和對(duì)大量網(wǎng)絡(luò)科學(xué)類電子期刊的鏈接。利用Entrez系統(tǒng)可以對(duì)PubMed進(jìn)行方便的查詢檢索妓柜。

PubMed的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/箱季。

除了以上提及的數(shù)據(jù)之外,還有許許多多的專門生物信息數(shù)據(jù)庫(kù)棍掐,涉及了目前生物學(xué)研究的各個(gè)層面和領(lǐng)域藏雏,由于篇幅所限無(wú)法一一詳述。國(guó)內(nèi)也有一些大數(shù)據(jù)庫(kù)的鏡像站點(diǎn)和自己開(kāi)發(fā)的有特色的數(shù)據(jù)庫(kù)作煌,如歐洲分子生物學(xué)網(wǎng)絡(luò)組織EMBNet中國(guó)節(jié)點(diǎn)北京大學(xué)分子生物信息鏡像系統(tǒng)掘殴,上海博容基因公司與上海嘉瑞軟件公司合作開(kāi)發(fā)的國(guó)產(chǎn)漢化基因數(shù)據(jù)庫(kù)及分析管理系統(tǒng),同時(shí)國(guó)家級(jí)的生物信息學(xué)中心也在籌建之中粟誓。我們期待國(guó)內(nèi)能有更多高質(zhì)量和使用便利的數(shù)據(jù)庫(kù)資源奏寨,推動(dòng)我國(guó)生物信息學(xué)和整個(gè)生命科學(xué)的發(fā)展。

清華大學(xué)生物信息學(xué)研究所網(wǎng)址:http://bioinfo.tsinghua.edu.cn

北京大學(xué)生物信息鏡像系統(tǒng)網(wǎng)址:http://cbi.pku.edu.cn

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末努酸,一起剝皮案震驚了整個(gè)濱河市服爷,隨后出現(xiàn)的幾起案子杜恰,更是在濱河造成了極大的恐慌获诈,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,324評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件心褐,死亡現(xiàn)場(chǎng)離奇詭異舔涎,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)逗爹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門亡嫌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人掘而,你說(shuō)我怎么就攤上這事挟冠。” “怎么了袍睡?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,328評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵知染,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我斑胜,道長(zhǎng)控淡,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,147評(píng)論 1 292
  • 正文 為了忘掉前任止潘,我火速辦了婚禮掺炭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘凭戴。我一直安慰自己涧狮,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著者冤,像睡著了一般吧享。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上譬嚣,一...
    開(kāi)封第一講書(shū)人閱讀 51,115評(píng)論 1 296
  • 那天钢颂,我揣著相機(jī)與錄音,去河邊找鬼拜银。 笑死殊鞭,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的尼桶。 我是一名探鬼主播操灿,決...
    沈念sama閱讀 40,025評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼泵督!你這毒婦竟也來(lái)了趾盐?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,867評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤小腊,失蹤者是張志新(化名)和其女友劉穎救鲤,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體秩冈,經(jīng)...
    沈念sama閱讀 45,307評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡本缠,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了入问。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片丹锹。...
    茶點(diǎn)故事閱讀 39,688評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖芬失,靈堂內(nèi)的尸體忽然破棺而出楣黍,到底是詐尸還是另有隱情,我是刑警寧澤棱烂,帶...
    沈念sama閱讀 35,409評(píng)論 5 343
  • 正文 年R本政府宣布租漂,位于F島的核電站,受9級(jí)特大地震影響垢啼,放射性物質(zhì)發(fā)生泄漏窜锯。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評(píng)論 3 325
  • 文/蒙蒙 一芭析、第九天 我趴在偏房一處隱蔽的房頂上張望锚扎。 院中可真熱鬧,春花似錦馁启、人聲如沸驾孔。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,657評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)翠勉。三九已至妖啥,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間对碌,已是汗流浹背荆虱。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,811評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留朽们,地道東北人怀读。 一個(gè)月前我還...
    沈念sama閱讀 47,685評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像骑脱,于是被迫代替她去往敵國(guó)和親菜枷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容