2019-11-12科個小普:蛋白鑒定的常用公共數(shù)據(jù)庫

轉(zhuǎn)發(fā)自http://crickcollege.com/news/132.html

對于剛開始玩蛋白質(zhì)譜數(shù)據(jù)處理的童鞋們來說滔蝉,聽得最多的,大概就是搜庫了塔沃!沒錯蝠引,就像人生避免不了交稅一樣,譜圖處理也繞不開搜庫芳悲。那么問題就來了立肘,有哪些公共又權威的數(shù)據(jù)庫可以拿來搜呢?

關于搜庫的門門道道名扛,感興趣的小伙伴們谅年,還可以參考我們之前寫的一篇小攻略:

蛋白鑒定攻略之—搜庫只搜目標序列?

選擇合適的數(shù)據(jù)庫肮韧,進行正確的配置及參數(shù)設定融蹂,是很基本的但很重要的事情旺订。那么今天小編就來幫初學的小伙伴們整理一下蛋白鑒定中常用的公共數(shù)據(jù)庫,它們各自的特點以及下載方式超燃,拿好不謝~

1. Contaminants
當我們搜索單一物種分類數(shù)據(jù)庫時区拳,記得養(yǎng)成一個好習慣,就是同時選擇Contaminants數(shù)據(jù)庫進行匹配意乓,因為污染總是很難避免的樱调!這類數(shù)據(jù)庫中包含常見的污染蛋白如keratins、BSA和 trypsin届良,幫助我們把需要鑒定的目標蛋白與實驗中污染進來的蛋白進行區(qū)分笆凌。

目前有兩個組織提供此類數(shù)據(jù)庫下載:

1) Max Planck Institute of Biochemistry, Martinsried,提供了一套來自多種來源士葫,含有247個蛋白的數(shù)據(jù)庫乞而。
手動下載方式:
http://maxquant.org/contaminants.zip
Tips:不要在網(wǎng)頁瀏覽器里打開哦,因為很可能會顯示網(wǎng)址無效慢显,直接找個下載工具下載即可爪模,比如把鏈接拷到QQ里,啟動QQ旋風下載助手就可以下載了荚藻。

2) Global Proteome Machine Organization common Repository of Adventitious Proteins 提供了一套包含116個來自于Swiss-Prot的污染蛋白庫 屋灌。
手動下載方式:
ftp://ftp.thegpm.org/fasta/cRAP/crap.fasta

2. EMBL EST
由EMBL維護的EST Fasta 數(shù)據(jù)庫,"single-pass" cDNA 序列应狱,或表達序列標簽 Expressed Sequence Tags声滥。該數(shù)據(jù)庫包含十個分類:
? ENV: Environmental Samples
? FUN: Fungi
? HUM: Human
? INV: Invertebrates
? MAM: Other Mammals
? MUS: Mus musculus
? PLN: Plants
? PRO: Prokaryotes
? ROD: Rodents
? VRT: Other Vertebrates

下載方式:單一分類的Fasta文件可以從EBI FTP 服務器上下載。比如FTP上嚙齒類動物序列庫的壓縮文件名就是: em_rel_est_rod.gz侦香,而真菌的是em_rel_est_fun.gz落塑。
物種分類:一些比較友好的商業(yè)軟件,比如Mascot罐韩,會將所有分類信息在后臺進行自動更新下載憾赁。如果你用的軟件沒有這個功能,那就要手動下載散吵,然后根據(jù)軟件的操作要求龙考,比如解壓縮到某個Taxonomy子目錄。

FASTA文件庫:ftp://ftp.ebi.ac.uk/pub/databases/embl/misc/acc_to_taxid.mapping.txt.gz
物種分類信息:ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz

Unigene索引:NCBI的 UniGene的索引由GenBank序列自動分割成非冗余的以基因為單位的簇矾睦。如果使用UniGene索引晦款,EST數(shù)據(jù)庫的搜庫結(jié)果會按照基因家族進行分類,而不會僅僅以原始的EST索引號展示枚冗。

3. NCBI EST
大名鼎鼎的NCBI (National Center for Biotechnology Information) 提供三個不同的 EST 數(shù)據(jù)庫缓溅,同樣也包含GenBank EST庫中的"single-pass" cDNA 序列,或 Expressed Sequence Tags赁温。

三個 EST 數(shù)據(jù)庫分別是: human坛怪、mouse和 others淤齐。目前的版本,壓縮過的EST_others 文件有11GB大小袜匿,而解壓后有40 GB更啄。小伙伴們需要注意,像這么大的數(shù)據(jù)庫居灯,32位操作系統(tǒng)是無法處理的祭务,而必須使用64位系統(tǒng)配合足夠大的內(nèi)存。NCBI目前依然沒有計劃分割EST_others數(shù)據(jù)庫怪嫌,因此小編覺得比較實用的還是EMBL EST庫待牵。

下載方式:
訪問 ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/est_others.gz 或?qū)钠渌Q下載相應的數(shù)據(jù)庫。

物種分類:以Mascot為例喇勋,對于 EST_others,在數(shù)據(jù)庫配置時選擇 "dbEST FASTA using GI2TAXID"偎行。Mascot需要更新以下文件來構建索引川背,如果手動下載,同樣將它們解壓到指定的Taxonomy目錄:

ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/gi_taxid_nucl.dmp.gz
ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz

Unigene:與EMBL相同

4. NCBInr
Nr數(shù)據(jù)庫也是由NCBI (National Center for Biotechnology Information) 維護蛤袒。它包含來自于GenBank CDS translations熄云、PDB、Swiss-Prot妙真、PIR 和PRF的非等同序列缴允。NCBInr的特點在于其更新速度非常快珍德,且涵蓋度很高练般。

下載方式:ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
由于廣受歡迎锈候,一些搜索軟件直接做了自動更新功能薄料,比如Mascot 2.3版本及以上的,初始配置成功以后就不用管了泵琳,軟件會自動去check并且在本地更新這個數(shù)據(jù)庫摄职。

物種分類:以Mascot為例,在聯(lián)網(wǎng)更新NCBInr時會自動進行分類索引庫下載获列,并應用"NCBI nr FASTA using GI2TAXID"的格式谷市。

5. SwissProt
UniProtKB/Swiss-Prot (reviewed) 是一個高質(zhì)量人工注釋且非冗余的蛋白序列數(shù)據(jù)庫。其中包含各類實驗結(jié)果击孩、計算得到的特征信息和文獻信息等迫悠。UniProtKB中85%的序列是由EMBL-Bank/GenBank/DDBJ 公共核酸數(shù)據(jù)庫中的coding sequences (CDS) 序列翻譯而來。 而UniProtKB 本身是European Bioinformatics Institute巩梢、Swiss Institute of Bioinformatics 和 Protein Information Resource合作成立及皂。

下載方式:
Expasy: ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/
EBI: ftp://ftp.ebi.ac.uk/pub/databases/uniprot/knowledgebase
其中:
Version info: reldate.txt
SwissProt Fasta file: uniprot_sprot.fasta.gz
SwissProt Dat file: uniprot_sprot.dat.gz

物種分類:以Mascot為例甫男,物種分類會自動后臺更新,并對應格式: "SwissProt FASTA"验烧。

6. Trembl
UniProtKB/TrEMBL (unreviewed) 計算輔助預測注釋信息和功能信息的蛋白序列板驳,而都還沒經(jīng)過人工注釋。

下載方式碍拆,物種分類格式等信息均和Swissprot一致若治,相關文件為:
TrEMBL Fasta file: uniprot_trembl.fasta.gz
TrEMBL Dat file: uniprot_trembl.dat.gz

7. UniRef
UniRef (UniProt Reference Clusters) 從UniProtKB(含isoform序列信息)提供的序列進行聚類。所用的種子序列是各簇中最長的序列感混。UniRef包含三個子庫端幼,按照序列相似度分別為UniRef100, UniRef90和UniRef50。UniRef100無相同序列弧满,而UniRef90和UniRef50則是非冗余的婆跑,聚類相似度90%和50%⊥ノ兀基于質(zhì)譜的序列搜索都要求序列的絕對匹配滑进,因此UniRef100適用于蛋白質(zhì)組學質(zhì)譜搜庫。
下載方式:
PIR: ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/
EBI: ftp://ftp.ebi.ac.uk/pub/databases/uniprot/uniref/uniref100/
Expasy: ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/uniref100/
包含文件:
Version info: uniref100.release_note
Fasta file: uniref100.fasta.gz

物種分類:UniRef采用以下索引庫: ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz

8. Uniprot Proteomes
UniProt全蛋白質(zhì)組數(shù)據(jù)庫包含多個模式生物的全基因組蛋白表達信息募谎。其中收集的Reference Proteome包含多個研究比較透徹或者生物研究中比較受關注的物種的最全面的蛋白質(zhì)組序列信息扶关。

下載方式:相關物種的序列數(shù)據(jù)庫可以訪問http://www.uniprot.org 搜索Taxonomy,并點擊有關鍵詞"Complete proteome"的物種分類数冬,或者直接使用關鍵詞如: (e.g. http://www.uniprot.org/uniprot/?query=taxonomy%3A4530+AND+keyword%3A%22Complete+proteome%22&sort=score )可以搜索到人類基因組的Ref Proteome节槐。
搜索結(jié)果中點擊Download,并選擇格式 FASTA(Canonical)拐纱。

9. 私有數(shù)據(jù)庫
蛋白質(zhì)序列數(shù)據(jù)庫FASTA是一個非常流行的標準格式铜异,而且要求非常簡單。因此實驗室自己收集整理的序列都可以格式化成FASTA并用于搜庫秸架。

Title text
SEQUENCESEQUENCESEQUENCESEQUENCESEQUENCESEQUENCE
SEQUENCESEQUENCESEQUENCESEQUENCESEQUENCESEQUENCE
SEQUENCESEQUENCESEQUENCE
Next title
NEXTSEQUENCE …

以上是一個標準的例子熙掺,> 之后是序列ID號和描述信息,然后緊跟整個序列信息咕宿,第二個蛋白重新以>開頭即可币绩。下面是一些ID和描述信息的例子。

gi|6|bgi|Contig1.seq_7|2412 3299 [+3 L= 888] [Delayed
20021010.2.1 1112073F09.y1 1112091F10.y1 1112073F0
IPI:IPI00140097.1|REFSEQ_XP:XP_168061 Tax_Id=9606
CCRB cytochrome c [validated] – rabbit
gi|129249|sp|P02820|OSTC_BOVIN Osteocalcin precursor
"ORF5 | start 2178-1309 | frame -1 | length=870 |

常用的搜庫軟件通常需要用戶提供一個名稱比較統(tǒng)一府阀、符合一定規(guī)范的信息缆镣,才能將名稱中ID和描述信息進行較好地分離。具體的操作需要參考不同軟件的操作手冊說明试浙。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末董瞻,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌钠糊,老刑警劉巖挟秤,帶你破解...
    沈念sama閱讀 221,273評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異抄伍,居然都是意外死亡艘刚,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評論 3 398
  • 文/潘曉璐 我一進店門截珍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來攀甚,“玉大人,你說我怎么就攤上這事岗喉∏锒龋” “怎么了?”我有些...
    開封第一講書人閱讀 167,709評論 0 360
  • 文/不壞的土叔 我叫張陵钱床,是天一觀的道長荚斯。 經(jīng)常有香客問我,道長查牌,這世上最難降的妖魔是什么事期? 我笑而不...
    開封第一講書人閱讀 59,520評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮僧免,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘捏浊。我一直安慰自己懂衩,他們只是感情好,可當我...
    茶點故事閱讀 68,515評論 6 397
  • 文/花漫 我一把揭開白布金踪。 她就那樣靜靜地躺著浊洞,像睡著了一般。 火紅的嫁衣襯著肌膚如雪胡岔。 梳的紋絲不亂的頭發(fā)上法希,一...
    開封第一講書人閱讀 52,158評論 1 308
  • 那天,我揣著相機與錄音靶瘸,去河邊找鬼苫亦。 笑死,一個胖子當著我的面吹牛怨咪,可吹牛的內(nèi)容都是我干的屋剑。 我是一名探鬼主播,決...
    沈念sama閱讀 40,755評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼诗眨,長吁一口氣:“原來是場噩夢啊……” “哼唉匾!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起匠楚,我...
    開封第一講書人閱讀 39,660評論 0 276
  • 序言:老撾萬榮一對情侶失蹤巍膘,失蹤者是張志新(化名)和其女友劉穎厂财,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體峡懈,經(jīng)...
    沈念sama閱讀 46,203評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡璃饱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,287評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了逮诲。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片帜平。...
    茶點故事閱讀 40,427評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖梅鹦,靈堂內(nèi)的尸體忽然破棺而出裆甩,到底是詐尸還是另有隱情,我是刑警寧澤齐唆,帶...
    沈念sama閱讀 36,122評論 5 349
  • 正文 年R本政府宣布嗤栓,位于F島的核電站,受9級特大地震影響箍邮,放射性物質(zhì)發(fā)生泄漏茉帅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,801評論 3 333
  • 文/蒙蒙 一锭弊、第九天 我趴在偏房一處隱蔽的房頂上張望堪澎。 院中可真熱鬧,春花似錦味滞、人聲如沸樱蛤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽昨凡。三九已至,卻和暖如春蚁署,著一層夾襖步出監(jiān)牢的瞬間便脊,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工光戈, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留哪痰,地道東北人。 一個月前我還...
    沈念sama閱讀 48,808評論 3 376
  • 正文 我出身青樓久妆,卻偏偏與公主長得像妒御,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子镇饺,可洞房花燭夜當晚...
    茶點故事閱讀 45,440評論 2 359

推薦閱讀更多精彩內(nèi)容