蛋白質(zhì)組學(xué)數(shù)據(jù)分析基礎(chǔ)（三）

主要知識點：

--DIA數(shù)據(jù)非依賴性采集

--搜庫原理及技巧

--蛋白質(zhì)組學(xué)相關(guān)的數(shù)據(jù)庫及使用方法

--總結(jié)

DIA數(shù)據(jù)非依賴采集

在上一篇推文，小編不止一次提到了DIA技術(shù)。那么罕邀，到底什么是DIA技術(shù)呢搀矫？我們來簡單地介紹一下吧抑片。

DIA亏推，就是指數(shù)據(jù)非依賴性采集期犬。與DDA（數(shù)據(jù)依賴性采集）相對應(yīng)颜懊。

你肯定很想知道财岔，到底是怎么個非依賴呢？

我們先說DDA模式河爹，就是數(shù)據(jù)依賴性采集匠璧，它有一個質(zhì)譜內(nèi)部的選擇過程。當(dāng)前掃描到的一堆母離子咸这，哪一個會被選擇進入后面的二級碎裂夷恍，是根據(jù)它的信息強度，通常是以從強到弱的順序去解析媳维，并動態(tài)排除時間酿雪，也就是判斷這張譜圖在前一秒鐘或者前十秒鐘有沒有解析過，如果解析過侄刽，那么就跳過指黎，去解析沒有解析過的。這就是DDA大致的原理州丹。

想像一下醋安，如果我們的樣品非常復(fù)雜，一個峰一個峰去選擇的話墓毒，很可能會漏掉一些有用的信息吓揪，造成我們譜圖解析的不完整，而且質(zhì)譜不可能在重復(fù)實驗里選擇完全一樣的離子順序所计，于是又會造成結(jié)果重復(fù)性不夠高的問題柠辞。于是，DIA方法被發(fā)明出來主胧，用于解決DDA原理的部分缺陷叭首。

DIA模式就是在MS1掃描時，對碎裂的母離子不做任何篩選讥裤，而是傻瓜化地直接開一個非常大的窗口放棒，讓落在這個范圍內(nèi)的母離子全部進入二級碎裂。這個窗口開多大己英，是根據(jù)儀器和軟件的設(shè)置會有不同间螟，比如說10或15個道爾頓。

由于DIA是一次性放了一堆母離子進來，同時碎裂厢破，所以對于DIA來說荣瑟，不是一張譜圖對應(yīng)一個母離子，而是一堆譜圖對應(yīng)一堆來自多個母離子的碎片離子混合物摩泪。因此笆焰，我們不可能通過對二級譜圖的解析來得到一個一個的母離子。

那我們應(yīng)該如何解析呢见坑？我們用DIA二級譜圖與平行實驗中的DDA的二級譜圖進行比對嚷掠，從中抽取出相同的二級信號，拿這些數(shù)據(jù)來進行DIA數(shù)據(jù)的定性以及相應(yīng)的定量荞驴，而這個定量就是依賴于MS2的信號強度不皆。

Tips：

平行的DDA實驗需要前期色譜分離做得很好，并且用高精度高通量的質(zhì)譜儀來完成熊楼。

搜庫原理

我們再回到質(zhì)譜數(shù)據(jù)分析的流程上霹娄。下圖是一個簡單的搜庫過程，左邊是wet lab實驗鲫骗，右邊是計算機處理的過程犬耻，

蛋白樣品酶解后得到復(fù)雜的肽段混合物，經(jīng)過色譜分離执泰，進入質(zhì)譜枕磁，得到一級及二級離子信息。我們在搜庫時坦胶，輸入的是上萬張二級譜圖透典，以及相應(yīng)的一級譜圖信號晴楔，和母離子的精確質(zhì)荷比顿苇。

那么，我們軟件主要干哪些事情呢税弃？

首先我們需要準(zhǔn)備一個數(shù)據(jù)庫（如果是de novo從頭預(yù)測蛋白序列纪岁，則不需要準(zhǔn)備）。

比如我們拿到人類的數(shù)據(jù)庫则果，軟件會根據(jù)我們設(shè)定的參數(shù)進行理論酶切幔翰。比如我們告訴軟件此次試驗用的是trypsin酶切，那么軟件也會對每條蛋白序列的trypsin酶切位點進行斷裂西壮，與實驗中的被處理的蛋白序列保持一致遗增。

假設(shè)，我們將人的兩萬個蛋白進行理論酶切款青，會生成兩百萬個理論肽做修，這些理論肽又會生成理論b-y離子，得到理論的譜圖。

下圖右下角就是一個理論b-y離子譜圖饰及，可以看到蔗坯，這樣一個譜圖，里面每一個離子的信號強度是很高的燎含，而且是相同的宾濒。雖然有一些比較新的軟件嘗試進行理論強度的預(yù)測，但目前來講還不算非常主流屏箍。

接下來绘梦，將理論的b-y離子譜圖和通過質(zhì)譜實際得到的譜圖進行比對。

比對過程相對而言比較復(fù)雜赴魁。簡單來說谚咬，類似于給你一堆照片，然后一堆真人尚粘，讓你來判斷哪張照片是哪個人的择卦，軟件做的就是類似的一個過程。

因此郎嫁，生成理論酶切庫秉继，以及選擇一個合適的肽段庫，就跟我們識別照片去認(rèn)人是一樣的泽铛。選擇的庫越準(zhǔn)確尚辑，篩選的速度和準(zhǔn)確性就越高。也就是說要選擇一個合適的搜庫空間盔腔。

確定好合適的搜庫空間后杠茬，我們會拿到與質(zhì)譜數(shù)據(jù)相對比較貼近的理論肽段的數(shù)據(jù)列表，這些理論肽段的原子量都是可以預(yù)測出來的弛随，一般來說根據(jù)肽段強度從幾百到幾千都會有一個列表瓢喉。

質(zhì)譜的原始譜圖也會有相應(yīng)的質(zhì)荷比的列表，我們將這些質(zhì)荷比按其電荷數(shù)還原成道爾頓舀透，也會拿到一張表栓票。將這兩張表進行比對，這就是我們搜庫軟件做的核心工作愕够，這也是設(shè)置母離子的容差走贪，即MS1的tolerance非常重要的原因。

以O(shè)rbitrap舉例惑芭，它的MS1的分辨率可以達到十幾萬或者二三十萬坠狡，那么相應(yīng)的母離子的質(zhì)量容差就可以是5ppm甚至更小，所以遂跟，高分辨的好處就是可以把理論候選肽段的質(zhì)量范圍縮小到一個非常窄的范圍逃沿，讓匹配更加準(zhǔn)確码荔。

舉例來說，如果母離子是1000Da±3ppm感挥，那么理論候選肽就可能從上百種縮小到十種或者幾種缩搅，再去進行比對，這樣做的速度和靈敏度就會提高很多触幼。但是如果你縮減到一個不太合理的范圍硼瓣，比如你的質(zhì)譜分辨率是±10ppm，但是你卻用1ppm去搜置谦，那么很有可能正確的候選肽段都沒有能夠落到這個范圍供你篩選堂鲤，所得到的都是一堆錯誤的結(jié)果。軟件是無法判斷選進來的是否包含正確的序列媒峡，它仍然會進行打分給出結(jié)果瘟栖，這就會造成一定的假陽性。

我們知道谅阿，搜庫軟件會對鑒定到的結(jié)果進行打分半哟。那么這個分?jǐn)?shù)是怎么來的呢？我們主要介紹一種常用的打分算法签餐，即基于概率的打分寓涨。

為什么大多數(shù)搜庫軟件都要將搜庫的比對過程用概率的算法進行匹配呢？這是因為氯檐，無論軟件或者儀器戒良，都不是上帝，我們無從知道所得到的譜圖是不是是一個真正的肽段冠摄，或者說一定是來自于這個數(shù)據(jù)庫中的某一個肽段糯崎。就算我們用BSA標(biāo)準(zhǔn)蛋白去做，也可能有一些雜峰或者錯誤匹配河泳。所以這不是一個絕對的準(zhǔn)確的答案沃呢。

因此軟件需要對結(jié)果進行評價，來評估什么樣的譜圖更可能的是一個正確的肽段匹配乔询，這就是基于概率打分的基本原理樟插，即韵洋，將我們的實驗測量值與候選多肽序列的理論值進行匹配竿刁。

實驗測量值只有一張譜圖，而候選多肽序列可能有10張甚至100張譜圖搪缨，只要我們把道爾頓或ppm設(shè)置的足夠惺嘲荨（因為氨基酸只有20種），那么其排列組合都會落到一個差不多的范圍之內(nèi)副编。因此理論候選多肽序列一般來說不止一種负甸，而是會有十幾種或者二三十種。軟件會對各個結(jié)果進行比對，根據(jù)打分給出一個排列組合呻待。

然而打月，得分值并不能準(zhǔn)確地反映這個結(jié)果是不是一個正確的。所以我們會將它進行一個概率的轉(zhuǎn)換蚕捉，不同的軟件用不同的算法會進行正確概率的計算奏篙，然后設(shè)定一個隨機匹配的閾值，通常我們認(rèn)為低于這個概率閾值的匹配迫淹，才是正確的匹配秘通。

比如說p-value或者expectation-value小于0.05，或者說更嚴(yán)格的0.01敛熬，我們才認(rèn)為這個結(jié)果是可靠的肺稀。也就是說現(xiàn)在的軟件都會去計算相應(yīng)的統(tǒng)計值。原理類似于高考考試应民，100人參加话原，我們認(rèn)為考試分?jǐn)?shù)得第一名的，且與第二名有相當(dāng)大的分?jǐn)?shù)差距的人稿静，才是我們要尋找的那個人。

Tips：

關(guān)于p值等統(tǒng)計學(xué)參數(shù)的含義辕狰，感興趣的小伙伴們可以參考以下的推文：

p值、E值母剥、FDR、q值…你暈菜了嗎炫隶？

在質(zhì)譜鑒定的過程中斟湃，以下圖來舉例。大家會發(fā)現(xiàn)高強度的b-y離子譜峰都匹配上了祷膳，那么你覺得這張譜圖的氨基酸序列vvllatgenk是不是一個正確匹配呢陶衅？

絕大多數(shù)人都會覺得此結(jié)果不錯，應(yīng)該是一個正確匹配直晨。在Mascot軟件中搀军，這個結(jié)果的得分是35分，很多人認(rèn)為25或者30分以上就是一個準(zhǔn)確的結(jié)果勇皇。那這個結(jié)果到底是不是對的呢罩句？

image

我們再來看下圖的另外一個結(jié)果。下面這張譜圖中敛摘，vvligdsgvgk這個肽段對于b-y離子的匹配更加豐富门烂，看上去更加完整準(zhǔn)確。事實上也是如此兄淫，它的得分達到了80分（Ions score）屯远，e-value是3.1X10-5！

真是不比不知道捕虽，一比嚇一跳慨丐，先前的35分可以說是一個很差的匹配了，而這個80分的結(jié)果才是一個真正準(zhǔn)確的匹配泄私。

從上面這個例子房揭，大家應(yīng)該能直觀地感受到，在搜庫軟件中晌端，即便得到一個得分看上去還不錯的結(jié)果捅暴，也并不表示就是正確的匹配，而是需要進行可信度評估斩松，才可能找出真正正確的匹配伶唯。

image

對于如何計算出一個匹配是正確匹配的概率，我們使用基于probability原理的算法惧盹。這個算法絕大多數(shù)的搜庫軟件中都會使用乳幸，比如Mascot。那么钧椰，它的基本思路是怎樣的呢粹断？

分兩種情況。

首先嫡霞，如果有一個標(biāo)準(zhǔn)品瓶埋，并且我知道它的絕對成分，也就是說它不存在任何雜質(zhì)的時候诊沪，我們可以說這樣一個匹配是確定一定及肯定正確的养筒！但是如果說樣品的組成相對比較復(fù)雜，無法完全知道里面是什么東西端姚，那么如何定義結(jié)果的準(zhǔn)確性晕粪，就需要用到更加穩(wěn)妥的參數(shù)或者實驗設(shè)計，并且要更加穩(wěn)妥的去定義正確的閾值到底是多少渐裸。

有的小伙伴可能會問這樣的問題：是否可以建立一個目標(biāo)蛋白的序列數(shù)據(jù)庫來提高鑒定靈敏度呢巫湘？對這個問題感興趣的小伙伴，請戳如下推文延展閱讀：

蛋白鑒定攻略之--搜庫只搜目標(biāo)序列?

我們先來看看下圖昏鹃，這是一個實際的例子尚氛。這張譜圖所有匹配的肽段的候選列表都已給出，大家可以看到1到4名分別是99,82,66,45.6分洞渤，除了99分的結(jié)果阅嘶，看上去82和66分也都不錯。但事實上载迄，除了99分那條奈懒，后面匹配到的序列其實都是不正確的。

把剛才所說的過程換成下面這張示意圖宪巨，大家可能更容易理解磷杏。圖上紅色的點是正確的匹配，剩下藍(lán)色的點捏卓，就是我們剛才例子里說的除了99分以外的其它打分結(jié)果极祸。

我們應(yīng)該如何來評價紅色的點就是正確的匹配結(jié)果呢？其實就是從統(tǒng)計分布圖中來評判怠晴。假設(shè)紅色的點和剩下的藍(lán)色點的打分結(jié)果并沒有顯著的差異遥金，比如絕大多數(shù)結(jié)果都在20到25分之間，那么我們認(rèn)為這里面沒有一個結(jié)果是可信的蒜田！

假設(shè)有一個結(jié)果是25分稿械，而其余結(jié)果都是15分甚至更低，那么我們會認(rèn)為這個25分的匹配是一個更加可信的結(jié)果冲粤。那么我們可不可以認(rèn)為它一定是準(zhǔn)確的呢美莫？實事求是而言页眯，也不一定，也有可能真正正確的序列并沒有被放進數(shù)據(jù)庫里搜索厢呵，如果放進去可能會出現(xiàn)一個明顯高于25分的結(jié)果（大多數(shù)情況下窝撵，25分是一個比較差的得分）。

這就引出另一個問題襟铭，即數(shù)據(jù)庫的選擇碌奉！其實，過大或者過小的數(shù)據(jù)庫都不是合理的選擇寒砖。數(shù)據(jù)庫過大赐劣，搜庫時間很大，復(fù)雜度變大哩都，得到隨機錯誤匹配的概率變大魁兼；數(shù)據(jù)庫過小，容易遺漏真正的目標(biāo)序列茅逮，得不到正確的結(jié)果璃赡。

隨著生物信息學(xué)的反展，對于結(jié)果的過濾已經(jīng)引入了更多的算法献雅，比如FDR算法等等碉考。具體算法思路我們在后續(xù)課程中還會展開講解。

蛋白質(zhì)數(shù)據(jù)庫

介紹完搜庫原理挺身，我們接下來介紹一些蛋白質(zhì)數(shù)據(jù)庫的知識侯谁。先來個總表，大家感受一下：

1：序列數(shù)據(jù)庫

目前來說章钾，用的最多的是UniProt KB墙贱，該數(shù)據(jù)庫來自歐洲生物信息學(xué)中心。其次是美國的NCBI Genebank贱傀。這兩個數(shù)據(jù)庫搜集了全世界已公布的所有物種的蛋白質(zhì)序列惨撇。如果實在搜不到結(jié)果，還可以用EST標(biāo)簽或者自己去測序府寒，只是自己測序無法保證蛋白的完整程度魁衙。

2：注釋數(shù)據(jù)庫

鑒定到蛋白只是萬里長征的第一步，后面我們還需要對蛋白進行注釋株搔，比如我們最常用到的Gene Ontology剖淀。人類蛋白數(shù)據(jù)庫已經(jīng)注釋得很完整，而有的物種注釋不夠完整或者說注釋得比較差的情況下纤房，則需要通過同源性序列來間接注釋纵隔。

3：蛋白相互作用數(shù)據(jù)庫

當(dāng)需要進一步研究蛋白的功能及作用機理時，常常需要了解蛋白-蛋白或蛋白-小分子相互作用，有很多收集蛋白相互作用的數(shù)據(jù)庫可以供我們搜索捌刮，或者繪制互作網(wǎng)絡(luò)碰煌。

4：生物通路分析數(shù)據(jù)庫

比如大名鼎鼎的KEGG等工具，還有一些有偏好性的數(shù)據(jù)庫糊啡，比如專門針對代謝通路的BioCyc拄查，或者針對人類（及大鼠和小鼠）物種的IPA等吁津。

5：蛋白質(zhì)組學(xué)數(shù)據(jù)庫

當(dāng)我們完成了從搜庫棚蓄、注釋，到機理分析的一系列功能碍脏，并完成了生物學(xué)實驗驗證梭依，打算發(fā)表文章了。有一些蛋白質(zhì)組學(xué)領(lǐng)域的雜志典尾，比如JPR役拴、MCP等，會要求我們將數(shù)據(jù)結(jié)構(gòu)上傳到指定的數(shù)據(jù)庫中钾埂，用于共享或是同行的質(zhì)量審查河闰。目前來說用的最多的是ProteomeXchange，ProteomeDB褥紫，和iProx這三個數(shù)據(jù)庫姜性。iprox是中國國家蛋白質(zhì)中心建立的。另外一些蛋白質(zhì)組學(xué)相關(guān)的數(shù)據(jù)庫髓考，以及發(fā)表在CNS上的大規(guī)模數(shù)據(jù)部念，有一些組織也會將其搜集起來，做人的human protein atlas氨菇，比如GeneCards就是整合得很好的綜合性數(shù)據(jù)庫儡炼，我們可以在其中查到別人做過的詳細(xì)結(jié)果數(shù)據(jù)。

這么多種類繁雜的數(shù)據(jù)庫查蓉，相互之間的數(shù)據(jù)信息有怎樣的聯(lián)系呢乌询？下面這張圖告訴你答案：

可以這樣說，所有的信息豌研，最初都是從基因組出發(fā)的妹田。基因組的數(shù)據(jù)是來自INSDC（全世界最大的基因組合作機構(gòu)）發(fā)布的各個物種的基因數(shù)據(jù)聂沙，其中NCBI會將其搜集到GenBank里秆麸，EBI搜集到EnsemblGenomes里。GenBank中測序完整且注釋完整的數(shù)據(jù)會放到RefSeq中及汉。

KEGG在生物通路中用的很多沮趣，其實它也是一個搜集各類基因和小分子的數(shù)據(jù)庫，它的pathway數(shù)據(jù)是平常我們用得最多的坷随，其相對來說是比較權(quán)威的房铭。其實一些常用的數(shù)據(jù)庫驻龟，大家也可以從圖里了解它們的數(shù)據(jù)來源，以及相互的關(guān)聯(lián)缸匪。

當(dāng)然翁狐，我們做蛋白鑒定的時候，最關(guān)心的還是蛋白序列數(shù)據(jù)庫凌蔬。全球兩大知名的序列數(shù)據(jù)庫露懒，一個是NCBI，一個是EBI砂心。先介紹下NCBI數(shù)據(jù)庫懈词。在NCBI里可以搜索到各種各樣的信息，各種和生化以及組學(xué)相關(guān)的數(shù)據(jù)庫都可以整合到NCBI中辩诞。NCBI支持的數(shù)據(jù)格式包括NCBI GI坎弯、GenBank ID、RefSeq ID译暂，以及Entrez ID等抠忘。

NCBI的NCBInr非冗余數(shù)據(jù)庫是搜庫時常常會用到的，但它的問題在于NCBI內(nèi)部數(shù)據(jù)的一致性比較差外永，它搜集了各種來源的數(shù)據(jù)崎脉，格式都不一樣，后續(xù)會發(fā)現(xiàn)象迎，搜集到NCBInr之后荧嵌，同一個基因編碼的蛋白會搜到好多個版本。

2016年砾淌，NCBI將gi號取消了啦撮，換成了GenBank ID，此過程十分艱難汪厨，很多軟件都要對其進行相應(yīng)的轉(zhuǎn)換赃春，也給使用者帶來了很多不便。因此個人建議劫乱，還是先在UniProt庫里搜索织中。如果從UniProt里實在找不到的序列信息，再去NCBInr里搜索衷戈。

Tips:

雖然UniProt主要搜集的是蛋白信息狭吼，但是它與相當(dāng)多的注釋數(shù)據(jù)庫，如GO殖妇，KEGG等等刁笙，都有交叉合作。因此UniProt中的注釋信息是相當(dāng)完整的。

但是NCBI的優(yōu)勢也是非常明顯的疲吸，就是它的數(shù)據(jù)信息非常全面座每！從下圖可以看出，在過去的7年時間里摘悴，NCBI包含的核酸序列峭梳、蛋白序列和基因信息均有爆發(fā)式的增長。這歸功于近年來基因組和轉(zhuǎn)錄組技術(shù)的發(fā)展蹂喻。其中很多是中國人做出的貢獻葱椭。

剛剛我們也提到了NCBI的問題，那么它的缺點對我們搜庫有什么影響呢叉橱？

舉個例子挫以。

比如有一次我們做某種橘子的蛋白鑒定者蠕，在NCBI中搜索窃祝，如果用NCBInr（非冗余）來搜，你會得到88138條蛋白序列踱侣，但其中有21%的序列是完全一樣的粪小，原因就是其包含的數(shù)據(jù)來源太多了！如果我們用GenBank抡句，就會發(fā)現(xiàn)只有15%的冗余（GenBank也不是單一來源的數(shù)據(jù)庫探膊，它自己也有好幾個注釋序列的來源）。

而當(dāng)我們選用UniProt的話待榔，發(fā)現(xiàn)結(jié)果里沒有冗余逞壁！這就是UniProt的好處，幫我們進行了前期蛋白數(shù)據(jù)庫的過濾和準(zhǔn)備锐锣。這就是我們推薦優(yōu)先使用UniProt的原因腌闯。

事實上，現(xiàn)在用UniProt的人越來越多了雕憔。它是目前世界上最大最完整的蛋白數(shù)據(jù)庫姿骏，其來源非常多，比如有GenBank斤彼，EMBL-Bank分瘦，DDBJ等的coding sequences都會成為其收集來源。

它的收集一樣會存在如同NCBI的問題琉苇，會有冗余或者說數(shù)據(jù)來源太過于復(fù)雜嘲玫，導(dǎo)致蛋白序列有各種的版本。所有UniProtKB中有一個最大的版本TrEMBL（它搜集的信息來源也很雜并扇，所有蛋白數(shù)有6400多萬種）去团，不建議大家在用序列數(shù)據(jù)庫的時候直接用TrEMBL搜庫，因為沒有去過冗余。另外一個子庫Proteomes渗勘，包含了比較全的物種（目前有5000多種）沐绒。如果有reference參考序列的蛋白質(zhì)組，這些物種的冗余度是非常低的旺坠，用于我們蛋白質(zhì)組學(xué)的研究就非常適合乔遮。

Tips：

Swiss-Prot是經(jīng)過人工注釋和review的數(shù)據(jù)庫，它只有55萬種蛋白取刃。但是除了人類和小鼠蛋白質(zhì)數(shù)據(jù)庫因為研究得很廣泛比較全面以外蹋肮，剩下的各個物種都不是很全面。因此建議除了人類和小鼠外璧疗，別的物種不要直接采用swiss-prot搜庫坯辩。

如果從NCBI或者UniProt里都沒搜索到你想要的蛋白質(zhì)序列昼钻，那么可以嘗試使用這些物種的EST承桥。它們雖然不太完整，但是會比較豐富农猬，也就是說研究對象還沒用經(jīng)過大規(guī)模的基因組測序却音，來自于小規(guī)模機構(gòu)或個人提供的RNA sequence序列信息改抡。先對其按照coding的序列格式進行氨基酸轉(zhuǎn)換后搜庫。也就是說當(dāng)我們只有mRNA或者coding sequence系瓢，但沒有進行DNA sequence的序列進行拼接的話阿纤，那么只能用這樣的數(shù)據(jù)庫。

說了這么多夷陋，我們來小結(jié)一下數(shù)據(jù)庫的選擇：UniProt Proteomes是第一優(yōu)先級欠拾，除了人和小鼠可以用Swiss-Prot更好以外，其余所有物種都優(yōu)先用Proteomes骗绕，第二優(yōu)先級GenBank/NCBInr藐窄，用于少數(shù)UniProt沒有收集到的物種。

既然UniProt這么好用爹谭，我們再來介紹一下它是如何使用枷邪。

首先，我們得確認(rèn)一下所要搜索的物種的拉丁文名稱诺凡，比如說豬东揣，因為是很常見的物種，所以在其拉丁文名后腹泌，包含了其英文名pig嘶卧。但你如果用sus scrofa來搜索會得到最準(zhǔn)確的結(jié)果，否則會得到大量的候選凉袱。

搜索完畢后芥吟。我們可以得到具體數(shù)據(jù)侦铜，比如蛋白數(shù)量26000種，編碼基因21000種钟鸵，這個時候我們可以有個預(yù)判：豬的蛋白質(zhì)組相對來說是比較完整的钉稍。在該搜索頁面中，有download選項棺耍，點擊后可以進入相應(yīng)的下載界面贡未，下載到本地，導(dǎo)入搜庫軟件中蒙袍，就可以使用了俊卤。

Tips：

目前在UniProt Proteomes數(shù)據(jù)庫里，有reference proteome（數(shù)據(jù)庫里會用R標(biāo)簽來表示）的物種目前有5862種害幅。另外51999種物種有proteome但是沒有reference消恍，說明其數(shù)據(jù)相對來說還不夠全面。

總結(jié)

此次分享了蛋白質(zhì)組學(xué)網(wǎng)絡(luò)大課堂前面四節(jié)重要的綜述&基礎(chǔ)課以现，涵蓋了實驗狠怨、儀器及數(shù)據(jù)分析等各個方面，希望對大家入門有所幫助叼风。

最后編輯于：2019.11.28 14:51:27

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末取董，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子无宿，更是在濱河造成了極大的恐慌，老刑警劉巖枢里，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件孽鸡，死亡現(xiàn)場離奇詭異，居然都是意外死亡栏豺，警方通過查閱死者的電腦和手機彬碱，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來奥洼，“玉大人巷疼，你說我怎么就攤上這事×榻保” “怎么了嚼沿？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長瓷患。經(jīng)常有香客問我骡尽，道長，這世上最難降的妖魔是什么擅编？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任攀细，我火速辦了婚禮箫踩，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘谭贪。我一直安慰自己境钟，他們只是感情好，可當(dāng)我...
茶點故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布俭识。她就那樣靜靜地躺著吱韭，像睡著了一般。火紅的嫁衣襯著肌膚如雪鱼的。梳的紋絲不亂的頭發(fā)上理盆，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天，我揣著相機與錄音凑阶，去河邊找鬼猿规。笑死，一個胖子當(dāng)著我的面吹牛宙橱，可吹牛的內(nèi)容都是我干的姨俩。我是一名探鬼主播，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼师郑，長吁一口氣：“原來是場噩夢啊……” “哼环葵！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起宝冕，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤张遭，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后地梨，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體菊卷，經(jīng)...
沈念sama閱讀 43,400評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年宝剖，在試婚紗的時候發(fā)現(xiàn)自己被綠了洁闰。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡万细，死狀恐怖扑眉，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情赖钞，我是刑警寧澤腰素，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站仁烹，受9級特大地震影響耸弄，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜卓缰，卻給世界環(huán)境...
茶點故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一计呈、第九天我趴在偏房一處隱蔽的房頂上張望砰诵。院中可真熱鬧，春花似錦捌显、人聲如沸茁彭。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案扶歪，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽理肺。三九已至，卻和暖如春善镰，著一層夾襖步出監(jiān)牢的瞬間妹萨，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工炫欺，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留乎完，地道東北人。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓品洛，卻偏偏與公主長得像树姨，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子桥状，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,722評論 2贊 345

蛋白質(zhì)組學(xué)數(shù)據(jù)分析基礎(chǔ)（三）

推薦閱讀更多精彩內(nèi)容