說明:此篇筆記系2016-2017年由克里克學院與康昱盛主辦的蛋白質組學網絡大課堂整理而成,侵刪。該課程由上海易算生物科技有限公司CEO沈誠頻博士所授。
主要知識點:
--DIA數據非依賴性采集
--搜庫原理及技巧
--蛋白質組學相關的數據庫及使用方法
--總結
DIA數據非依賴采集
在上一篇推文,小編不止一次提到了DIA技術。那么侮叮,到底什么是DIA技術呢?我們來簡單地介紹一下吧悼瘾。
DIA囊榜,就是指數據非依賴性采集审胸。與DDA(數據依賴性采集)相對應。
你肯定很想知道卸勺,到底是怎么個非依賴呢砂沛?
我們先說DDA模式,就是數據依賴性采集曙求,它有一個質譜內部的選擇過程碍庵。當前掃描到的一堆母離子,哪一個會被選擇進入后面的二級碎裂悟狱,是根據它的信息強度静浴,通常是以從強到弱的順序去解析,并動態(tài)排除時間挤渐,也就是判斷這張譜圖在前一秒鐘或者前十秒鐘有沒有解析過苹享,如果解析過,那么就跳過挣菲,去解析沒有解析過的富稻。這就是DDA大致的原理。
想像一下白胀,如果我們的樣品非常復雜,一個峰一個峰去選擇的話抚岗,很可能會漏掉一些有用的信息或杠,造成我們譜圖解析的不完整,而且質譜不可能在重復實驗里選擇完全一樣的離子順序宣蔚,于是又會造成結果重復性不夠高的問題向抢。于是,DIA方法被發(fā)明出來胚委,用于解決DDA原理的部分缺陷挟鸠。
DIA模式就是在MS1掃描時,對碎裂的母離子不做任何篩選亩冬,而是傻瓜化地直接開一個非常大的窗口艘希,讓落在這個范圍內的母離子全部進入二級碎裂。這個窗口開多大硅急,是根據儀器和軟件的設置會有不同覆享,比如說10或15個道爾頓。
由于DIA是一次性放了一堆母離子進來营袜,同時碎裂撒顿,所以對于DIA來說,不是一張譜圖對應一個母離子荚板,而是一堆譜圖對應一堆來自多個母離子的碎片離子混合物凤壁。因此吩屹,我們不可能通過對二級譜圖的解析來得到一個一個的母離子。
那我們應該如何解析呢拧抖?我們用DIA二級譜圖與平行實驗中的DDA的二級譜圖進行比對煤搜,從中抽取出相同的二級信號,拿這些數據來進行DIA數據的定性以及相應的定量徙鱼,而這個定量就是依賴于MS2的信號強度宅楞。
Tips:
平行的DDA實驗需要前期色譜分離做得很好,并且用高精度高通量的質譜儀來完成袱吆。
搜庫原理
我們再回到質譜數據分析的流程上厌衙。下圖是一個簡單的搜庫過程,左邊是wet lab實驗绞绒,右邊是計算機處理的過程婶希,
蛋白樣品酶解后得到復雜的肽段混合物,經過色譜分離蓬衡,進入質譜喻杈,得到一級及二級離子信息。我們在搜庫時狰晚,輸入的是上萬張二級譜圖筒饰,以及相應的一級譜圖信號,和母離子的精確質荷比壁晒。
那么瓷们,我們軟件主要干哪些事情呢?
首先我們需要準備一個數據庫(如果是de novo從頭預測蛋白序列秒咐,則不需要準備)谬晕。
比如我們拿到人類的數據庫,軟件會根據我們設定的參數進行理論酶切携取。比如我們告訴軟件此次試驗用的是trypsin酶切攒钳,那么軟件也會對每條蛋白序列的trypsin酶切位點進行斷裂,與實驗中的被處理的蛋白序列保持一致雷滋。
假設不撑,我們將人的兩萬個蛋白進行理論酶切,會生成兩百萬個理論肽惊豺,這些理論肽又會生成理論b-y離子燎孟,得到理論的譜圖。
下圖右下角就是一個理論b-y離子譜圖爆侣,可以看到,這樣一個譜圖兔仰,里面每一個離子的信號強度是很高的茫负,而且是相同的。雖然有一些比較新的軟件嘗試進行理論強度的預測忍法,但目前來講還不算非常主流饿序。
接下來,將理論的b-y離子譜圖和通過質譜實際得到的譜圖進行比對羹蚣。
比對過程相對而言比較復雜原探。簡單來說,類似于給你一堆照片顽素,然后一堆真人胁出,讓你來判斷哪張照片是哪個人的甘畅,軟件做的就是類似的一個過程蔑担。
因此,生成理論酶切庫,以及選擇一個合適的肽段庫辽旋,就跟我們識別照片去認人是一樣的补胚。選擇的庫越準確码耐,篩選的速度和準確性就越高。也就是說要選擇一個合適的搜庫空間溶其。
確定好合適的搜庫空間后骚腥,我們會拿到與質譜數據相對比較貼近的理論肽段的數據列表,這些理論肽段的原子量都是可以預測出來的瓶逃,一般來說根據肽段強度從幾百到幾千都會有一個列表束铭。
質譜的原始譜圖也會有相應的質荷比的列表,我們將這些質荷比按其電荷數還原成道爾頓厢绝,也會拿到一張表契沫。將這兩張表進行比對,這就是我們搜庫軟件做的核心工作昔汉,這也是設置母離子的容差懈万,即MS1的tolerance非常重要的原因。
以Orbitrap舉例,它的MS1的分辨率可以達到十幾萬或者二三十萬钞速,那么相應的母離子的質量容差就可以是5ppm甚至更小贷掖,所以,高分辨的好處就是可以把理論候選肽段的質量范圍縮小到一個非常窄的范圍渴语,讓匹配更加準確苹威。
舉例來說,如果母離子是1000Da±3ppm驾凶,那么理論候選肽就可能從上百種縮小到十種或者幾種牙甫,再去進行比對,這樣做的速度和靈敏度就會提高很多调违。但是如果你縮減到一個不太合理的范圍窟哺,比如你的質譜分辨率是±10ppm,但是你卻用1ppm去搜技肩,那么很有可能正確的候選肽段都沒有能夠落到這個范圍供你篩選且轨,所得到的都是一堆錯誤的結果。軟件是無法判斷選進來的是否包含正確的序列虚婿,它仍然會進行打分給出結果旋奢,這就會造成一定的假陽性。
我們知道然痊,搜庫軟件會對鑒定到的結果進行打分至朗。那么這個分數是怎么來的呢?我們主要介紹一種常用的打分算法剧浸,即基于概率的打分锹引。
為什么大多數搜庫軟件都要將搜庫的比對過程用概率的算法進行匹配呢?這是因為唆香,無論軟件或者儀器嫌变,都不是上帝,我們無從知道所得到的譜圖是不是是一個真正的肽段躬它,或者說一定是來自于這個數據庫中的某一個肽段初澎。就算我們用BSA標準蛋白去做,也可能有一些雜峰或者錯誤匹配虑凛。所以這不是一個絕對的準確的答案。
因此軟件需要對結果進行評價软啼,來評估什么樣的譜圖更可能的是一個正確的肽段匹配桑谍,這就是基于概率打分的基本原理,即祸挪,將我們的實驗測量值與候選多肽序列的理論值進行匹配锣披。
實驗測量值只有一張譜圖,而候選多肽序列可能有10張甚至100張譜圖,只要我們把道爾頓或ppm設置的足夠斜⒎隆(因為氨基酸只有20種)增热,那么其排列組合都會落到一個差不多的范圍之內。因此理論候選多肽序列一般來說不止一種胧辽,而是會有十幾種或者二三十種峻仇。軟件會對各個結果進行比對,根據打分給出一個排列組合邑商。
然而摄咆,得分值并不能準確地反映這個結果是不是一個正確的。所以我們會將它進行一個概率的轉換人断,不同的軟件用不同的算法會進行正確概率的計算吭从,然后設定一個隨機匹配的閾值,通常我們認為低于這個概率閾值的匹配恶迈,才是正確的匹配涩金。
比如說p-value或者expectation-value小于0.05,或者說更嚴格的0.01暇仲,我們才認為這個結果是可靠的步做。也就是說現在的軟件都會去計算相應的統(tǒng)計值。原理類似于高考考試熔吗,100人參加辆床,我們認為考試分數得第一名的,且與第二名有相當大的分數差距的人桅狠,才是我們要尋找的那個人讼载。
Tips:
關于p值等統(tǒng)計學參數的含義,感興趣的小伙伴們可以參考以下的推文:
p值中跌、E值咨堤、FDR、q值…你暈菜了嗎漩符?
在質譜鑒定的過程中一喘,以下圖來舉例。大家會發(fā)現高強度的b-y離子譜峰都匹配上了嗜暴,那么你覺得這張譜圖的氨基酸序列vvllatgenk是不是一個正確匹配呢凸克?
絕大多數人都會覺得此結果不錯,應該是一個正確匹配闷沥。在Mascot軟件中萎战,這個結果的得分是35分,很多人認為25或者30分以上就是一個準確的結果舆逃。那這個結果到底是不是對的呢蚂维?
我們再來看下圖的另外一個結果戳粒。下面這張譜圖中,vvligdsgvgk這個肽段對于b-y離子的匹配更加豐富虫啥,看上去更加完整準確蔚约。事實上也是如此,它的得分達到了80分(Ions score)涂籽,e-value是3.1X10-5苹祟!
真是不比不知道,一比嚇一跳又活,先前的35分可以說是一個很差的匹配了苔咪,而這個80分的結果才是一個真正準確的匹配。
從上面這個例子柳骄,大家應該能直觀地感受到团赏,在搜庫軟件中,即便得到一個得分看上去還不錯的結果耐薯,也并不表示就是正確的匹配舔清,而是需要進行可信度評估,才可能找出真正正確的匹配曲初。
對于如何計算出一個匹配是正確匹配的概率体谒,我們使用基于probability原理的算法。這個算法絕大多數的搜庫軟件中都會使用臼婆,比如Mascot抒痒。那么,它的基本思路是怎樣的呢颁褂?
分兩種情況故响。
首先,如果有一個標準品颁独,并且我知道它的絕對成分彩届,也就是說它不存在任何雜質的時候,我們可以說這樣一個匹配是確定一定及肯定正確的誓酒!但是如果說樣品的組成相對比較復雜樟蠕,無法完全知道里面是什么東西,那么如何定義結果的準確性靠柑,就需要用到更加穩(wěn)妥的參數或者實驗設計寨辩,并且要更加穩(wěn)妥的去定義正確的閾值到底是多少。
有的小伙伴可能會問這樣的問題:是否可以建立一個目標蛋白的序列數據庫來提高鑒定靈敏度呢歼冰?對這個問題感興趣的小伙伴捣染,請戳如下推文延展閱讀:
我們先來看看下圖,這是一個實際的例子停巷。這張譜圖所有匹配的肽段的候選列表都已給出耍攘,大家可以看到1到4名分別是99,82,66,45.6分,除了99分的結果畔勤,看上去82和66分也都不錯蕾各。但事實上,除了99分那條庆揪,后面匹配到的序列其實都是不正確的式曲。
把剛才所說的過程換成下面這張示意圖,大家可能更容易理解缸榛。圖上紅色的點是正確的匹配吝羞,剩下藍色的點,就是我們剛才例子里說的除了99分以外的其它打分結果内颗。
我們應該如何來評價紅色的點就是正確的匹配結果呢钧排?其實就是從統(tǒng)計分布圖中來評判。假設紅色的點和剩下的藍色點的打分結果并沒有顯著的差異均澳,比如絕大多數結果都在20到25分之間恨溜,那么我們認為這里面沒有一個結果是可信的!
假設有一個結果是25分找前,而其余結果都是15分甚至更低糟袁,那么我們會認為這個25分的匹配是一個更加可信的結果。那么我們可不可以認為它一定是準確的呢躺盛?實事求是而言项戴,也不一定,也有可能真正正確的序列并沒有被放進數據庫里搜索槽惫,如果放進去可能會出現一個明顯高于25分的結果(大多數情況下周叮,25分是一個比較差的得分)。
這就引出另一個問題躯枢,即數據庫的選擇则吟!其實,過大或者過小的數據庫都不是合理的選擇锄蹂。數據庫過大氓仲,搜庫時間很大,復雜度變大得糜,得到隨機錯誤匹配的概率變大敬扛;數據庫過小,容易遺漏真正的目標序列朝抖,得不到正確的結果啥箭。
隨著生物信息學的反展,對于結果的過濾已經引入了更多的算法治宣,比如FDR算法等等急侥。具體算法思路我們在后續(xù)課程中還會展開講解砌滞。
蛋白質數據庫
介紹完搜庫原理,我們接下來介紹一些蛋白質數據庫的知識坏怪。先來個總表贝润,大家感受一下:
1:序列數據庫
目前來說,用的最多的是UniProt KB铝宵,該數據庫來自歐洲生物信息學中心打掘。其次是美國的NCBI Genebank。這兩個數據庫搜集了全世界已公布的所有物種的蛋白質序列鹏秋。如果實在搜不到結果尊蚁,還可以用EST標簽或者自己去測序,只是自己測序無法保證蛋白的完整程度侣夷。
2:注釋數據庫
鑒定到蛋白只是萬里長征的第一步横朋,后面我們還需要對蛋白進行注釋,比如我們最常用到的Gene Ontology惜纸。人類蛋白數據庫已經注釋得很完整叶撒,而有的物種注釋不夠完整或者說注釋得比較差的情況下,則需要通過同源性序列來間接注釋耐版。
3:蛋白相互作用數據庫
當需要進一步研究蛋白的功能及作用機理時祠够,常常需要了解蛋白-蛋白或蛋白-小分子相互作用,有很多收集蛋白相互作用的數據庫可以供我們搜索粪牲,或者繪制互作網絡古瓤。
4:生物通路分析數據庫
比如大名鼎鼎的KEGG等工具,還有一些有偏好性的數據庫腺阳,比如專門針對代謝通路的BioCyc落君,或者針對人類(及大鼠和小鼠)物種的IPA等。
5:蛋白質組學數據庫
當我們完成了從搜庫亭引、注釋绎速,到機理分析的一系列功能,并完成了生物學實驗驗證焙蚓,打算發(fā)表文章了纹冤。有一些蛋白質組學領域的雜志,比如JPR购公、MCP等萌京,會要求我們將數據結構上傳到指定的數據庫中,用于共享或是同行的質量審查宏浩。目前來說用的最多的是ProteomeXchange知残,ProteomeDB,和iProx這三個數據庫比庄。iprox是中國國家蛋白質中心建立的求妹。另外一些蛋白質組學相關的數據庫乏盐,以及發(fā)表在CNS上的大規(guī)模數據,有一些組織也會將其搜集起來制恍,做人的human protein atlas丑勤,比如GeneCards就是整合得很好的綜合性數據庫,我們可以在其中查到別人做過的詳細結果數據吧趣。
這么多種類繁雜的數據庫,相互之間的數據信息有怎樣的聯(lián)系呢耙厚?下面這張圖告訴你答案:
可以這樣說强挫,所有的信息,最初都是從基因組出發(fā)的薛躬「┎常基因組的數據是來自INSDC(全世界最大的基因組合作機構)發(fā)布的各個物種的基因數據芋绸,其中NCBI會將其搜集到GenBank里简珠,EBI搜集到EnsemblGenomes里。GenBank中測序完整且注釋完整的數據會放到RefSeq中咬腕。
KEGG在生物通路中用的很多趴酣,其實它也是一個搜集各類基因和小分子的數據庫梨树,它的pathway數據是平常我們用得最多的,其相對來說是比較權威的岖寞。其實一些常用的數據庫抡四,大家也可以從圖里了解它們的數據來源,以及相互的關聯(lián)仗谆。
當然指巡,我們做蛋白鑒定的時候,最關心的還是蛋白序列數據庫隶垮。全球兩大知名的序列數據庫藻雪,一個是NCBI,一個是EBI狸吞。先介紹下NCBI數據庫勉耀。在NCBI里可以搜索到各種各樣的信息,各種和生化以及組學相關的數據庫都可以整合到NCBI中捷绒。NCBI支持的數據格式包括NCBI GI瑰排、GenBank ID、RefSeq ID暖侨,以及Entrez ID等椭住。
NCBI的NCBInr非冗余數據庫是搜庫時常常會用到的,但它的問題在于NCBI內部數據的一致性比較差字逗,它搜集了各種來源的數據京郑,格式都不一樣宅广,后續(xù)會發(fā)現,搜集到NCBInr之后些举,同一個基因編碼的蛋白會搜到好多個版本跟狱。
2016年,NCBI將gi號取消了户魏,換成了GenBank ID驶臊,此過程十分艱難,很多軟件都要對其進行相應的轉換叼丑,也給使用者帶來了很多不便关翎。因此個人建議,還是先在UniProt庫里搜索鸠信。如果從UniProt里實在找不到的序列信息纵寝,再去NCBInr里搜索。
Tips:
雖然UniProt主要搜集的是蛋白信息星立,但是它與相當多的注釋數據庫爽茴,如GO,KEGG等等绰垂,都有交叉合作室奏。因此UniProt中的注釋信息是相當完整的。
但是NCBI的優(yōu)勢也是非常明顯的辕坝,就是它的數據信息非常全面窍奋!從下圖可以看出,在過去的7年時間里酱畅,NCBI包含的核酸序列琳袄、蛋白序列和基因信息均有爆發(fā)式的增長。這歸功于近年來基因組和轉錄組技術的發(fā)展纺酸。其中很多是中國人做出的貢獻窖逗。
剛剛我們也提到了NCBI的問題,那么它的缺點對我們搜庫有什么影響呢餐蔬?
舉個例子碎紊。
比如有一次我們做某種橘子的蛋白鑒定,在NCBI中搜索樊诺,如果用NCBInr(非冗余)來搜仗考,你會得到88138條蛋白序列,但其中有21%的序列是完全一樣的词爬,原因就是其包含的數據來源太多了秃嗜!如果我們用GenBank,就會發(fā)現只有15%的冗余(GenBank也不是單一來源的數據庫,它自己也有好幾個注釋序列的來源)锅锨。
而當我們選用UniProt的話叽赊,發(fā)現結果里沒有冗余!這就是UniProt的好處 必搞,幫我們進行了前期蛋白數據庫的過濾和準備必指。這就是我們推薦優(yōu)先使用UniProt的原因。
事實上恕洲,現在用UniProt的人越來越多了塔橡。它是目前世界上最大最完整的蛋白數據庫,其來源非常多霜第,比如有GenBank谱邪,EMBL-Bank,DDBJ等的coding sequences都會成為其收集來源庶诡。
它的收集一樣會存在如同NCBI的問題,會有冗余或者說數據來源太過于復雜咆课,導致蛋白序列有各種的版本末誓。所有UniProtKB中有一個最大的版本TrEMBL(它搜集的信息來源也很雜,所有蛋白數有6400多萬種)书蚪,不建議大家在用序列數據庫的時候直接用TrEMBL搜庫喇澡,因為沒有去過冗余。另外一個子庫Proteomes殊校,包含了比較全的物種(目前有5000多種)晴玖。如果有reference參考序列的蛋白質組,這些物種的冗余度是非常低的为流,用于我們蛋白質組學的研究就非常適合呕屎。
Tips:
Swiss-Prot是經過人工注釋和review的數據庫,它只有55萬種蛋白敬察。但是除了人類和小鼠蛋白質數據庫因為研究得很廣泛比較全面以外秀睛,剩下的各個物種都不是很全面。因此建議除了人類和小鼠外莲祸,別的物種不要直接采用swiss-prot搜庫蹂安。
如果從NCBI或者UniProt里都沒搜索到你想要的蛋白質序列,那么可以嘗試使用這些物種的EST锐帜。它們雖然不太完整田盈,但是會比較豐富,也就是說研究對象還沒用經過大規(guī)模的基因組測序缴阎,來自于小規(guī)模機構或個人提供的RNA sequence序列信息允瞧。先對其按照coding的序列格式進行氨基酸轉換后搜庫。也就是說當我們只有mRNA或者coding sequence,但沒有進行DNA sequence的序列進行拼接的話瓷式,那么只能用這樣的數據庫替饿。
說了這么多,我們來小結一下數據庫的選擇:UniProt Proteomes是第一優(yōu)先級贸典,除了人和小鼠可以用Swiss-Prot更好以外视卢,其余所有物種都優(yōu)先用Proteomes,第二優(yōu)先級GenBank/NCBInr廊驼,用于少數UniProt沒有收集到的物種据过。
既然UniProt這么好用,我們再來介紹一下它是如何使用妒挎。
首先绳锅,我們得確認一下所要搜索的物種的拉丁文名稱,比如說豬酝掩,因為是很常見的物種鳞芙,所以在其拉丁文名后,包含了其英文名pig期虾。但你如果用sus scrofa來搜索會得到最準確的結果原朝,否則會得到大量的候選。
搜索完畢后镶苞。我們可以得到具體數據喳坠,比如蛋白數量26000種,編碼基因21000種茂蚓,這個時候我們可以有個預判:豬的蛋白質組相對來說是比較完整的壕鹉。在該搜索頁面中,有download選項聋涨,點擊后可以進入相應的下載界面晾浴,下載到本地,導入搜庫軟件中牍白,就可以使用了怠肋。
Tips:
目前在UniProt Proteomes數據庫里,有reference proteome(數據庫里會用R標簽來表示)的物種目前有5862種淹朋。另外51999種物種有proteome但是沒有reference笙各,說明其數據相對來說還不夠全面。
總結
此次分享了蛋白質組學網絡大課堂前面四節(jié)重要的綜述&基礎課础芍,涵蓋了實驗杈抢、儀器及數據分析等各個方面,希望對大家入門有所幫助仑性。
后面課程的修飾蛋白組惶楼、靶向蛋白、代謝組學、多肽組及多組學等內容沒有總結筆記歼捐,自己有時間了再給他填填坑何陆。