2019-11-12聽(tīng)課筆記之蛋白質(zhì)組學(xué)數(shù)據(jù)分析基礎(chǔ)(三)

轉(zhuǎn)發(fā)自http://crickcollege.com/news/240.html

寫在前面
蛋白質(zhì)組學(xué)網(wǎng)絡(luò)大課堂第四講汁果,講到了很多小伙伴非常關(guān)心的問(wèn)題:如何針對(duì)高通量蛋白質(zhì)譜數(shù)據(jù)進(jìn)行搜庫(kù)和鑒定众羡。這么重要的課程,當(dāng)然不容錯(cuò)過(guò)痕慢,小編也按以往慣例,整理了詳細(xì)的聽(tīng)課筆記舍哄,分享給大家钓猬。

聽(tīng)課筆記之蛋白質(zhì)組學(xué)研究方法概述(下)
聽(tīng)課筆記之蛋白質(zhì)組學(xué)樣品前處理(四)
聽(tīng)課筆記之蛋白質(zhì)質(zhì)譜的原理及使用(四)

授課老師
這次課程的授課老師沈誠(chéng)頻博士氛改,2005年畢業(yè)于復(fù)旦大學(xué)化學(xué)系帐萎,獲得理學(xué)學(xué)士學(xué)位;同年保送至復(fù)旦大學(xué)生物醫(yī)學(xué)研究院攻讀博士學(xué)位胜卤,師從復(fù)旦大學(xué)生物醫(yī)學(xué)研究院常務(wù)副院長(zhǎng)楊芃原教授疆导,2011年獲得理學(xué)博士學(xué)位,攻讀博士學(xué)位期間葛躏,作為訪問(wèn)學(xué)者于2009年-2011年前往美國(guó)麻省理工大學(xué)生物工程系交流學(xué)習(xí)澈段。主要開(kāi)展的工作包括:人肝蛋白質(zhì)組學(xué),蛋白質(zhì)組學(xué)信息學(xué)舰攒,糖蛋白質(zhì)組學(xué)败富。于2011年作為應(yīng)用科學(xué)家加盟康昱盛信息科技有限公司生物信息學(xué)部,主要負(fù)責(zé)蛋白質(zhì)組學(xué)及生物通路分析軟件和方法的技術(shù)支持及方案咨詢芒率。后創(chuàng)立上海易算生物科技有限公司囤耳,任CEO篙顺。

(文中所有圖片均來(lái)自沈誠(chéng)頻老師的講義偶芍,并獲得發(fā)表授權(quán)。)

DIA數(shù)據(jù)非依賴采集
在上一篇推文德玫,小編不止一次提到了DIA技術(shù)匪蟀。那么,到底什么是DIA技術(shù)呢宰僧?我們來(lái)簡(jiǎn)單地介紹一下吧材彪。

DIA,就是指數(shù)據(jù)非依賴性采集琴儿。與DDA(數(shù)據(jù)依賴性采集)相對(duì)應(yīng)段化。

你肯定很想知道,到底是怎么個(gè)非依賴呢造成?

我們先說(shuō)DDA模式显熏,就是數(shù)據(jù)依賴性采集,它有一個(gè)質(zhì)譜內(nèi)部的選擇過(guò)程晒屎。當(dāng)前掃描到的一堆母離子喘蟆,哪一個(gè)會(huì)被選擇進(jìn)入后面的二級(jí)碎裂,是根據(jù)它的信息強(qiáng)度鼓鲁,通常是以從強(qiáng)到弱的順序去解析蕴轨,并動(dòng)態(tài)排除時(shí)間,也就是判斷這張譜圖在前一秒鐘或者前十秒鐘有沒(méi)有解析過(guò)骇吭,如果解析過(guò)橙弱,那么就跳過(guò),去解析沒(méi)有解析過(guò)的。這就是DDA大致的原理膘螟。

想像一下成福,如果我們的樣品非常復(fù)雜,一個(gè)峰一個(gè)峰去選擇的話荆残,很可能會(huì)漏掉一些有用的信息奴艾,造成我們譜圖解析的不完整,而且質(zhì)譜不可能在重復(fù)實(shí)驗(yàn)里選擇完全一樣的離子順序内斯,于是又會(huì)造成結(jié)果重復(fù)性不夠高的問(wèn)題蕴潦。于是,DIA方法被發(fā)明出來(lái)俘闯,用于解決DDA原理的部分缺陷潭苞。

DIA模式就是在MS1掃描時(shí),對(duì)碎裂的母離子不做任何篩選真朗,而是傻瓜化地直接開(kāi)一個(gè)非常大的窗口此疹,讓落在這個(gè)范圍內(nèi)的母離子全部進(jìn)入二級(jí)碎裂。這個(gè)窗口開(kāi)多大遮婶,是根據(jù)儀器和軟件的設(shè)置會(huì)有不同蝗碎,比如說(shuō)10或15個(gè)道爾頓。

由于DIA是一次性放了一堆母離子進(jìn)來(lái)旗扑,同時(shí)碎裂蹦骑,所以對(duì)于DIA來(lái)說(shuō),不是一張譜圖對(duì)應(yīng)一個(gè)母離子臀防,而是一堆譜圖對(duì)應(yīng)一堆來(lái)自多個(gè)母離子的碎片離子混合物眠菇。因此,我們不可能通過(guò)對(duì)二級(jí)譜圖的解析來(lái)得到一個(gè)一個(gè)的母離子袱衷。

那我們應(yīng)該如何解析呢捎废?我們用DIA二級(jí)譜圖與平均實(shí)驗(yàn)中的DDA的二級(jí)譜圖進(jìn)行比對(duì),從中抽取出相同的二級(jí)信號(hào)致燥,拿這些數(shù)據(jù)來(lái)進(jìn)行DIA數(shù)據(jù)的定性以及相應(yīng)的定量登疗,而這個(gè)定量就是依賴于MS2的信號(hào)強(qiáng)度。
Tips
平行的DDA實(shí)驗(yàn)需要前期色譜分離做得很好篡悟,并且用高精度高通量的質(zhì)譜儀來(lái)完成谜叹。

image

搜庫(kù)原理
我們?cè)倩氐劫|(zhì)譜數(shù)據(jù)分析的流程上。下圖是一個(gè)簡(jiǎn)單的搜庫(kù)過(guò)程搬葬,左邊是wet lab實(shí)驗(yàn)荷腊,右邊是計(jì)算機(jī)處理的過(guò)程,

蛋白樣品酶解后得到復(fù)雜的肽段混合物急凰,經(jīng)過(guò)色譜分離女仰,進(jìn)入質(zhì)譜猜年,得到一級(jí)及二級(jí)離子信息。我們?cè)谒褞?kù)時(shí)疾忍,輸入的是上萬(wàn)張二級(jí)譜圖乔外,以及相應(yīng)的一級(jí)譜圖信號(hào),和母離子的精確質(zhì)荷比一罩。

那么杨幼,我們軟件主要干哪些事情呢?

首先我們需要準(zhǔn)備一個(gè)數(shù)據(jù)庫(kù)(如果是de novo從頭預(yù)測(cè)蛋白序列聂渊,則不需要準(zhǔn)備)差购。

比如我們拿到人類的數(shù)據(jù)庫(kù),軟件會(huì)根據(jù)我們?cè)O(shè)定的參數(shù)進(jìn)行理論酶切汉嗽。比如我們告訴軟件此次試驗(yàn)用的是trypsin酶切欲逃,那么軟件也會(huì)對(duì)每條蛋白序列的trypsin酶切位點(diǎn)進(jìn)行斷裂,與實(shí)驗(yàn)中的被處理的蛋白序列保持一致饼暑。

假設(shè)稳析,我們將人的兩萬(wàn)個(gè)蛋白進(jìn)行理論酶切,會(huì)生成兩百萬(wàn)個(gè)理論肽弓叛,這些理論肽又會(huì)生成理論b-y離子彰居,得到理論的譜圖。

下圖右下角就是一個(gè)理論b-y離子譜圖邪码,可以看到裕菠,這樣一個(gè)譜圖咬清,里面每一個(gè)離子的信號(hào)強(qiáng)度是很高的闭专,而且是相同的。雖然有一些比較新的軟件嘗試進(jìn)行理論強(qiáng)度的預(yù)測(cè)旧烧,但目前來(lái)講還不算非常主流影钉。


image

接下來(lái),將理論的b-y離子譜圖和通過(guò)質(zhì)譜實(shí)際得到的譜圖進(jìn)行比對(duì)掘剪。

比對(duì)過(guò)程相對(duì)而言比較復(fù)雜平委。簡(jiǎn)單來(lái)說(shuō),類似于給你一堆照片夺谁,然后一堆真人廉赔,讓你來(lái)判斷哪張照片是哪個(gè)人的,軟件做的就是類似的一個(gè)過(guò)程匾鸥。

因此蜡塌,生成理論酶切庫(kù),以及選擇一個(gè)合適的肽段庫(kù)勿负,就跟我們識(shí)別照片去認(rèn)人是一樣的馏艾。選擇的庫(kù)越準(zhǔn)確,篩選的速度和準(zhǔn)確性就越高。也就是說(shuō)要選擇一個(gè)合適的搜庫(kù)空間琅摩。

確定好合適的搜庫(kù)空間后铁孵,我們會(huì)拿到與質(zhì)譜數(shù)據(jù)相對(duì)比較貼近的理論肽段的數(shù)據(jù)列表,這些理論肽段的原子量都是可以預(yù)測(cè)出來(lái)的房资,一般來(lái)說(shuō)根據(jù)肽段強(qiáng)度從幾百到幾千都會(huì)有一個(gè)列表蜕劝。

質(zhì)譜的原始譜圖也會(huì)有相應(yīng)的質(zhì)荷比的列表,我們將這些質(zhì)荷比按其電荷數(shù)還原成道爾頓轰异,也會(huì)拿到一張表熙宇。將這兩張表進(jìn)行比對(duì),這就是我們搜庫(kù)軟件做的核心工作溉浙,這也是設(shè)置母離子的容差烫止,即MS1的tolerance非常重要的原因。

以O(shè)rbitrap舉例戳稽,它的MS1的分辨率可以達(dá)到十幾萬(wàn)或者二三十萬(wàn)馆蠕,那么相應(yīng)的母離子的質(zhì)量容差就可以是5ppm甚至更小,所以惊奇,高分辨的好處就是可以把理論候選肽段的質(zhì)量范圍縮小到一個(gè)非常窄的范圍互躬,讓匹配更加準(zhǔn)確。

舉例來(lái)說(shuō)颂郎,如果母離子是1000Da±3ppm吼渡,那么理論候選肽就可能從上百種縮小到十種或者幾種,再去進(jìn)行比對(duì)乓序,這樣做的速度和靈敏度就會(huì)提高很多寺酪。但是如果你縮減到一個(gè)不太合理的范圍,比如你的質(zhì)譜分辨率是±10ppm替劈,但是你卻用1ppm去搜寄雀,那么很有可能正確的候選肽段都沒(méi)有能夠落到這個(gè)范圍供你篩選,所得到的都是一堆錯(cuò)誤的結(jié)果陨献。軟件是無(wú)法判斷選進(jìn)來(lái)的是否包含正確的序列盒犹,它仍然會(huì)進(jìn)行打分給出結(jié)果,這就會(huì)造成一定的假陽(yáng)性眨业。


image

我們知道急膀,搜庫(kù)軟件會(huì)對(duì)鑒定到的結(jié)果進(jìn)行打分。那么這個(gè)分?jǐn)?shù)是怎么來(lái)的呢龄捡?我們主要介紹一種常用的打分算法卓嫂,即基于概率的打分。

為什么大多數(shù)搜庫(kù)軟件都要將搜庫(kù)的比對(duì)過(guò)程用概率的算法進(jìn)行匹配呢墅茉?這是因?yàn)槊瑹o(wú)論軟件或者儀器呜呐,都不是上帝,我們無(wú)從知道所得到的譜圖是不是是一個(gè)真正的肽段悍募,或者說(shuō)一定是來(lái)自于這個(gè)數(shù)據(jù)庫(kù)中的某一個(gè)肽段蘑辑。就算我們用BSA標(biāo)準(zhǔn)蛋白去做,也可能有一些雜峰或者錯(cuò)誤匹配坠宴。所以這不是一個(gè)絕對(duì)的準(zhǔn)確的答案洋魂。

因此軟件需要對(duì)結(jié)果進(jìn)行評(píng)價(jià),來(lái)評(píng)估什么樣的譜圖更可能的是一個(gè)正確的肽段匹配喜鼓,這就是基于概率打分的基本原理副砍,即,將我們的實(shí)驗(yàn)測(cè)量值與候選多肽序列的理論值進(jìn)行匹配庄岖。

實(shí)驗(yàn)測(cè)量值只有一張譜圖豁翎,而候選多肽序列可能有10張甚至100張譜圖,只要我們把道爾頓或ppm設(shè)置的足夠杏绶蕖(因?yàn)榘被嶂挥?0種)心剥,那么其排列組合都會(huì)落到一個(gè)差不多的范圍之內(nèi)。因此理論候選多肽序列一般來(lái)說(shuō)不止一種背桐,而是會(huì)有十幾種或者二三十種优烧。軟件會(huì)對(duì)各個(gè)結(jié)果進(jìn)行比對(duì),根據(jù)打分給出一個(gè)排列組合链峭。

然而畦娄,得分值并不能準(zhǔn)確地反映這個(gè)結(jié)果是不是一個(gè)正確的。所以我們會(huì)將它進(jìn)行一個(gè)概率的轉(zhuǎn)換弊仪,不同的軟件用不同的算法會(huì)進(jìn)行正確概率的計(jì)算熙卡,然后設(shè)定一個(gè)隨機(jī)匹配的閾值,通常我們認(rèn)為低于這個(gè)概率閾值的匹配撼短,才是正確的匹配再膳。

比如說(shuō)p-value或者expectation-value小于0.05挺勿,或者說(shuō)更嚴(yán)格的0.01曲横,我們才認(rèn)為這個(gè)結(jié)果是可靠的。也就是說(shuō)現(xiàn)在的軟件都會(huì)去計(jì)算相應(yīng)的統(tǒng)計(jì)值不瓶。原理類似于高考考試禾嫉,100人參加,我們認(rèn)為考試分?jǐn)?shù)得第一名的蚊丐,且與第二名有相當(dāng)大的分?jǐn)?shù)差距的人熙参,才是我們要尋找的那個(gè)人。

Tips
關(guān)于p值等統(tǒng)計(jì)學(xué)參數(shù)的含義麦备,感興趣的小伙伴們可以參考以下的推文:

p值孽椰、E值昭娩、FDR、q值…你暈菜了嗎黍匾?

在質(zhì)譜鑒定的過(guò)程中栏渺,以下圖來(lái)舉例。大家會(huì)發(fā)現(xiàn)高強(qiáng)度的b-y離子譜峰都匹配上了锐涯,那么你覺(jué)得這張譜圖的氨基酸序列vvllatgenk是不是一個(gè)正確匹配呢磕诊?

絕大多數(shù)人都會(huì)覺(jué)得此結(jié)果不錯(cuò),應(yīng)該是一個(gè)正確匹配纹腌。在Mascot軟件中霎终,這個(gè)結(jié)果的得分是35分,很多人認(rèn)為25或者30分以上就是一個(gè)準(zhǔn)確的結(jié)果升薯。那這個(gè)結(jié)果到底是不是對(duì)的呢莱褒?


image

我們?cè)賮?lái)看下圖的另外一個(gè)結(jié)果。下面這張譜圖中涎劈,vvligdsgvgk這個(gè)肽段對(duì)于b-y離子的匹配更加豐富保礼,看上去更加完整準(zhǔn)確。事實(shí)上也是如此责语,它的得分達(dá)到了80分(Ions score)炮障,e-value是3.1X10-5!

真是不比不知道坤候,一比嚇一跳胁赢,先前的35分可以說(shuō)是一個(gè)很差的匹配了,而這個(gè)80分的結(jié)果才是一個(gè)真正準(zhǔn)確的匹配白筹。

從上面這個(gè)例子智末,大家應(yīng)該能直觀地感受到,在搜庫(kù)軟件中徒河,即便得到一個(gè)得分看上去還不錯(cuò)的結(jié)果系馆,也并不表示就是正確的匹配,而是需要進(jìn)行可信度評(píng)估顽照,才可能找出真正正確的匹配由蘑。


image

對(duì)于如何計(jì)算出一個(gè)匹配是正確匹配的概率,我們使用基于probability原理的算法代兵。這個(gè)算法絕大多數(shù)的搜庫(kù)軟件中都會(huì)使用尼酿,比如Mascot。那么植影,它的基本思路是怎樣的呢裳擎?

分兩種情況。

首先思币,如果有一個(gè)標(biāo)準(zhǔn)品鹿响,并且我知道它的絕對(duì)成分羡微,也就是說(shuō)它不存在任何雜質(zhì)的時(shí)候,我們可以說(shuō)這樣一個(gè)匹配是確定一定及肯定正確的惶我!但是如果說(shuō)樣品的組成相對(duì)比較復(fù)雜拷淘,無(wú)法完全知道里面是什么東西,那么如何定義結(jié)果的準(zhǔn)確性指孤,就需要用到更加穩(wěn)妥的參數(shù)或者實(shí)驗(yàn)設(shè)計(jì)启涯,并且要更加穩(wěn)妥的去定義正確的閾值到底是多少。

有的小伙伴可能會(huì)問(wèn)這樣的問(wèn)題:是否可以建立一個(gè)目標(biāo)蛋白的序列數(shù)據(jù)庫(kù)來(lái)提高鑒定靈敏度呢恃轩?對(duì)這個(gè)問(wèn)題感興趣的小伙伴结洼,請(qǐng)戳如下推文延展閱讀:

蛋白鑒定攻略之--搜庫(kù)只搜目標(biāo)序列?

我們先來(lái)看看下圖,這是一個(gè)實(shí)際的例子叉跛。這張譜圖所有匹配的肽段的候選列表都已給出松忍,大家可以看到1到4名分別是99,82,66,45.6分,除了99分的結(jié)果筷厘,看上去82和66分也都不錯(cuò)鸣峭。但事實(shí)上,除了99分那條酥艳,后面匹配到的序列其實(shí)都是不正確的摊溶。


image

把剛才所說(shuō)的過(guò)程換成下面這張示意圖,大家可能更容易理解充石。圖上紅色的點(diǎn)是正確的匹配莫换,剩下藍(lán)色的點(diǎn),就是我們剛才例子里說(shuō)的除了99分以外的其它打分結(jié)果骤铃。

我們應(yīng)該如何來(lái)評(píng)價(jià)紅色的點(diǎn)就是正確的匹配結(jié)果呢拉岁?其實(shí)就是從統(tǒng)計(jì)分布圖中來(lái)評(píng)判。假設(shè)紅色的點(diǎn)和剩下的藍(lán)色點(diǎn)的打分結(jié)果并沒(méi)有顯著的差異惰爬,比如絕大多數(shù)結(jié)果都在20到25分之間喊暖,那么我們認(rèn)為這里面沒(méi)有一個(gè)結(jié)果是可信的!

假設(shè)有一個(gè)結(jié)果是25分撕瞧,而其余結(jié)果都是15分甚至更低陵叽,那么我們會(huì)認(rèn)為這個(gè)25分的匹配是一個(gè)更加可信的結(jié)果。那么我們可不可以認(rèn)為它一定是準(zhǔn)確的呢风范?實(shí)事求是而言咨跌,也不一定,也有可能真正正確的序列并沒(méi)有被放進(jìn)數(shù)據(jù)庫(kù)里搜索硼婿,如果放進(jìn)去可能會(huì)出現(xiàn)一個(gè)明顯高于25分的結(jié)果(大多數(shù)情況下,25分是一個(gè)比較差的得分)。

這就引出另一個(gè)問(wèn)題髓废,即數(shù)據(jù)庫(kù)的選擇擒权!其實(shí)唯咬,過(guò)大或者過(guò)小的數(shù)據(jù)庫(kù)都不是合理的選擇酒奶。數(shù)據(jù)庫(kù)過(guò)大誓军,搜庫(kù)時(shí)間很大芳杏,復(fù)雜度變大瘦穆,得到隨機(jī)錯(cuò)誤匹配的概率變大栓撞;數(shù)據(jù)庫(kù)過(guò)小遍膜,容易遺漏真正的目標(biāo)序列,得不到正確的結(jié)果瓤湘。


image

隨著生物信息學(xué)的反展瓢颅,對(duì)于結(jié)果的過(guò)濾已經(jīng)引入了更多的算法,比如FDR算法等等弛说。具體算法思路我們?cè)诤罄m(xù)課程中還會(huì)展開(kāi)講解挽懦。

蛋白質(zhì)數(shù)據(jù)庫(kù)
介紹完搜庫(kù)原理,我們接下來(lái)介紹一些蛋白質(zhì)數(shù)據(jù)庫(kù)的知識(shí)木人。先來(lái)個(gè)總表信柿,大家感受一下:

image

1:序列數(shù)據(jù)庫(kù)
目前來(lái)說(shuō),用的最多的是UniProt KB醒第,該數(shù)據(jù)庫(kù)來(lái)自歐洲生物信息學(xué)中心渔嚷。其次是美國(guó)的NCBI Genebank。這兩個(gè)數(shù)據(jù)庫(kù)搜集了全世界已公布的所有物種的蛋白質(zhì)序列稠曼。如果實(shí)在搜不到結(jié)果圃伶,還可以用EST標(biāo)簽或者自己去測(cè)序,只是自己測(cè)序無(wú)法保證蛋白的完整程度蒲列。
2:注釋數(shù)據(jù)庫(kù)
鑒定到蛋白只是萬(wàn)里長(zhǎng)征的第一步窒朋,后面我們還需要對(duì)蛋白進(jìn)行注釋,比如我們最常用到的Gene Ontology蝗岖。人類蛋白數(shù)據(jù)庫(kù)已經(jīng)注釋得很完整侥猩,而有的物種注釋不夠完整或者說(shuō)注釋得比較差的情況下,則需要通過(guò)同源性序列來(lái)間接注釋抵赢。

3:蛋白相互作用數(shù)據(jù)庫(kù)
當(dāng)需要進(jìn)一步研究蛋白的功能及作用機(jī)理時(shí)欺劳,常常需要了解蛋白-蛋白或蛋白-小分子相互作用,有很多收集蛋白相互作用的數(shù)據(jù)庫(kù)可以供我們搜索铅鲤,或者繪制互作網(wǎng)絡(luò)划提。
4:生物通路分析數(shù)據(jù)庫(kù)
比如大名鼎鼎的KEGG等工具,還有一些有偏好性的數(shù)據(jù)庫(kù)邢享,比如專門針對(duì)代謝通路的BioCyc鹏往,或者針對(duì)人類(及大鼠和小鼠)物種的IPA等。

5:蛋白質(zhì)組學(xué)數(shù)據(jù)庫(kù)
當(dāng)我們完成了從搜庫(kù)骇塘、注釋伊履,到機(jī)理分析的一系列功能韩容,并完成了生物學(xué)實(shí)驗(yàn)驗(yàn)證,打算發(fā)表文章了唐瀑。有一些蛋白質(zhì)組學(xué)領(lǐng)域的雜志群凶,比如JPR、MCP等哄辣,會(huì)要求我們將數(shù)據(jù)結(jié)構(gòu)上傳到指定的數(shù)據(jù)庫(kù)中请梢,用于共享或是同行的質(zhì)量審查。目前來(lái)說(shuō)用的最多的是ProteomeXchange力穗,ProteomeDB毅弧,和iProx這三個(gè)數(shù)據(jù)庫(kù)。iprox是中國(guó)國(guó)家蛋白質(zhì)中心建立的睛廊。另外一些蛋白質(zhì)組學(xué)相關(guān)的數(shù)據(jù)庫(kù)形真,以及發(fā)表在CNS上的大規(guī)模數(shù)據(jù),有一些組織也會(huì)將其搜集起來(lái)超全,做人的human protein atlas咆霜,比如GeneCards就是整合得很好的綜合性數(shù)據(jù)庫(kù),我們可以在其中查到別人做過(guò)的詳細(xì)結(jié)果數(shù)據(jù)嘶朱。

這么多種類繁雜的數(shù)據(jù)庫(kù)蛾坯,相互之間的數(shù)據(jù)信息有怎樣的聯(lián)系呢?下面這張圖告訴你答案:


image

可以這樣說(shuō)疏遏,所有的信息脉课,最初都是從基因組出發(fā)的〔埔欤基因組的數(shù)據(jù)是來(lái)自INSDC(全世界最大的基因組合作機(jī)構(gòu))發(fā)布的各個(gè)物種的基因數(shù)據(jù)倘零,其中NCBI會(huì)將其搜集到GenBank里,EBI搜集到EnsemblGenomes里戳寸。GenBank中測(cè)序完整且注釋完整的數(shù)據(jù)會(huì)放到RefSeq中呈驶。

KEGG在生物通路中用的很多,其實(shí)它也是一個(gè)搜集各類基因和小分子的數(shù)據(jù)庫(kù)疫鹊,它的pathway數(shù)據(jù)是平常我們用得最多的袖瞻,其相對(duì)來(lái)說(shuō)是比較權(quán)威的。其實(shí)一些常用的數(shù)據(jù)庫(kù)拆吆,大家也可以從圖里了解它們的數(shù)據(jù)來(lái)源聋迎,以及相互的關(guān)聯(lián)。

當(dāng)然枣耀,我們做蛋白鑒定的時(shí)候霉晕,最關(guān)心的還是蛋白序列數(shù)據(jù)庫(kù)。全球兩大知名的序列數(shù)據(jù)庫(kù),一個(gè)是NCBI娄昆,一個(gè)是EBI佩微。先介紹下NCBI數(shù)據(jù)庫(kù)缝彬。在NCBI里可以搜索到各種各樣的信息萌焰,各種和生化以及組學(xué)相關(guān)的數(shù)據(jù)庫(kù)都可以整合到NCBI中。NCBI支持的數(shù)據(jù)格式包括NCBI GI谷浅、GenBank ID扒俯、RefSeq ID,以及Entrez ID等一疯。

NCBI的NCBInr非冗余數(shù)據(jù)庫(kù)是搜庫(kù)時(shí)常常會(huì)用到的撼玄,但它的問(wèn)題在于NCBI內(nèi)部數(shù)據(jù)的一致性比較差,它搜集了各種來(lái)源的數(shù)據(jù)墩邀,格式都不一樣掌猛,后續(xù)會(huì)發(fā)現(xiàn),搜集到NCBInr之后眉睹,同一個(gè)基因編碼的蛋白會(huì)搜到好多個(gè)版本荔茬。

2016年,NCBI將gi號(hào)取消了竹海,換成了GenBank ID慕蔚,此過(guò)程十分艱難,很多軟件都要對(duì)其進(jìn)行相應(yīng)的轉(zhuǎn)換斋配,也給使用者帶來(lái)了很多不便孔飒。因此個(gè)人建議,還是先在UniProt庫(kù)里搜索艰争。如果從UniProt里實(shí)在找不到的序列信息坏瞄,再去NCBInr里搜索。

Tips: 雖然UniProt主要搜集的是蛋白信息甩卓,但是它與相當(dāng)多的注釋數(shù)據(jù)庫(kù)鸠匀,如GO,KEGG等等猛频,都有交叉合作狮崩。因此UniProt中的注釋信息是相當(dāng)完整的。

但是NCBI的優(yōu)勢(shì)也是非常明顯的鹿寻,就是它的數(shù)據(jù)信息非常全面睦柴!從下圖可以看出,在過(guò)去的7年時(shí)間里毡熏,NCBI包含的核酸序列坦敌、蛋白序列和基因信息均有爆發(fā)式的增長(zhǎng)。這歸功于近年來(lái)基因組和轉(zhuǎn)錄組技術(shù)的發(fā)展。其中很多是中國(guó)人做出的貢獻(xiàn)狱窘。


image

剛剛我們也提到了NCBI的問(wèn)題杜顺,那么它的缺點(diǎn)對(duì)我們搜庫(kù)有什么影響呢?

舉個(gè)例子蘸炸。

比如有一次我們做某種橘子的蛋白鑒定躬络,在NCBI中搜索,如果用NCBInr(非冗余)來(lái)搜搭儒,你會(huì)得到88138條蛋白序列穷当,但其中有21%的序列是完全一樣的,原因就是其包含的數(shù)據(jù)來(lái)源太多了淹禾!如果我們用GenBank馁菜,就會(huì)發(fā)現(xiàn)只有15%的冗余(GenBank也不是單一來(lái)源的數(shù)據(jù)庫(kù),它自己也有好幾個(gè)注釋序列的來(lái)源)铃岔。

而當(dāng)我們選用UniProt的話汪疮,發(fā)現(xiàn)結(jié)果里沒(méi)有冗余!這就是UniProt的好處 毁习,幫我們進(jìn)行了前期蛋白數(shù)據(jù)庫(kù)的過(guò)濾和準(zhǔn)備智嚷。這就是我們推薦優(yōu)先使用UniProt的原因。

事實(shí)上蜓洪,現(xiàn)在用UniProt的人越來(lái)越多了纤勒。它是目前世界上最大最完整的蛋白數(shù)據(jù)庫(kù),其來(lái)源非常多隆檀,比如有GenBank摇天,EMBL-Bank,DDBJ等的coding sequences都會(huì)成為其收集來(lái)源恐仑。

它的收集一樣會(huì)存在如同NCBI的問(wèn)題泉坐,會(huì)有冗余或者說(shuō)數(shù)據(jù)來(lái)源太過(guò)于復(fù)雜,導(dǎo)致蛋白序列有各種的版本裳仆。所有UniProtKB中有一個(gè)最大的版本TrEMBL(它搜集的信息來(lái)源也很雜腕让,所有蛋白數(shù)有6400多萬(wàn)種),不建議大家在用序列數(shù)據(jù)庫(kù)的時(shí)候直接用TrEMBL搜庫(kù)歧斟,因?yàn)闆](méi)有去過(guò)冗余纯丸。另外一個(gè)子庫(kù)Proteomes,包含了比較全的物種(目前有5000多種)静袖。如果有reference參考序列的蛋白質(zhì)組觉鼻,這些物種的冗余度是非常低的,用于我們蛋白質(zhì)組學(xué)的研究就非常適合队橙。

Tips
Swiss-Prot是經(jīng)過(guò)人工注釋和review的數(shù)據(jù)庫(kù)坠陈,它只有55萬(wàn)種蛋白萨惑。但是除了人類和小鼠蛋白質(zhì)數(shù)據(jù)庫(kù)因?yàn)檠芯康煤軓V泛比較全面以外,剩下的各個(gè)物種都不是很全面仇矾。因此建議除了人類和小鼠外庸蔼,別的物種不要直接采用swiss-prot搜庫(kù)。

如果從NCBI或者UniProt里都沒(méi)搜索到你想要的蛋白質(zhì)序列贮匕,那么可以嘗試使用這些物種的EST姐仅。它們雖然不太完整,但是會(huì)比較豐富粗合,也就是說(shuō)研究對(duì)象還沒(méi)用經(jīng)過(guò)大規(guī)模的基因組測(cè)序萍嬉,來(lái)自于小規(guī)模機(jī)構(gòu)或個(gè)人提供的RNA sequence序列信息乌昔。先對(duì)其按照coding的序列格式進(jìn)行氨基酸轉(zhuǎn)換后搜庫(kù)隙疚。也就是說(shuō)當(dāng)我們只有mRNA或者coding sequence,但沒(méi)有進(jìn)行DNA sequence的序列進(jìn)行拼接的話磕道,那么只能用這樣的數(shù)據(jù)庫(kù)供屉。


image

說(shuō)了這么多,我們來(lái)小結(jié)一下數(shù)據(jù)庫(kù)的選擇:UniProt Proteomes是第一優(yōu)先級(jí)溺蕉,除了人和小鼠可以用Swiss-Prot更好以外伶丐,其余所有物種都優(yōu)先用Proteomes,第二優(yōu)先級(jí)GenBank/NCBInr疯特,用于少數(shù)UniProt沒(méi)有收集到的物種哗魂。

既然UniProt這么好用,我們?cè)賮?lái)介紹一下它是如何使用漓雅。


image

首先录别,我們得確認(rèn)一下所要搜索的物種的拉丁文名稱,比如說(shuō)豬邻吞,因?yàn)槭呛艹R?jiàn)的物種组题,所以在其拉丁文名后,包含了其英文名pig抱冷。但你如果用sus scrofa來(lái)搜索會(huì)得到最準(zhǔn)確的結(jié)果崔列,否則會(huì)得到大量的候選。


image

搜索完畢后旺遮。我們可以得到具體數(shù)據(jù)赵讯,比如蛋白數(shù)量26000種,編碼基因21000種耿眉,這個(gè)時(shí)候我們可以有個(gè)預(yù)判:豬的蛋白質(zhì)組相對(duì)來(lái)說(shuō)是比較完整的边翼。在該搜索頁(yè)面中,有download選項(xiàng)跷敬,點(diǎn)擊后可以進(jìn)入相應(yīng)的下載界面讯私,下載到本地热押,導(dǎo)入搜庫(kù)軟件中,就可以使用了斤寇。
Tips
目前在UniProt Proteomes數(shù)據(jù)庫(kù)里桶癣,有reference proteome(數(shù)據(jù)庫(kù)里會(huì)用R標(biāo)簽來(lái)表示)的物種目前有5862種。另外51999種物種有proteome但是沒(méi)有reference娘锁,說(shuō)明其數(shù)據(jù)相對(duì)來(lái)說(shuō)還不夠全面牙寞。

蛋白質(zhì)組學(xué)網(wǎng)絡(luò)大課堂第四課-蛋白質(zhì)組學(xué)數(shù)據(jù)分析基礎(chǔ)的聽(tīng)課筆記,小編已經(jīng)分享完畢莫秆。大伙兒有什么小觀點(diǎn)小建議间雀,直接在推文下面給小編留言吧~

這次網(wǎng)絡(luò)課程,小編為大伙兒分享了前面四節(jié)重要的綜述&基礎(chǔ)課镊屎,涵蓋了實(shí)驗(yàn)惹挟、儀器及數(shù)據(jù)分析的各個(gè)方面,希望對(duì)大家入門有所幫助缝驳。稍后小編也會(huì)將這四課的所有筆記做個(gè)歸類整理连锯,將所有鏈接放在一篇獨(dú)立的推文里,方便大伙兒閱讀用狱。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末运怖,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子夏伊,更是在濱河造成了極大的恐慌摇展,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件溺忧,死亡現(xiàn)場(chǎng)離奇詭異咏连,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)砸狞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門捻勉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人刀森,你說(shuō)我怎么就攤上這事踱启。” “怎么了研底?”我有些...
    開(kāi)封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵埠偿,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我榜晦,道長(zhǎng)冠蒋,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任乾胶,我火速辦了婚禮抖剿,結(jié)果婚禮上朽寞,老公的妹妹穿的比我還像新娘。我一直安慰自己斩郎,他們只是感情好脑融,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著缩宜,像睡著了一般肘迎。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上锻煌,一...
    開(kāi)封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天妓布,我揣著相機(jī)與錄音,去河邊找鬼宋梧。 笑死匣沼,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的乃秀。 我是一名探鬼主播肛著,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼跺讯!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起殉农,我...
    開(kāi)封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤刀脏,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后超凳,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體愈污,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年轮傍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了暂雹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡创夜,死狀恐怖杭跪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情驰吓,我是刑警寧澤涧尿,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站檬贰,受9級(jí)特大地震影響姑廉,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜翁涤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一桥言、第九天 我趴在偏房一處隱蔽的房頂上張望萌踱。 院中可真熱鬧,春花似錦号阿、人聲如沸虫蝶。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)能真。三九已至,卻和暖如春扰柠,著一層夾襖步出監(jiān)牢的瞬間粉铐,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工卤档, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蝙泼,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓劝枣,卻偏偏與公主長(zhǎng)得像汤踏,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子舔腾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容