轉(zhuǎn)發(fā)自http://crickcollege.com/news/238.html
聽(tīng)課筆記之蛋白質(zhì)組學(xué)數(shù)據(jù)分析基礎(chǔ)(一)
克里克學(xué)院新聞資訊2017-04-263530
聽(tīng)課筆記之蛋白質(zhì)組學(xué)數(shù)據(jù)分析基礎(chǔ)(一)
寫(xiě)在前面
不知不覺(jué),我們的聽(tīng)課筆記系列已經(jīng)來(lái)到第四課啦!這堂課講到了很多小伙伴非常關(guān)心的問(wèn)題:如何針對(duì)高通量蛋白質(zhì)譜數(shù)據(jù)進(jìn)行搜庫(kù)和鑒定吭狡。這么重要的課程荷荤,當(dāng)然不容錯(cuò)過(guò)饿悬,小編也按以往慣例久又,整理了詳細(xì)的聽(tīng)課筆記舷暮,分享給大家煞茫。
前三節(jié)課筆記分享:
聽(tīng)課筆記之蛋白質(zhì)組學(xué)研究方法概述(下)
聽(tīng)課筆記之蛋白質(zhì)組學(xué)樣品前處理(四)
聽(tīng)課筆記之蛋白質(zhì)質(zhì)譜的原理及使用(四)
授課老師
這次課程的授課老師沈誠(chéng)頻博士帕涌,2005年畢業(yè)于復(fù)旦大學(xué)化學(xué)系,獲得理學(xué)學(xué)士學(xué)位续徽;同年保送至復(fù)旦大學(xué)生物醫(yī)學(xué)研究院攻讀博士學(xué)位蚓曼,師從復(fù)旦大學(xué)生物醫(yī)學(xué)研究院常務(wù)副院長(zhǎng)楊芃原教授,2011年獲得理學(xué)博士學(xué)位钦扭,攻讀博士學(xué)位期間纫版,作為訪問(wèn)學(xué)者于2009年-2011年前往美國(guó)麻省理工大學(xué)生物工程系交流學(xué)習(xí)。主要開(kāi)展的工作包括:人肝蛋白質(zhì)組學(xué)客情,蛋白質(zhì)組學(xué)信息學(xué)其弊,糖蛋白質(zhì)組學(xué)。于2011年作為應(yīng)用科學(xué)家加盟康昱盛信息科技有限公司生物信息學(xué)部膀斋,主要負(fù)責(zé)蛋白質(zhì)組學(xué)及生物通路分析軟件和方法的技術(shù)支持及方案咨詢(xún)梭伐。后創(chuàng)立上海易算生物科技有限公司,任CEO仰担。
(文中所有圖片均來(lái)自沈誠(chéng)頻老師的講義糊识,并獲得發(fā)表授權(quán)。)
質(zhì)譜數(shù)據(jù)格式
話(huà)說(shuō)摔蓝,蛋白質(zhì)質(zhì)譜從十幾年前就形成了固定的數(shù)據(jù)結(jié)構(gòu)和格式÷该纾現(xiàn)在常用的搜庫(kù)格式,比如mascot的mgf贮尉,從十年前就基本固定下來(lái)拌滋。
到目前為止,質(zhì)譜界的數(shù)據(jù)格式因?yàn)閮x器的不同绘盟,有幾個(gè)不同的大類(lèi):
Thermo公司的raw文件格式鸠真,這是目前用得最多的一種格式
AB公司的WIFF格式,
Bruker的yep/.fid
Waters的folder
Agilent的folder
Notes
MALDI MS目前應(yīng)用越來(lái)越少龄毡,而且基本上不用于shotgun或者高通量研究吠卷。
這些數(shù)據(jù)格式的擴(kuò)展名有一定的差別,且原始數(shù)據(jù)里包含的內(nèi)容也有所不同沦零。具體包含哪些重要的信息祭隔,稍后我們還會(huì)詳細(xì)講到。
結(jié)果報(bào)告的質(zhì)控
數(shù)據(jù)分析,最終都是為了拿到一個(gè)可信的結(jié)果疾渴。所以千贯,我們?cè)谥v具體的分析原理之前,先得來(lái)聊聊搞坝,我們做一次高通量的蛋白質(zhì)定性搔谴、定量實(shí)驗(yàn),以及搜庫(kù)鑒定及定量分析等步驟桩撮,對(duì)結(jié)果報(bào)告有哪些質(zhì)控要求敦第。
首先,我們做完實(shí)驗(yàn)店量,在拿到下機(jī)數(shù)據(jù)的時(shí)候芜果,大多數(shù)小伙伴們都會(huì)把數(shù)據(jù)放到各種搜庫(kù)軟件中,比如Mascot或者Thermo的Proteome Discoverer融师,導(dǎo)入原始數(shù)據(jù)右钾,設(shè)定一些搜庫(kù)參數(shù),就可以得到結(jié)果了旱爆。
但是舀射,作為一個(gè)嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)方案設(shè)計(jì)來(lái)說(shuō),在分析的過(guò)程中疼鸟,是需要對(duì)自己的數(shù)據(jù)有一個(gè)前期質(zhì)控的后控,這樣可以幫助大家判斷數(shù)據(jù)分析結(jié)果的可靠性。所以說(shuō)空镜,基本的質(zhì)控可以幫助我們對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行一個(gè)預(yù)判浩淘。
舉個(gè)例子。
我們打開(kāi)一個(gè)實(shí)驗(yàn)的下機(jī)數(shù)據(jù)吴攒,就可以預(yù)判我們的樣品中是否發(fā)生了高分子塑料的PEG污染张抄,有沒(méi)有超高豐度的蛋白,或者有沒(méi)有被嚴(yán)重的鹽類(lèi)污染洼怔。這些數(shù)據(jù)都可以從原始數(shù)據(jù)的可視化視圖中看到署惯。
不同的質(zhì)譜軟件,打開(kāi)原始數(shù)據(jù)的方式不同镣隶,但這些信息都是可見(jiàn)的极谊。另外,當(dāng)兩次實(shí)驗(yàn)搜索到的蛋白數(shù)量差異比較大時(shí)安岂,也可以從TIC圖來(lái)判斷其原因轻猖。此外還可以判斷分離的效率,以及是否出現(xiàn)噴霧中斷等情況域那。
對(duì)于蛋白鑒定的結(jié)果咙边,或者絕大多數(shù)的搜庫(kù)算法,都要求對(duì)結(jié)果進(jìn)行FDR控制,以及unique peptide的控制等等败许。如果我們要發(fā)表這些數(shù)據(jù)王带,絕大多數(shù)的期刊雜志也都會(huì)要求提供這些質(zhì)控的信息。
那么市殷,問(wèn)題就來(lái)了愕撰,為什么要做這樣的要求呢?
事實(shí)上被丧,我們做好了質(zhì)控盟戏,就能夠看到一個(gè)總的鑒定的比例绪妹。比如說(shuō)像常規(guī)的定量實(shí)驗(yàn)甥桂,用的最多的是iTRAQ。
舉個(gè)例子邮旷。
假設(shè)總蛋白數(shù)只有2446個(gè)黄选,算是比較少的,而總的譜圖數(shù)是53萬(wàn)張婶肩,那么它的譜圖鑒定率在當(dāng)前條件下是32%(有些質(zhì)控軟件可以直接報(bào)告譜圖鑒定率办陷,比如Scaffold),我們可以判斷當(dāng)前的實(shí)驗(yàn)并沒(méi)有出現(xiàn)重大的問(wèn)題律歼,鑒定率不高主要是因?yàn)榇嬖诟哓S度蛋白民镜,而這個(gè)后續(xù)可以進(jìn)行詳細(xì)的查看。
對(duì)于定量實(shí)驗(yàn)险毁,不管我們使用的是SILAC制圈,iTRAQ還是Label Free,都需要對(duì)定量結(jié)果進(jìn)行準(zhǔn)確性控制(詳細(xì)內(nèi)容畔况,后續(xù)課程還會(huì)展開(kāi)講解)鲸鹦。一般來(lái)說(shuō),我們需要用相應(yīng)的軟件和統(tǒng)計(jì)方法來(lái)進(jìn)行質(zhì)控跷跪。
經(jīng)過(guò)這幾步的判斷之后馋嗜,可以得到一個(gè)初步的結(jié)果,比如說(shuō)譜圖數(shù)量是否和之前的結(jié)果差不多吵瞻,質(zhì)量精度及鑒定率如何葛菇,高豐度蛋白的存在與否,是否受污染橡羞,分離效率如何眯停,定量是否準(zhǔn)確,標(biāo)記效率是否ok尉姨,等等庵朝,這些信息都可以得到。這樣,我們最終可以得到一個(gè)準(zhǔn)確可靠的蛋白質(zhì)組學(xué)鑒定或定量結(jié)果用于后續(xù)的分析了九府。
那么椎瘟,如何通過(guò)查看原始數(shù)據(jù)來(lái)進(jìn)行初步質(zhì)控呢?
首先侄旬,我們從原始數(shù)據(jù)出發(fā)肺蔚,可以看到下圖(以Data-dependent-acquisiton數(shù)據(jù)依賴(lài)性?huà)呙铻槔菑纳V出來(lái)的一個(gè)LC分離得到的TIC圖儡羔,其中的信號(hào)采集都是在質(zhì)譜中完成的宣羊,它其實(shí)就是將色譜逐漸通過(guò)噴霧的方式進(jìn)入質(zhì)譜的那些信號(hào)進(jìn)行逐一的掃描,然后在其中挑選高強(qiáng)度的譜峰進(jìn)行二級(jí)碎裂汰蜘。
關(guān)于LC分離仇冯,以及TIC圖的詳細(xì)介紹,請(qǐng)參考上一節(jié)課的內(nèi)容:
聽(tīng)課筆記之蛋白質(zhì)質(zhì)譜的原理及使用(四)
下圖就是色譜離子流圖的某個(gè)瞬間族操。橫坐標(biāo)是質(zhì)荷比苛坚,縱坐標(biāo)是信號(hào)強(qiáng)度。這個(gè)瞬間進(jìn)入色譜的有這樣一些信號(hào)色难,信號(hào)強(qiáng)度最高的是質(zhì)荷比為477.31的肽段泼舱,其他一些肽段也可以進(jìn)行查看。
這是我們?cè)诖蜷_(kāi)質(zhì)譜的下機(jī)數(shù)據(jù)所能看到的最直觀的結(jié)果枷莉。我們需要了解的是娇昙,這只是我們所有結(jié)果的某一個(gè)瞬間,某一個(gè)scan笤妙。這一個(gè)scan是否能夠反映整個(gè)結(jié)果的好壞是不確定的冒掌,所以后續(xù)我們需要進(jìn)一步的展開(kāi)。
對(duì)于質(zhì)譜來(lái)說(shuō)危喉,在這一步會(huì)自動(dòng)選擇其中一個(gè)比較強(qiáng)的峰宋渔,比如說(shuō)477,它會(huì)進(jìn)行一個(gè)動(dòng)態(tài)的排除辜限,這也是Data-dependent-acquisiton的一個(gè)重要參數(shù)皇拣。就是說(shuō),在多少秒之內(nèi)薄嫡,這么強(qiáng)的一個(gè)峰如果一直反復(fù)出現(xiàn)的話(huà)氧急,那么在后續(xù)的掃描過(guò)程中,我們不去再對(duì)它進(jìn)行進(jìn)行MS2碎裂了毫深。
比如說(shuō)如圖的477.31吩坝,我們質(zhì)譜儀器記錄時(shí)發(fā)現(xiàn)前面已經(jīng)對(duì)它做過(guò)二級(jí)碎裂了,那么我們就有可能選擇另外一個(gè)比較弱的譜峰哑蔫。比如552.80钉寝,將它進(jìn)行二級(jí)碎裂弧呐。
我們?cè)賮?lái)看一眼二級(jí)譜峰,如下圖嵌纲,就是對(duì)我們?nèi)L(zhǎng)的進(jìn)入質(zhì)譜的肽段信息進(jìn)行打碎俘枫,得到相應(yīng)的B/Y離子,如下圖逮走,這些在后面我們會(huì)進(jìn)行詳細(xì)的講解鸠蚪。
DDA模式的工作原理
下圖是Thermo質(zhì)譜的原理示意圖(由Thermo工程師提供)。這是QE的原理圖师溅,我們先在綠色的范圍內(nèi)進(jìn)行一次full scan的mass掃描茅信,然后判斷當(dāng)前選擇的離子信號(hào)強(qiáng)度,以及在最近的幾十秒鐘之內(nèi)是否對(duì)其進(jìn)行掃描過(guò)墓臭。
如果沒(méi)有蘸鲸,那么在緊接著的循環(huán)過(guò)程中,我們會(huì)對(duì)之前30秒之內(nèi)(假設(shè)當(dāng)前的儀器速度可以達(dá)到10個(gè)MS)沒(méi)有掃描過(guò)的最強(qiáng)的十個(gè)譜峰進(jìn)行二級(jí)碎裂起便,那么質(zhì)譜就會(huì)依次將色譜推進(jìn)來(lái)的噴霧中的肽段進(jìn)行依次碎裂棚贾。
這就是DDA模式基本的原理。我們的數(shù)據(jù)也是根據(jù)這樣的一個(gè)過(guò)程來(lái)記錄的榆综。
如果將剛才的掃描過(guò)程二維展開(kāi),可以得到下圖铸史,看上去跟二維凝膠電泳圖很像吧鼻疮?橫坐標(biāo)是質(zhì)荷比,縱坐標(biāo)是保留時(shí)間琳轿,而剛才那張圖橫坐標(biāo)是保留時(shí)間判沟,縱坐標(biāo)是強(qiáng)度(LC seperation圖),所以崭篡,此圖沒(méi)有質(zhì)荷比信息挪哄。
我們知道,在進(jìn)入full scan的MS掃描時(shí)是有質(zhì)荷比信息的琉闪。所以簡(jiǎn)單的講迹炼,上圖是將剛才的兩張圖的信息拼接,然后將整個(gè)下機(jī)數(shù)據(jù)所有的瞬間都進(jìn)行了一個(gè)拼接颠毙,由于維度的限制斯入,因此信號(hào)強(qiáng)度信息無(wú)法再展示了。
但在此圖中用了顏色的深淺來(lái)表示保留時(shí)間蛀蜜,顏色深的就是相對(duì)信號(hào)較強(qiáng)的肽段刻两。而圖中的每一根小線段都代表一個(gè)肽段,小線段的長(zhǎng)度對(duì)應(yīng)著肽段的保留時(shí)間滴某,加上橫坐標(biāo)質(zhì)荷比的信息磅摹,因此通過(guò)這張全局縱覽圖滋迈,就能夠看到我們這次實(shí)驗(yàn)分離的效果如何,有沒(méi)有PEG户誓、鹽杀怠、或者其它污染,有沒(méi)有噴霧中斷等情況發(fā)生厅克,這些都能在這張圖中有一個(gè)大致的把握赔退。
因此,這張圖對(duì)于我們進(jìn)行數(shù)據(jù)質(zhì)控非常有用证舟。不同的軟件和儀器有不同的方法來(lái)提供這張圖硕旗。此次舉例用的圖是由Peaks軟件得來(lái)的。
我們可以在上圖中選定自己感興趣的部分女责,畫(huà)一個(gè)小方框漆枚,將方框中的內(nèi)容進(jìn)行打開(kāi)放大,就得到了下圖我們存儲(chǔ)數(shù)據(jù)的結(jié)果形式了抵知。這是在Qual Browser里打開(kāi)我們的數(shù)據(jù)看到的結(jié)果墙基。
其實(shí)這就是將我們的模擬圖轉(zhuǎn)換成數(shù)據(jù)信號(hào),儲(chǔ)存在我們的Raw文件中刷喜,或者說(shuō)進(jìn)一步提取成MGF文件所用到的相關(guān)信息残制。
這里主要包含兩大類(lèi)信息:MS1和MS2的信息,也就是full scan mass和二級(jí)碎裂的信息掖疮。這兩類(lèi)信息的結(jié)構(gòu)式是一模一樣的初茶,都是包含質(zhì)核比、強(qiáng)度值浊闪,以及相對(duì)信號(hào)強(qiáng)度恼布。
比如說(shuō)794.03譜峰,相對(duì)信號(hào)強(qiáng)度是100搁宾,也就是在這張譜圖中折汞,這是最強(qiáng)的一個(gè)峰,信號(hào)強(qiáng)度是3558210.8盖腿。那么對(duì)于我們質(zhì)譜的搜索來(lái)說(shuō)爽待,一級(jí)信息和二級(jí)信息都是需要用到的,其中一級(jí)信息是首要的奸忽,也就是圖中MS1部分堕伪,是后續(xù)搜庫(kù)的關(guān)鍵信息。而二級(jí)譜圖的強(qiáng)度信息一般用于定量栗菜,也就是說(shuō)如果不是做SILAC或者非標(biāo)記定量欠雌,這些信息不是最重要的。
另外疙筹,第一欄的信息準(zhǔn)確性也是非常重要的富俄。比如圖上紅框內(nèi)禁炒,我們可以得到的信息是,794.03和794.36強(qiáng)度大約差了1.5倍霍比,后面的峰強(qiáng)度差了大約2倍幕袱,再看下紅框內(nèi)四個(gè)數(shù)據(jù)的質(zhì)荷比相差并不大,我們的質(zhì)譜儀器因此會(huì)判斷這四個(gè)峰非常符合一個(gè)肽段的同位素分布(肽段同位素分段的性狀悠瞬,后續(xù)將會(huì)講解)们豌。
回到此圖蚌堵,794.03應(yīng)該是一個(gè)肽段音比,后面三個(gè)數(shù)據(jù)是同一個(gè)肽段碉怔,這就是我們進(jìn)行precursor識(shí)別的原理菱涤。有些時(shí)候質(zhì)譜會(huì)識(shí)別錯(cuò)誤,認(rèn)為紅框上一行的793.69更可能是同位素佑女,這個(gè)就需要我們自己進(jìn)行校正赎婚。
質(zhì)譜在搜集信號(hào)的時(shí)候说庭,會(huì)告訴我們794.03是一個(gè)母離子或者說(shuō)是肽段的譜峰康辑,因此在后續(xù)進(jìn)行MS2碎裂的時(shí)候摄欲,會(huì)挑選這樣一個(gè)譜峰,以及在質(zhì)譜中我們會(huì)設(shè)定相應(yīng)的窗口去打碎它疮薇。因?yàn)閮H僅設(shè)定一個(gè)非常小的窗口胸墙,可能信號(hào)不夠。我們會(huì)設(shè)計(jì)比如正負(fù)1.5個(gè)道爾頓的窗口惦辛,把這些信號(hào)全部采集進(jìn)去進(jìn)行二級(jí)碎裂得到二級(jí)信號(hào)劳秋。
現(xiàn)在高分辨質(zhì)譜中,二級(jí)信號(hào)也會(huì)包含同位素信息胖齐,因此數(shù)據(jù)分析軟件需要對(duì)這些信息進(jìn)行有效的處理。
大家可以看到嗽冒,這樣一個(gè)例子中呀伙,軟件記錄的是794.03,但實(shí)際我們可以通過(guò)肉眼觀察添坊,793.69跟794.03就只相差0.33~0.34剿另,也是一個(gè)三電荷同位素的差值(1除以0.33是3,這就是質(zhì)荷比中的Z的計(jì)算原理)贬蛙。兩者分別的強(qiáng)度271萬(wàn)和355萬(wàn)差別也不是非常大雨女,我們會(huì)判斷出793.69更可能是零同位素峰(如何判斷后面會(huì)再講解)。
我們進(jìn)行后續(xù)數(shù)據(jù)提取和采集的時(shí)候阳准,也就是用了這樣的信息來(lái)進(jìn)行分析氛堕。我們記錄的一級(jí)質(zhì)譜數(shù)據(jù),以及二級(jí)質(zhì)譜對(duì)應(yīng)的列表野蝇,其中最重要的是m/z和intensity讼稚,在一級(jí)質(zhì)譜數(shù)據(jù)中括儒,強(qiáng)度并不用于蛋白鑒定的打分,但二級(jí)質(zhì)譜數(shù)據(jù)中的強(qiáng)度值卻會(huì)被用于打分锐想。
今天的課程小編就分享到這里帮寻,下次我們會(huì)接著聊同位素的問(wèn)題,以及如何解讀原始譜圖包含的信息赠摇。