4. 蛋白質(zhì)組學(xué)數(shù)據(jù)分析基礎(chǔ)(2)

說明:此篇筆記系2016-2017年由克里克學(xué)院與康昱盛主辦的蛋白質(zhì)組學(xué)網(wǎng)絡(luò)大課堂整理而成拘领,侵刪。該課程由上海易算生物科技有限公司CEO沈誠頻博士所授冠句。


主要知識點(diǎn)
--同位素對質(zhì)譜分析的影響
--原始譜圖的處理
--什么是b-y離子


回顧

image

在接著講今天的關(guān)鍵問題之前寂屏,我們先來列一下質(zhì)譜中相應(yīng)的一些單位(見下圖),可以幫助大家進(jìn)行更好的理解與記憶八秃。

image

這其中應(yīng)用最多的是原子質(zhì)量單位-道爾頓(Dalton or amu),其中的平均質(zhì)量數(shù)是以前質(zhì)譜分辨率不夠高時常用的一個概念(即不能將同位素峰區(qū)分開時肉盹,只能用平均質(zhì)量數(shù)來衡量)昔驱。

同位素的問題

上篇我們提到,在上面那個例子里上忍,794.03看起來不像是正確的原始同位素峰骤肛,而793.69才應(yīng)該是。大家看下面的圖窍蓝,是根據(jù)先前的數(shù)字列表提取出來的原始譜峰的信息腋颠。可以看到吓笙,794.03淑玫、793.69等是來自于同一個肽段的多個同位素峰。

形成這樣一個同位素峰的原因是,自然界中元素的組成是包含同位素的絮蒿,比如C的分子量是12.01尊搬,但其存在微量的半衰期非常長的C13,分子量要加1土涝。而O毁嗦、N、P等元素也都存在非常微量的同位素的峰回铛。

image

雖然狗准,平時看譜峰時會覺得其所占比例很小,覺得這些信號可能沒什么意義茵肃。但是在質(zhì)譜中會形成一系列的峰腔长。對于高分辨質(zhì)譜來說,這樣的峰很重要验残,它會用于后續(xù)的定性和定量分析捞附,因?yàn)檫@樣的信號強(qiáng)度會間接或者非等比的反映了肽段的信號強(qiáng)度或者說原始的量。

我們做SILAC或者非標(biāo)記定量處理的時候您没,這些信號都會用于后續(xù)的定量分析鸟召。因此在定量分析的軟件中,會將這些譜峰的強(qiáng)度全部用于后續(xù)的計算氨鹏,這也是為什么正確識別同位素峰分布是非常重要的欧募!

回到前面的問題,為什么我們認(rèn)為信號次強(qiáng)的793.69才應(yīng)該是零同位素峰仆抵,而信號最強(qiáng)的794.03反而不是呢跟继?

我們直觀的感受應(yīng)該是,峰最高的才是零同位素峰镣丑,對吧舔糖?但是,當(dāng)元素組成比較復(fù)雜或者說分子量比較大時莺匠,比如此圖中是帶有3電荷的肽段離子金吗,3乘以質(zhì)荷比793,得到質(zhì)量為差不多2400原始道爾頓數(shù)趣竣。這個分子量相對來說比較高了摇庙,也就是其含N、O期贫、H跟匆、C這些元素的數(shù)量是比較多的异袄,因此它的同位素組成比例會非常復(fù)雜通砍。在如此復(fù)雜的情況下,其原始的零同位素峰信號反而不是最強(qiáng)的。這也是很多時候質(zhì)譜采集錯信號的原因封孙。

關(guān)于同位素峰的問題迹冤,如果大伙兒還沒有想明白,我們再來展開聊一下虎忌。比如下圖中的同位素峰泡徙,對于一個分子量比較小的肽段離子,C13膜蠢、N15等同位素的比例是比較低的堪藐。

image

拿碳元素來舉例,C12在自然界中的比例是98.89%挑围,而C13只有1.11%礁竞。如果一個碳原子進(jìn)入質(zhì)譜儀,我們能看到的同位素峰就是兩個杉辙,C12峰的強(qiáng)度要遠(yuǎn)遠(yuǎn)高于C13的峰模捂。

image

如果現(xiàn)在進(jìn)來一個離子含兩個C,那么它的同位素組合就有三種情況:2個C12蜘矢,1個C12和1個C13狂男,2個C13。因此它會多一個同位素峰品腹,即有三個同位素峰岖食。

image

再來,如果有100個C原子舞吭,以及20個N原子和10個H原子混合進(jìn)入質(zhì)譜儀县耽,那么同位素的排列組合將會非常多。我們用計算同位素分布的軟件可以得到镣典,隨著原子數(shù)的增加兔毙,零同位素峰的相對強(qiáng)度在漸漸變低。

也就是說兄春,我們的肽段越長澎剥,零同位素峰的信號就會越弱,當(dāng)100個碳原子進(jìn)入質(zhì)譜儀時赶舆,零同位素峰的相對強(qiáng)度從之前的99%降到了36.6%哑姚!反而,第一同位素峰的相對強(qiáng)度增加到36.9%芜茵,反而比零同位素峰還要高了叙量!

就像剛才我們舉的例子,雖然793.69的相對強(qiáng)度并不是最高的九串,但我們認(rèn)為它才應(yīng)該是零同位素峰绞佩,而不是相對強(qiáng)度最高的794.03寺鸥!在這種情況下,通常都很難依靠儀器和軟件正確識別零同位素峰品山,而是需要我們手工校正了胆建。

image

原始譜圖包含的信息

聊完了同位素的問題,接下來我們繼續(xù)講一級原始譜圖還包含哪些其它的重要信息肘交。

我們之所以可以用高壓液相色譜分離肽段笆载,就是肽段隨著其氨基酸組成的不同,或者說親疏水性不同涯呻,以及極性不同凉驻,因此在色譜上的保留時間是不一樣的。因?yàn)殡亩伍g的物理性質(zhì)上的差別复罐,我們才能夠用色譜柱對復(fù)雜的肽段混合物進(jìn)行分離沿侈。

因此,保留時間也是鑒定肽段的重要信息市栗。此信息還會進(jìn)一步用于諸如SILAC的定量缀拭、非標(biāo)記定量,以及下一代質(zhì)譜定量技術(shù)(比如DIA)填帽。因此我們色譜柱的質(zhì)量和性能蛛淋,對后續(xù)定性和定量分析的影響非常大。

以前篡腌,可能很多小伙伴認(rèn)為褐荷,一級質(zhì)譜中最重要的信息是分子量或者M(jìn)/Z。但隨著現(xiàn)在定量的要求越來越高嘹悼,intensity叛甫、保留時間這些信息都會越來越重要。對于高分辨質(zhì)譜來說杨伙,如果色譜分離肽段的效果夠好其监,那么我們可以解析出更多更復(fù)雜的中低豐度肽段。

另外限匣,色譜的分辨率或者說保留時間的區(qū)分度越高抖苦,色譜峰的寬度越窄,那么我們越可以將差別非常微小的肽段進(jìn)行有效的區(qū)分米死。這也是我們購買高分辨率質(zhì)譜進(jìn)行實(shí)驗(yàn)的原因之一锌历。

再有,SILAC和非標(biāo)記定量都會用到一級的強(qiáng)度信息及保留時間信息峦筒,下圖右側(cè)曲線的每一個小方塊點(diǎn)其實(shí)就是一次MS1的掃描究西,與左側(cè)圖對應(yīng),一個強(qiáng)度值就是一個肽段物喷。我們看到出鋒的規(guī)律就是卤材,從某個時間點(diǎn)開始慢慢出峰遮斥,然后信號越來越強(qiáng),出峰至最高點(diǎn)商膊,再慢慢變?nèi)醴ィ詈蠼Y(jié)束宠进。

我們對這樣一個過程中所有的信號進(jìn)行積分晕拆,就是基于MS1定量原理的一種計算方法。曲線圖的面積就是用于定量的基本信息材蹬,當(dāng)然還包括同位素峰实幕,需要對所有的同位素峰進(jìn)行加和。

image

MS1信息的準(zhǔn)確性堤器,取決于很多因素昆庇,比如色譜的噴霧足夠穩(wěn)定、樣品的純凈度高闸溃,嚴(yán)格控制污染等等整吆,這些條件都滿足了,才能得到比較完美的一級定量信息辉川,這對后續(xù)的定性定量分析都會有幫助表蝙。樣品的前處理和質(zhì)譜的維護(hù)這兩個關(guān)鍵的因素,一定要把握好乓旗,如果有影響府蛇,那么在后續(xù)的數(shù)據(jù)分析中,任何統(tǒng)計方法搜庫方法都無法挽回先前的污染信息屿愚。

樣品前處理相關(guān)閱讀>2. 蛋白質(zhì)組學(xué)樣品前處理(4)

介紹完MS1譜圖中的主要信息以后汇跨,我們接下來說說MS2譜圖。

MS2簡單講就是將一條完整肽段送入質(zhì)譜進(jìn)行打碎之后得到的信息妆距。我們的碎裂過程一般來說是從肽段的N端和C端依次碎裂穷遂,我們很少會拿到兩端都碎裂的肽段,因此可以認(rèn)為這樣一個MS2譜圖中娱据,強(qiáng)度比較好的那些肽段絕大多數(shù)應(yīng)該都是來自于肽段的N端或者C端的一部分序列塞颁。

同時,這樣一些信號也會在類似于DIA/SWATH技術(shù)中用于定量吸耿,MS2譜圖中包含b-y離子以及其信號強(qiáng)度祠锣,可用于蛋白定性分析。而在一些比較新的技術(shù)如DIA/SWATH中咽安,b-y離子信息也可用于定量分析伴网。

Tips: TMT/iTRAQ技術(shù)并不用肽段碎片進(jìn)行定量,它是低分子量端額外加入一個同位素標(biāo)簽妆棒,用標(biāo)記的方法避免與b-y離子進(jìn)行互相干擾澡腾。沈老師提到沸伏,他個人更喜歡用TMT而不是iTRAQ進(jìn)行定量,因?yàn)閕TRAQ容易在100多到200左右分子量的區(qū)域產(chǎn)生大量的污染信號动分,這樣也會影響我們的定性分析毅糟。因此一般來說,iTRAQ能定量出來的蛋白澜公,在相同情況下都會比TMT少姆另。

image

什么是b-y離子

最后,我們來簡單介紹一下b-y離子坟乾。已經(jīng)了解的同學(xué)迹辐,可以跳過下面這一段。

下圖左上角是肽段碎裂的原理示意圖甚侣。我們用R來替代生物體內(nèi)的氨基酸的縮寫明吩,中間這一行是肽段的骨架。那么到底哪些鍵在質(zhì)譜碎裂時會斷開呢殷费?我們就會用相應(yīng)的位置對碎片來進(jìn)行定義印荔,所以可以看到a,b详羡,c仍律,x,y殷绍,z這六種離子形式染苛。當(dāng)然,更復(fù)雜的諸如糖之類的大分子主到,在碎裂后會產(chǎn)生更復(fù)雜的信號茶行。

image

b-y離子一般斷裂在羰基和氨基之間,a-x離子會有非常小比例的斷裂登钥,一般來說不太用于我們的定性分析畔师,c-z離子通常是出現(xiàn)在使用ETD(電子轉(zhuǎn)移解離)進(jìn)行碎裂的時候。

國際慣例牧牢,肽段從左到右排列的時候是從N端開始看锉,C端結(jié)束。任何一個氨基酸都有一個N端-NH2和C端-COOH塔鳍,在結(jié)合成多肽的時候伯铣,會脫掉一個水分子。所以我們平時在查看氨基酸的縮寫轮纫、名稱和分子量時腔寡,比如上圖的Gly,分子量為57.021464掌唾,比天然的氨基酸組成少了一個水分子放前。

在多肽中忿磅,絕大多數(shù)情況下這些氨基酸都是出現(xiàn)在中間的,因此我們是按照殘基的結(jié)構(gòu)形式來記錄他們的分子量凭语。當(dāng)斷裂成b-y離子的時候葱她,大家需要注意,得加上它的末端基團(tuán)似扔,再計算分子量吨些。比如b離子的分子量要加上一個-H,y離子要加上一個-OH虫几。

但是锤灿,細(xì)看看挽拔,會發(fā)現(xiàn)依然不對辆脸!因?yàn)檫€需要帶上電荷!

計算b-y離子時螃诅,N端除了加上之前失去的水分子里的-H以外啡氢,還要再加兩個-H,否則它就是帶負(fù)電荷的术裸。而在真實(shí)情況里倘是,質(zhì)譜記錄b-y離子時,y離子是要帶上至少一個正電荷的袭艺,我們一般記錄為MH+搀崭,即帶一個正電荷的形式。b-y離子當(dāng)然也可能帶兩個猾编、三個瘤睹,甚至更多的電荷,尤其是在母離子電荷數(shù)非常高的情況下答倡。

如果使用的是高分辨質(zhì)譜轰传,比如Orbitrap,它的MS2譜圖中都會有相應(yīng)的同位素分布瘪撇。因此我們可以計算出相應(yīng)的電荷數(shù)來進(jìn)行去卷積获茬,去完卷積之后,在搜庫時我們都傾向于將其記錄為MH+倔既,也就是帶一個正電荷的情況恕曲,以方便結(jié)果的查看。

大家可以看下圖的惡唑啉渤涌,N端第一個氨基酸是A(丙氨酸)佩谣,原始分子量是71。在記錄b離子時歼捏,就將其記錄為72稿存,因?yàn)橐右粋€-H笨篷。C端第一個氨基酸是k(賴氨酸),分子量是147.1,與平常我們看到的氨基酸列表中它的分子量是128哈肖,正好差一個-OH和兩個-H袍冷。因此手動計算b-y離子的時候,大家需要注意計算的方式冕臭。

image

事實(shí)上,離子帶的電荷數(shù)對蛋白鑒定會產(chǎn)生直接的影響燕锥,這個問題我們可以多聊幾句辜贵。

大伙兒知道,b-y離子一定是帶電荷的归形,才能被質(zhì)譜識別到信息托慨。假設(shè)在質(zhì)譜一級碎裂的時候,條件控制的不太好暇榴,就會出現(xiàn)母離子都只帶一個電荷厚棵,也就是同位素峰都只差一個道爾頓。

這種情況下去搜庫蔼紧,就會發(fā)現(xiàn)鑒定到的肽段會非常少婆硬,甚至鑒定不到任何東西!這是為什么呢奸例?

試想一下彬犯,如果母離子都只帶一個電荷,那么進(jìn)入二級碎裂查吊,因?yàn)槟阒挥幸浑姾尚城绻鸑端碎片帶了電荷,C端碎片便無法帶電荷菩貌。于是卢佣,雖然這些碎片離子也進(jìn)入了二級質(zhì)譜,但是由于它不帶電荷箭阶,我們的質(zhì)譜便無法記錄到它虚茶,造成后續(xù)譜圖的解析率就會非常的低。

為了解決這個問題仇参,現(xiàn)在大多數(shù)的肽段都是用Tripson酶解嘹叫,得到的片段在條件控制合適時基本都會帶2-3個電荷,這樣就非常適合進(jìn)行二級碎裂诈乒,使得碎裂片段的兩段都能帶電荷罩扇,于是質(zhì)譜就能記錄到這些碎片離子。

那么,母離子帶電荷太少了不行喂饥,是不是就越多越好呢消约?

事實(shí)上,高電荷的肽段也不太容易得到好的定性結(jié)果员帮!比如帶8個電荷的母離子碎裂后或粮,得到的b-y離子有可能帶1~7個電荷的各種可能,于是得到的二級譜圖會很復(fù)雜捞高。再加上肽段離子本身就很長氯材,比如有50-60氨基酸的長度,再把各種帶電荷的情況組合一下硝岗,得到的二級譜圖就很瘋狂了氢哮!在質(zhì)譜碎裂比較完美的前提下,一個肽段離子可能會對應(yīng)幾百張以上的二級譜圖的組合型檀!這對任何搜庫軟件來說都是極大的挑戰(zhàn)冗尤!

所以說,b-y離子帶23個電荷是最完美的贱除。大多數(shù)搜庫軟件都是針對23個電荷的譜峰而設(shè)計的生闲。這也是為什么ETD數(shù)據(jù)有時候解析不是那么理想媳溺,因?yàn)镋TD容易帶上更高的電荷月幌。

好,假設(shè)我們進(jìn)行得很順利悬蔽,得到了一堆成對的b-y離子扯躺,如下圖。我們根據(jù)這些b-y離子的質(zhì)荷比蝎困,就能解析出它們的氨基酸構(gòu)成录语,最終推算出蛋白質(zhì)的序列組成。

image

在用質(zhì)譜搜庫軟件進(jìn)行解析時禾乘,會對譜圖中的信息進(jìn)行識別和分析澎埠。二級譜圖的復(fù)雜性越高,對它解析的準(zhǔn)確性就會相應(yīng)的降低始藕。這也是為什么DIA和SWATH技術(shù)依舊依賴于DDA模式下鑒定結(jié)果來進(jìn)行匹配的原因之一蒲稳,純粹的基于SWATH和DIA的譜圖其解析難度是非常高的。

二級譜圖應(yīng)該是越干凈越好伍派,最最理想的情況是只包含上圖所示的14個b-y峰江耀,一旦出現(xiàn)別的峰,軟件便會嘗試去解析诉植,造成的影響就是可能會解析錯誤祥国,可能會讓解析的時間變長等等。當(dāng)然晾腔,一般都會出現(xiàn)雜峰和噪音舌稀,在這些干擾面前啊犬,就更要求我們對實(shí)驗(yàn)的各個步驟做好嚴(yán)格的質(zhì)控,以及選擇合適的搜庫策略和算法壁查。

Tips
如果大伙兒對質(zhì)譜數(shù)據(jù)分析原理感興趣椒惨,可以去Mascot官網(wǎng)去查看更多的信息:www.matrixscience.com/help.html.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市潮罪,隨后出現(xiàn)的幾起案子康谆,更是在濱河造成了極大的恐慌,老刑警劉巖嫉到,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件沃暗,死亡現(xiàn)場離奇詭異,居然都是意外死亡何恶,警方通過查閱死者的電腦和手機(jī)孽锥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來细层,“玉大人惜辑,你說我怎么就攤上這事∫呤辏” “怎么了盛撑?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長捧搞。 經(jīng)常有香客問我抵卫,道長,這世上最難降的妖魔是什么胎撇? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任介粘,我火速辦了婚禮,結(jié)果婚禮上晚树,老公的妹妹穿的比我還像新娘姻采。我一直安慰自己,他們只是感情好爵憎,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布慨亲。 她就那樣靜靜地躺著,像睡著了一般纲堵。 火紅的嫁衣襯著肌膚如雪巡雨。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天席函,我揣著相機(jī)與錄音铐望,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛正蛙,可吹牛的內(nèi)容都是我干的督弓。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼乒验,長吁一口氣:“原來是場噩夢啊……” “哼愚隧!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起锻全,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤狂塘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后鳄厌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體荞胡,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年了嚎,在試婚紗的時候發(fā)現(xiàn)自己被綠了泪漂。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡歪泳,死狀恐怖萝勤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情呐伞,我是刑警寧澤敌卓,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站荸哟,受9級特大地震影響假哎,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜鞍历,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望肪虎。 院中可真熱鬧劣砍,春花似錦、人聲如沸扇救。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽迅腔。三九已至装畅,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間沧烈,已是汗流浹背掠兄。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蚂夕。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓迅诬,卻偏偏與公主長得像,于是被迫代替她去往敵國和親婿牍。 傳聞我的和親對象是個殘疾皇子侈贷,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容