蛋白質(zhì)組學(xué)數(shù)據(jù)分析基礎(chǔ)（二）

轉(zhuǎn)發(fā)自http://crickcollege.com/news/239.html

在接著講今天的關(guān)鍵問題之前，我們先來列一下質(zhì)譜中相應(yīng)的一些單位（見下圖）西傀，可以幫助大家進(jìn)行更好的理解與記憶。

這其中應(yīng)用最多的是原子質(zhì)量單位-道爾頓（Dalton or amu），其中的平均質(zhì)量數(shù)是以前質(zhì)譜分辨率不夠高時(shí)常用的一個(gè)概念（即不能將同位素峰區(qū)分開時(shí)趋艘，只能用平均質(zhì)量數(shù)來衡量）枢泰。

同位素的問題

上篇我們提到，在上面那個(gè)例子里铡溪，794.03看起來不像是正確的原始同位素峰漂辐，而793.69才應(yīng)該是。大家看下面的圖棕硫，是根據(jù)先前的數(shù)字列表提取出來的原始譜峰的信息髓涯。可以看到哈扮，794.03纬纪、793.69等是來自于同一個(gè)肽段的多個(gè)同位素峰。

形成這樣一個(gè)同位素峰的原因是滑肉，自然界中元素的組成是包含同位素的包各，比如C的分子量是12.01，但其存在微量的半衰期非常長的C13靶庙，分子量要加1问畅。而O、N、P等元素也都存在非常微量的同位素的峰按声。

雖然膳犹，平時(shí)看譜峰時(shí)會(huì)覺得其所占比例很小，覺得這些信號(hào)可能沒什么意義签则。但是在質(zhì)譜中會(huì)形成一系列的峰须床。對于高分辨質(zhì)譜來說，這樣的峰很重要渐裂，它會(huì)用于后續(xù)的定性和定量分析豺旬，因?yàn)檫@樣的信號(hào)強(qiáng)度會(huì)間接或者非等比的反映了肽段的信號(hào)強(qiáng)度或者說原始的量。

我們做SILAC或者非標(biāo)記定量處理的時(shí)候柒凉，這些信號(hào)都會(huì)用于后續(xù)的定量分析族阅。因此在定量分析的軟件中，會(huì)將這些譜峰的強(qiáng)度全部用于后續(xù)的計(jì)算膝捞，這也是為什么正確識(shí)別同位素峰分布是非常重要的坦刀！

回到前面的問題，為什么我們認(rèn)為信號(hào)次強(qiáng)的793.69才應(yīng)該是零同位素峰蔬咬，而信號(hào)最強(qiáng)的794.03反而不是呢鲤遥？

我們直觀的感受應(yīng)該是，峰最高的才是零同位素峰林艘，對吧盖奈？但是，當(dāng)元素組成比較復(fù)雜或者說分子量比較大時(shí)狐援，比如此圖中是帶有3電荷的肽段離子钢坦，3乘以質(zhì)荷比793，得到質(zhì)量為差不多2400原始道爾頓數(shù)啥酱。這個(gè)分子量相對來說比較高了爹凹，也就是其含N、O镶殷、H逛万、C這些元素的數(shù)量是比較多的，因此它的同位素組成比例會(huì)非常復(fù)雜批钠。在如此復(fù)雜的情況下，其原始的零同位素峰信號(hào)反而不是最強(qiáng)的得封。這也是很多時(shí)候質(zhì)譜采集錯(cuò)信號(hào)的原因埋心。

關(guān)于同位素峰的問題，如果大伙兒還沒有想明白忙上，我們再來展開聊一下拷呆。比如下圖中的同位素峰，對于一個(gè)分子量比較小的肽段離子，C13茬斧、N15等同位素的比例是比較低的腰懂。

拿碳元素來舉例，C12在自然界中的比例是98.89%项秉，而C13只有1.11%绣溜。如果一個(gè)碳原子進(jìn)入質(zhì)譜儀，我們能看到的同位素峰就是兩個(gè)娄蔼，C12峰的強(qiáng)度要遠(yuǎn)遠(yuǎn)高于C13的峰怖喻。

如果現(xiàn)在進(jìn)來一個(gè)離子含兩個(gè)C，那么它的同位素組合就有三種情況：2個(gè)C12岁诉，1個(gè)C12和1個(gè)C13锚沸，2個(gè)C13。因此它會(huì)多一個(gè)同位素峰涕癣，即有三個(gè)同位素峰哗蜈。

再來，如果有100個(gè)C原子坠韩，以及20個(gè)N原子和10個(gè)H原子混合進(jìn)入質(zhì)譜儀距潘，那么同位素的排列組合將會(huì)非常多。我們用計(jì)算同位素分布的軟件可以得到同眯，隨著原子數(shù)的增加绽昼，零同位素峰的相對強(qiáng)度在漸漸變低。

也就是說须蜗，我們的肽段越長硅确，零同位素峰的信號(hào)就會(huì)越弱，當(dāng)100個(gè)碳原子進(jìn)入質(zhì)譜儀時(shí)明肮，零同位素峰的相對強(qiáng)度從之前的99%降到了36.6%菱农！反而，第一同位素峰的相對強(qiáng)度增加到36.9%柿估，反而比零同位素峰還要高了循未！

就像剛才我們舉的例子，雖然793.69的相對強(qiáng)度并不是最高的秫舌，但我們認(rèn)為它才應(yīng)該是零同位素峰的妖，而不是相對強(qiáng)度最高的794.03！在這種情況下足陨，通常都很難依靠儀器和軟件正確識(shí)別零同位素峰嫂粟，而是需要我們手工校正了。

原始譜圖包含的信息

聊完了同位素的問題墨缘，接下來我們繼續(xù)講一級原始譜圖還包含哪些其它的重要信息星虹。

我們之所以可以用高壓液相色譜分離肽段零抬，就是肽段隨著其氨基酸組成的不同，或者說親疏水性不同宽涌，以及極性不同平夜，因此在色譜上的保留時(shí)間是不一樣的。因?yàn)殡亩伍g的物理性質(zhì)上的差別卸亮，我們才能夠用色譜柱對復(fù)雜的肽段混合物進(jìn)行分離忽妒。

因此，保留時(shí)間也是鑒定肽段的重要信息嫡良。此信息還會(huì)進(jìn)一步用于諸如SILAC的定量锰扶、非標(biāo)記定量，以及下一代質(zhì)譜定量技術(shù)（比如DIA）寝受。因此我們色譜柱的質(zhì)量和性能坷牛，對后續(xù)定性和定量分析的影響非常大。

以前很澄，可能很多小伙伴認(rèn)為京闰，一級質(zhì)譜中最重要的信息是分子量或者M(jìn)/Z。但隨著現(xiàn)在定量的要求越來越高甩苛，intensity蹂楣、保留時(shí)間這些信息都會(huì)越來越重要。對于高分辨質(zhì)譜來說讯蒲，如果色譜分離肽段的效果夠好痊土，那么我們可以解析出更多更復(fù)雜的中低豐度肽段。

另外墨林，色譜的分辨率或者說保留時(shí)間的區(qū)分度越高赁酝，色譜峰的寬度越窄，那么我們越可以將差別非常微小的肽段進(jìn)行有效的區(qū)分旭等。這也是我們購買高分辨率質(zhì)譜進(jìn)行實(shí)驗(yàn)的原因之一酌呆。

再有，SILAC和非標(biāo)記定量都會(huì)用到一級的強(qiáng)度信息及保留時(shí)間信息搔耕，下圖右側(cè)曲線的每一個(gè)小方塊點(diǎn)其實(shí)就是一次MS1的掃描隙袁，與左側(cè)圖對應(yīng)，一個(gè)強(qiáng)度值就是一個(gè)肽段弃榨。我們看到出鋒的規(guī)律就是菩收，從某個(gè)時(shí)間點(diǎn)開始慢慢出峰，然后信號(hào)越來越強(qiáng)鲸睛，出峰至最高點(diǎn)坛梁，再慢慢變?nèi)酰詈蠼Y(jié)束腊凶。

我們對這樣一個(gè)過程中所有的信號(hào)進(jìn)行積分，就是基于MS1定量原理的一種計(jì)算方法。曲線圖的面積就是用于定量的基本信息钧萍，當(dāng)然還包括同位素峰褐缠，需要對所有的同位素峰進(jìn)行加和。

MS1信息的準(zhǔn)確性风瘦，取決于很多因素队魏，比如色譜的噴霧足夠穩(wěn)定、樣品的純凈度高万搔，嚴(yán)格控制污染等等胡桨，這些條件都滿足了，才能得到比較完美的一級定量信息瞬雹，這對后續(xù)的定性定量分析都會(huì)有幫助昧谊。樣品的前處理和質(zhì)譜的維護(hù)這兩個(gè)關(guān)鍵的因素，一定要把握好酗捌，如果有影響呢诬，那么在后續(xù)的數(shù)據(jù)分析中，任何統(tǒng)計(jì)方法搜庫方法都無法挽回先前的污染信息胖缤。

樣品前處理相關(guān)閱讀>>聽課筆記之蛋白質(zhì)組學(xué)樣品前處理（四）

介紹完MS1譜圖中的主要信息以后尚镰，我們接下來說說MS2譜圖。

MS2簡單講就是將一條完整肽段送入質(zhì)譜進(jìn)行打碎之后得到的信息哪廓。我們的碎裂過程一般來說是從肽段的N端和C端依次碎裂狗唉，我們很少會(huì)拿到兩端都碎裂的肽段，因此可以認(rèn)為這樣一個(gè)MS2譜圖中涡真，強(qiáng)度比較好的那些肽段絕大多數(shù)應(yīng)該都是來自于肽段的N端或者C端的一部分序列分俯。

同時(shí)，這樣一些信號(hào)也會(huì)在類似于DIA/SWATH技術(shù)中用于定量综膀，MS2譜圖中包含b-y離子以及其信號(hào)強(qiáng)度澳迫，可用于蛋白定性分析。而在一些比較新的技術(shù)如DIA/SWATH中剧劝，b-y離子信息也可用于定量分析橄登。

Tips: TMT/iTRAQ技術(shù)并不用肽段碎片進(jìn)行定量，它是低分子量端額外加入一個(gè)同位素標(biāo)簽讥此，用標(biāo)記的方法避免與b-y離子進(jìn)行互相干擾拢锹。沈老師提到，他個(gè)人更喜歡用TMT而不是iTRAQ進(jìn)行定量萄喳，因?yàn)閕TRAQ容易在100多到200左右分子量的區(qū)域產(chǎn)生大量的污染信號(hào)卒稳，這樣也會(huì)影響我們的定性分析。因此一般來說他巨，iTRAQ能定量出來的蛋白充坑，在相同情況下都會(huì)比TMT少减江。

什么是b-y離子

最后，我們來簡單介紹一下b-y離子捻爷。已經(jīng)了解的同學(xué)辈灼，可以跳過下面這一段。

下圖左上角是肽段碎裂的原理示意圖也榄。我們用R來替代生物體內(nèi)的氨基酸的縮寫巡莹，中間這一行是肽段的骨架。那么到底哪些鍵在質(zhì)譜碎裂時(shí)會(huì)斷開呢甜紫？我們就會(huì)用相應(yīng)的位置對碎片來進(jìn)行定義降宅，所以可以看到a，b囚霸，c腰根，x，y邮辽，z這六種離子形式唠雕。當(dāng)然，更復(fù)雜的諸如糖之類的大分子吨述，在碎裂后會(huì)產(chǎn)生更復(fù)雜的信號(hào)岩睁。

b-y離子一般斷裂在羰基和氨基之間，a-x離子會(huì)有非常小比例的斷裂揣云，一般來說不太用于我們的定性分析捕儒，c-z離子通常是出現(xiàn)在使用ETD（電子轉(zhuǎn)移解離）進(jìn)行碎裂的時(shí)候。

國際慣例邓夕，肽段從左到右排列的時(shí)候是從N端開始刘莹，C端結(jié)束。任何一個(gè)氨基酸都有一個(gè)N端-NH2和C端-COOH焚刚，在結(jié)合成多肽的時(shí)候点弯，會(huì)脫掉一個(gè)水分子。所以我們平時(shí)在查看氨基酸的縮寫矿咕、名稱和分子量時(shí)抢肛，比如上圖的Gly，分子量為57.021464碳柱，比天然的氨基酸組成少了一個(gè)水分子捡絮。

在多肽中，絕大多數(shù)情況下這些氨基酸都是出現(xiàn)在中間的莲镣，因此我們是按照殘基的結(jié)構(gòu)形式來記錄他們的分子量福稳。當(dāng)斷裂成b-y離子的時(shí)候，大家需要注意瑞侮，得加上它的末端基團(tuán)的圆，再計(jì)算分子量鼓拧。比如b離子的分子量要加上一個(gè)-H，y離子要加上一個(gè)-OH略板。

但是毁枯，細(xì)看看，會(huì)發(fā)現(xiàn)依然不對叮称！因?yàn)檫€需要帶上電荷！

計(jì)算b-y離子時(shí)藐鹤，N端除了加上之前失去的水分子里的-H以外瓤檐，還要再加兩個(gè)-H，否則它就是帶負(fù)電荷的娱节。而在真實(shí)情況里挠蛉，質(zhì)譜記錄b-y離子時(shí)，y離子是要帶上至少一個(gè)正電荷的肄满，我們一般記錄為MH+谴古，即帶一個(gè)正電荷的形式。b-y離子當(dāng)然也可能帶兩個(gè)稠歉、三個(gè)掰担，甚至更多的電荷，尤其是在母離子電荷數(shù)非常高的情況下怒炸。

如果使用的是高分辨質(zhì)譜带饱，比如Orbitrap，它的MS2譜圖中都會(huì)有相應(yīng)的同位素分布阅羹。因此我們可以計(jì)算出相應(yīng)的電荷數(shù)來進(jìn)行去卷積勺疼，去完卷積之后，在搜庫時(shí)我們都傾向于將其記錄為MH+捏鱼，也就是帶一個(gè)正電荷的情況执庐，以方便結(jié)果的查看。

大家可以看下圖的惡唑啉导梆，N端第一個(gè)氨基酸是A（丙氨酸）轨淌，原始分子量是71。在記錄b離子時(shí)问潭，就將其記錄為72猿诸，因?yàn)橐右粋€(gè)-H。C端第一個(gè)氨基酸是k（賴氨酸）狡忙，分子量是147.1梳虽，與平常我們看到的氨基酸列表中它的分子量是128，正好差一個(gè)-OH和兩個(gè)-H灾茁。因此手動(dòng)計(jì)算b-y離子的時(shí)候窜觉，大家需要注意計(jì)算的方式谷炸。

事實(shí)上，離子帶的電荷數(shù)對蛋白鑒定會(huì)產(chǎn)生直接的影響禀挫，這個(gè)問題我們可以多聊幾句旬陡。

大伙兒知道，b-y離子一定是帶電荷的语婴，才能被質(zhì)譜識(shí)別到信息描孟。假設(shè)在質(zhì)譜一級碎裂的時(shí)候，條件控制的不太好砰左，就會(huì)出現(xiàn)母離子都只帶一個(gè)電荷匿醒，也就是同位素峰都只差一個(gè)道爾頓。

這種情況下去搜庫缠导，就會(huì)發(fā)現(xiàn)鑒定到的肽段會(huì)非常少廉羔，甚至鑒定不到任何東西！這是為什么呢僻造？

試想一下憋他，如果母離子都只帶一個(gè)電荷，那么進(jìn)入二級碎裂髓削，因?yàn)槟阒挥幸浑姾芍竦玻绻鸑端碎片帶了電荷，C端碎片便無法帶電荷蔬螟。于是此迅，雖然這些碎片離子也進(jìn)入了二級質(zhì)譜，但是由于它不帶電荷旧巾，我們的質(zhì)譜便無法記錄到它耸序，造成后續(xù)譜圖的解析率就會(huì)非常的低。

為了解決這個(gè)問題鲁猩，現(xiàn)在大多數(shù)的肽段都是用Tripson酶解坎怪，得到的片段在條件控制合適時(shí)基本都會(huì)帶2-3個(gè)電荷，這樣就非常適合進(jìn)行二級碎裂廓握，使得碎裂片段的兩段都能帶電荷搅窿，于是質(zhì)譜就能記錄到這些碎片離子。

那么隙券，母離子帶電荷太少了不行男应，是不是就越多越好呢？

事實(shí)上娱仔，高電荷的肽段也不太容易得到好的定性結(jié)果沐飘！比如帶8個(gè)電荷的母離子碎裂后，得到的b-y離子有可能帶1~7個(gè)電荷的各種可能，于是得到的二級譜圖會(huì)很復(fù)雜耐朴。再加上肽段離子本身就很長，比如有50-60氨基酸的長度筛峭，再把各種帶電荷的情況組合一下铐刘，得到的二級譜圖就很瘋狂了！在質(zhì)譜碎裂比較完美的前提下影晓，一個(gè)肽段離子可能會(huì)對應(yīng)幾百張以上的二級譜圖的組合镰吵！這對任何搜庫軟件來說都是極大的挑戰(zhàn)！

所以說挂签，b-y離子帶23個(gè)電荷是最完美的捡遍。大多數(shù)搜庫軟件都是針對23個(gè)電荷的譜峰而設(shè)計(jì)的。這也是為什么ETD數(shù)據(jù)有時(shí)候解析不是那么理想竹握，因?yàn)镋TD容易帶上更高的電荷。

好辆飘，假設(shè)我們進(jìn)行得很順利啦辐，得到了一堆成對的b-y離子，如下圖蜈项。我們根據(jù)這些b-y離子的質(zhì)荷比芹关，就能解析出它們的氨基酸構(gòu)成，最終推算出蛋白質(zhì)的序列組成紧卒。

在用質(zhì)譜搜庫軟件進(jìn)行解析時(shí)侥衬，會(huì)對譜圖中的信息進(jìn)行識(shí)別和分析。二級譜圖的復(fù)雜性越高跑芳，對它解析的準(zhǔn)確性就會(huì)相應(yīng)的降低轴总。這也是為什么DIA和SWATH技術(shù)依舊依賴于DDA模式下鑒定結(jié)果來進(jìn)行匹配的原因之一，純粹的基于SWATH和DIA的譜圖其解析難度是非常高的博个。

二級譜圖應(yīng)該是越干凈越好怀樟，最最理想的情況是只包含上圖所示的14個(gè)b-y峰，一旦出現(xiàn)別的峰盆佣，軟件便會(huì)嘗試去解析往堡，造成的影響就是可能會(huì)解析錯(cuò)誤，可能會(huì)讓解析的時(shí)間變長等等共耍。當(dāng)然虑灰，一般都會(huì)出現(xiàn)雜峰和噪音，在這些干擾面前痹兜，就更要求我們對實(shí)驗(yàn)的各個(gè)步驟做好嚴(yán)格的質(zhì)控穆咐，以及選擇合適的搜庫策略和算法。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末佃蚜，一起剝皮案震驚了整個(gè)濱河市庸娱，隨后出現(xiàn)的幾起案子着绊，更是在濱河造成了極大的恐慌，老刑警劉巖熟尉，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件归露，死亡現(xiàn)場離奇詭異，居然都是意外死亡斤儿，警方通過查閱死者的電腦和手機(jī)剧包，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來往果，“玉大人疆液，你說我怎么就攤上這事∩轮” “怎么了堕油？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長肮之。經(jīng)常有香客問我掉缺，道長，這世上最難降的妖魔是什么戈擒？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任眶明，我火速辦了婚禮，結(jié)果婚禮上筐高，老公的妹妹穿的比我還像新娘搜囱。我一直安慰自己，他們只是感情好柑土，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布蜀肘。她就那樣靜靜地躺著，像睡著了一般冰单。火紅的嫁衣襯著肌膚如雪幌缝。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天诫欠，我揣著相機(jī)與錄音涵卵，去河邊找鬼。笑死荒叼，一個(gè)胖子當(dāng)著我的面吹牛轿偎，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播被廓，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼坏晦，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起昆婿，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤球碉，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后仓蛆，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體睁冬，經(jīng)...
沈念sama閱讀 43,400評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年看疙，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了豆拨。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,997評論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡能庆，死狀恐怖施禾，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情搁胆，我是刑警寧澤弥搞，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站渠旁，受9級特大地震影響拓巧，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜一死，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望傻唾。院中可真熱鬧投慈，春花似錦、人聲如沸冠骄。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽凛辣。三九已至抱既，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間扁誓，已是汗流浹背防泵。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蝗敢，地道東北人捷泞。一個(gè)月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像寿谴，于是被迫代替她去往敵國和親锁右。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評論 2贊 345

蛋白質(zhì)組學(xué)數(shù)據(jù)分析基礎(chǔ)（二）

推薦閱讀更多精彩內(nèi)容