轉(zhuǎn)發(fā)自http://crickcollege.com/news/148.html
承前
小編很驚喜地看到,上一篇介紹蛋白質(zhì)組學(xué)統(tǒng)計(jì)學(xué)參數(shù)的推文在朋友圈著實(shí)火了一把储耐,真心感謝各路大俠小俠們的包涵和鼓勵(lì)羊初!篇幅所限,當(dāng)時(shí)只聊了p值和E值什湘,很多小伙伴讀完后都發(fā)來(lái)消息长赞,表示十分期待后續(xù)的FDR和q值!小編也一直把此事掛在心上禽炬,但由于近來(lái)雜事纏事涧卵,一晃就是一個(gè)地球月過(guò)去了,這才把第二篇完成腹尖,讓大伙兒久等了柳恐,在此深表歉意!
>> p值热幔、E值乐设、FDR、q值…你暈菜了嗎绎巨?
溫故
在繼續(xù)開(kāi)扒之前近尚,我們先來(lái)回顧一下總表:
雖然這張表已經(jīng)第二次露臉了,但小編明白场勤,要你愛(ài)上它的概率仍然是很低很低的戈锻!不過(guò)不要緊歼跟,你就當(dāng)它是課程表就好,根據(jù)表上的順序格遭,下面我們就開(kāi)始聊假發(fā)現(xiàn)率FDR哈街、q-value以及后驗(yàn)錯(cuò)誤率PEP。
FDR
當(dāng)FDR的字眼出現(xiàn)在屏幕上時(shí)拒迅,你心中是否有這樣的疑問(wèn):不是已經(jīng)有p-value和E-value了嗎骚秦?還不夠用來(lái)評(píng)估鑒定結(jié)果么?又整出一堆幺蛾子干啥璧微?
講真作箍,小編認(rèn)為這是一個(gè)好問(wèn)題!要說(shuō)清楚呢前硫,我們還是舉個(gè)例子先:
假設(shè)我有很多袋彩球胞得,每袋100顆,其中紫色球95顆(代表正確的鑒定結(jié)果)开瞭,其它顏色的球5顆(代表錯(cuò)誤的鑒定結(jié)果):
- 把一袋彩球倒入一個(gè)盒子里懒震,隨機(jī)從盒子里抽出一個(gè)球,抽到紫色球的概率為0.95嗤详,這個(gè)都會(huì)算吧。
- 把兩袋彩球倒入一個(gè)盒子里瓷炮,隨機(jī)從盒子里同時(shí)抽出兩個(gè)球葱色,抽到兩個(gè)紫色球的概率為:0.95*0.95=0.9025
- 把一百袋彩球倒入一個(gè)盒子里,隨機(jī)從盒子里同時(shí)抽出100個(gè)球娘香,抽到100個(gè)紫色球的概率為100個(gè)0.95相乘苍狰,即0.005921!
發(fā)現(xiàn)沒(méi)有烘绽?雖然每個(gè)袋子里鑒定結(jié)果的正確率是很高的(紫色球占95%)淋昭,但是當(dāng)鑒定的肽段(或蛋白)數(shù)量非常多的時(shí)候,我們也完全保證不了整個(gè)結(jié)果集合的正確率安接!
無(wú)論是p-value還是E-value翔忽,也是類(lèi)似的道理,它們只針對(duì)單個(gè)肽段進(jìn)行可信度的評(píng)估盏檐,如果我們不對(duì)所有肽段匹配結(jié)果進(jìn)行一個(gè)整體的質(zhì)控歇式,單個(gè)肽段的錯(cuò)誤率就在集合中累積,甚至嚴(yán)重影響整個(gè)結(jié)果報(bào)告的可信度胡野!
怎么來(lái)對(duì)整個(gè)結(jié)果的數(shù)據(jù)集進(jìn)行質(zhì)控呢材失?這就需要整點(diǎn)更高端的,行話叫“多重假設(shè)檢驗(yàn)”硫豆,此處龙巨,F(xiàn)DR閃亮登場(chǎng)笼呆!
FDR全名叫False-Discovery Rate,嚴(yán)格一些旨别,準(zhǔn)確翻譯為“假發(fā)現(xiàn)率”诗赌,決不能稱(chēng)為“假陽(yáng)率(FPR,F(xiàn)alse Positive Rate)”昼榛。FDR表示錯(cuò)誤拒絕零假設(shè)的個(gè)數(shù)占所有被拒絕假設(shè)的比例的期望境肾。其中,期望表示對(duì)真實(shí)值的估計(jì)胆屿。直觀說(shuō)奥喻,可以認(rèn)為假發(fā)現(xiàn)率FDR是對(duì)假陽(yáng)率FPR的估計(jì)。這種定義非迹,是不是看著就想吐血环鲤?
先忍忍,聽(tīng)小編跟你解釋?zhuān)∥覀兛梢怨烙?jì)韓寒和郭敬明的身高為170厘米憎兽。這是估計(jì)冷离,可能有偏差。為什么要估計(jì)纯命?我要是知道真實(shí)值西剥,我還估計(jì)?我有惨诠瞭空?!另外疗我,既然我估計(jì)了咆畏,我基本還是敢說(shuō),他倆身高決不會(huì)超過(guò)180厘米吴裤。假陽(yáng)率FPR就是兩位大神的身高旧找,假發(fā)現(xiàn)率FDR就是我們的估計(jì)……
這么說(shuō),如果我們?cè)O(shè)FDR為1%麦牺,從統(tǒng)計(jì)學(xué)角度講钮蛛,就表示我們可以接受這樣的匹配結(jié)果列表:其中有99%的匹配是正確的,只有1%的匹配是錯(cuò)誤的枕面。當(dāng)然愿卒,我們也可以心大一點(diǎn),比如把FDR設(shè)到10%潮秘,那你肯定會(huì)得到長(zhǎng)得多的結(jié)果報(bào)告琼开,但問(wèn)題是,這里面是錯(cuò)誤匹配的可能性也會(huì)高得多枕荞!
懂了嗎柜候,親搞动?不同于p-value或者E-value只能評(píng)估單個(gè)肽段的可信度,F(xiàn)DR卻是為評(píng)價(jià)整體匹配結(jié)果的正確率而生的渣刷!樣本中肽段(或蛋白)越多鹦肿,它的重要性越明顯!
那么辅柴,F(xiàn)DR是怎么算的呢箩溃?話說(shuō),最早提出這個(gè)評(píng)價(jià)指標(biāo)是一位叫Benjamini的大爺碌嘀,按照他的思路涣旨,在鳥(niǎo)槍法蛋白質(zhì)組學(xué)中,F(xiàn)DR就是一把切菜刀股冗,鑒定結(jié)果的列表就是一根香腸霹陡,p-value越小的瘦肉,放在越前面止状,越往后肉越肥烹棉,然后從前面開(kāi)始切,切到p-value大于一個(gè)閾值怯疤,就不切了浆洗,切好的拿來(lái)炒菜,剩下的都丟掉集峦!
這就是大名鼎鼎的The Bonferroni Method辅髓,詳細(xì)的解釋有興趣的童鞋可以找文獻(xiàn)來(lái)讀,我們只需要知道的是少梁,這種思路搞出來(lái)的切菜刀太過(guò)苛刻,符合打分的鑒定結(jié)果越多矫付,F(xiàn)DR卡值越嚴(yán)格凯沪,而最終能被切到的香腸片卻可能只是寥寥,大部分都被扔掉了买优!這多浪費(fèi)啊妨马,還能不能愉快地炒菜了?杀赢!
針對(duì)這種情況烘跺,后面又有各種大牛來(lái)改進(jìn)思路,比如BH方法之類(lèi)的脂崔,總之目的都是為了不要矯枉過(guò)正滤淳,才能在保證正確率的前提下,又能切到足夠多的香腸片砌左。目前主流的軟件用到的計(jì)算方法大體分兩類(lèi):
目標(biāo)庫(kù)誘餌庫(kù)策略(Target-Decoy Approach脖咐,TDA)
這個(gè)名字看著很長(zhǎng)铺敌,其實(shí)很簡(jiǎn)單,相信很多童鞋多多少少也聽(tīng)過(guò)屁擅,就是我們通常說(shuō)的Decoy反庫(kù)偿凭。Decoy庫(kù)里的蛋白質(zhì)序列一般是目標(biāo)庫(kù)(Target)序列的反向序列或者隨機(jī)打亂后的序列,總之就是實(shí)際不存在的序列派歌,因此發(fā)生在反庫(kù)的肽譜匹配我們就認(rèn)為是錯(cuò)誤的匹配弯囊,可以用來(lái)評(píng)估FDR。
一些主流的軟件都有Decoy參數(shù)胶果,比如Mascot匾嘱,如果你想使用這種方法進(jìn)行質(zhì)控,就勾上Decoy選項(xiàng)稽物,軟件就用根據(jù)你設(shè)定的目標(biāo)蛋白庫(kù)奄毡,自動(dòng)生成一個(gè)反庫(kù),進(jìn)行FDR的評(píng)估贝或。
經(jīng)驗(yàn)貝葉斯方法
看到這個(gè)名字吼过,估計(jì)有些人就要醉了!放心咪奖,小編不會(huì)整公式出來(lái)盗忱,實(shí)在感興趣的童鞋可以自行去讀文獻(xiàn),大家只需要了解羊赵,它的基本策略是將每張譜圖對(duì)應(yīng)的最好的匹配打分分布視為正確匹配打分分布與錯(cuò)誤匹配打分分布的混合分布趟佃,然后從混合分布中求解這兩類(lèi)分布,從而計(jì)算出FDR(以及PEP昧捷,后面會(huì)講到)闲昭。
使用這個(gè)算法最有名的軟件是PeptideProphet,后來(lái)還有一個(gè)更牛的改進(jìn)算法Percolator(基于半監(jiān)督學(xué)習(xí)模型的過(guò)濾算法)靡挥,能夠過(guò)濾得到更多可靠的結(jié)果序矩。目前Percolator已經(jīng)被移植到Mascot、X!Tandem跋破、OMSSA以及MSGF+等搜索引擎中簸淀,并且都獲得了很好的效果。大家用的時(shí)候心里有個(gè)譜就可以了~
q-value
給定一個(gè)按打分從好到壞排序好的鑒定結(jié)果列表毒返,前100個(gè)來(lái)自正庫(kù)租幕,第101個(gè)來(lái)自反庫(kù)。那么拧簸,這101個(gè)結(jié)果組成的集合的FDR為1%(D/T=1/100=0.01)劲绪。繼續(xù)往下數(shù)到201個(gè),依然來(lái)自正庫(kù),此時(shí)FDR反而一直是小于1%的(D/T=1/201=0.005)珠叔。到第202個(gè)結(jié)果蝎宇,來(lái)自反庫(kù),此時(shí)這202個(gè)結(jié)果組成的集合的FDR又變?yōu)?%(D/T=2/200=0.01)祷安。上面這個(gè)過(guò)程姥芥,F(xiàn)DR是一個(gè)從0到0.01,再減小汇鞭,再到0.01的過(guò)程凉唐。也就是FDR不是單調(diào)的。這讓處女座的科研人員怎可忍受霍骄?台囱!
q-values就是能夠過(guò)濾出打分為x的肽譜匹配所需的最小FDR閾值,它是對(duì)FDR在打分上的單調(diào)化读整。還是上面那個(gè)按打分從好到壞排序好的鑒定結(jié)果列表簿训,設(shè)定q-value為0.01表示我要202個(gè)結(jié)果(其中2個(gè)來(lái)自反庫(kù))組成的集合,不要101個(gè)結(jié)果(其中1個(gè)來(lái)自反庫(kù))組成的集合米间。
PEP
說(shuō)完了q-value强品,你以為就結(jié)束了嗎?想得美屈糊!還有一個(gè)重要的統(tǒng)計(jì)學(xué)指標(biāo)的榛,小編還沒(méi)介紹呢!
PEP(Posterior Error Probability)逻锐,翻譯過(guò)來(lái)叫后驗(yàn)錯(cuò)誤率夫晌。聽(tīng)起來(lái)好像很?chē)樔耍忉屍饋?lái)其實(shí)很簡(jiǎn)單昧诱,就是一個(gè)肽段匹配是錯(cuò)誤的概率晓淀。比如針對(duì)EAMRQPK這個(gè)匹配結(jié)果的PEP是5%,就表示有95%的可能性EAMRQPK這個(gè)結(jié)果是對(duì)的盏档!
看問(wèn)題呢要糊,我們多換幾個(gè)角度,理解就會(huì)更深刻一些妆丘。比如PEP,它與FDR是啥關(guān)系呢局劲?畫(huà)個(gè)圖大伙兒就清楚了:
從圖上看很直觀了勺拣,PEP是針對(duì)單個(gè)結(jié)果的假陽(yáng)性率評(píng)估,所以是線段與線段的比值鱼填;FDR是針對(duì)整個(gè)集合的假陽(yáng)性率評(píng)估药有,所以是面積對(duì)面積的比值。FDR就是所有PEP線段的集合(積分),所以愤惰,PEP又叫做局部FDR苇经,就是這么來(lái)的~
既然PEP與FDR友誼這么深,剛才小編列舉的計(jì)算FDR的兩種算法思路(搜反庫(kù)策略以及貝葉斯方法)也同樣適用于PEP哦宦言!
如果你真的有這個(gè)疑惑扇单,說(shuō)明你已經(jīng)進(jìn)入狀態(tài)了,恭喜奠旺!接下來(lái)小編就來(lái)回答這個(gè)問(wèn)題蜘澜,建議你拿個(gè)小本本記下來(lái)~
在針對(duì)肽段匹配的質(zhì)控環(huán)節(jié),q-value和PEP被認(rèn)為是非常重要的兩個(gè)指標(biāo)响疚,該用哪個(gè)指標(biāo)取決你的研究目的:
- 請(qǐng)用q-value:如果你想知道樣本里都有些什么肽段(蛋白)鄙信,或者在系統(tǒng)層次研討這些蛋白的生物通路、互作網(wǎng)絡(luò)忿晕、功能聚類(lèi)等特性装诡;
- 請(qǐng)用PEP:就想知道特定的那個(gè)肽段(或蛋白)到底在不在我的樣本中;
小結(jié)
不知不覺(jué)又扯了這么多践盼,能看完整篇的童鞋舉個(gè)手鸦采,小編都覺(jué)得很感動(dòng)!在結(jié)束這燒腦的推文之前宏侍,再簡(jiǎn)單地總結(jié)一下吧~
我們一共聊了五個(gè)統(tǒng)計(jì)學(xué)指標(biāo)赖淤,其中p-value和E-value是一對(duì),而FDR谅河、q- value以及PEP是一伙兒咱旱。如果我們只用p-value/E-value來(lái)篩選結(jié)果,約束就過(guò)余寬松绷耍,難以控制整體結(jié)果的質(zhì)量吐限;如果我們用Bonferroni策略來(lái)嚴(yán)格限制p-value,又過(guò)余苛刻(回憶一下切香腸的例子)褂始,比較適中的是PEP和q- value诸典,當(dāng)我們的研究目標(biāo)是特定的某個(gè)肽段或蛋白時(shí),用PEP最合適崎苗,當(dāng)我們的研究目標(biāo)是整個(gè)蛋白集合時(shí)狐粱,q- value最合適!
好吧胆数,關(guān)于統(tǒng)計(jì)參數(shù)的介紹就寫(xiě)到這里了肌蜻,小編已經(jīng)盡力了,但仍然不免錯(cuò)誤和不嚴(yán)謹(jǐn)之處必尼,歡迎各種大神留言指正蒋搜,也歡迎小伙伴們提問(wèn)討論~
**特別致謝:
中科院計(jì)算所pFind團(tuán)隊(duì)提供的寫(xiě)作素材和專(zhuān)業(yè)指導(dǎo)篡撵!
參考文獻(xiàn)**
Kall L, Storey J D, MacCoss M J, et al.Posterior error probabilities and false discovery rates: Two sides of the same coin. J Proteome Res, 2008, 7(1): 40-4
Benjamini Y, Hochberg Y. Controlling the False Discovery Rate - a Practical and Powerful Approach to Multiple Testing. J Roy Stat Soc B, 1995, 57(1): 289-300
Storey J D. A direct approach to false discovery rates. J Roy Stat Soc B, 2002, 64(3): 479-98
Efron B, Tibshirani R. Empirical bayes methods and false discovery rates for microarrays. Genet Epidemiol, 2002, 23(1): 70-86
Moore R E, Young M K, Lee T D. Qscore: an algorithm for evaluating SEQUEST database search results. J Am Soc Mass Spectrom, 2002, 13(4): 378-86
Keller A, Nesvizhskii A I, Kolker E, et al. Empirical statistical model to estimate the accuracy of peptide identifications made by MS/MS and database search. Anal Chem, 2002, 74(20): 5383-92
Kall L, Canterbury J D, Weston J, et al. Semi-supervised learning for peptide identification from shotgun proteomics datasets. Nat Methods, 2007, 4(11): 923-5