2019-11-12 人氣推文p值非春、E值柱徙、FDR、q值…你暈菜了嗎奇昙？續(xù)集來(lái)啦护侮！

轉(zhuǎn)發(fā)自http://crickcollege.com/news/148.html

承前

小編很驚喜地看到，上一篇介紹蛋白質(zhì)組學(xué)統(tǒng)計(jì)學(xué)參數(shù)的推文在朋友圈著實(shí)火了一把储耐，真心感謝各路大俠小俠們的包涵和鼓勵(lì)羊初！篇幅所限，當(dāng)時(shí)只聊了p值和E值什湘，很多小伙伴讀完后都發(fā)來(lái)消息长赞，表示十分期待后續(xù)的FDR和q值！小編也一直把此事掛在心上禽炬，但由于近來(lái)雜事纏事涧卵，一晃就是一個(gè)地球月過(guò)去了，這才把第二篇完成腹尖，讓大伙兒久等了柳恐，在此深表歉意！
>> p值热幔、E值乐设、FDR、q值…你暈菜了嗎绎巨？

溫故

在繼續(xù)開(kāi)扒之前近尚，我們先來(lái)回顧一下總表：

image

雖然這張表已經(jīng)第二次露臉了，但小編明白场勤，要你愛(ài)上它的概率仍然是很低很低的戈锻！不過(guò)不要緊歼跟，你就當(dāng)它是課程表就好，根據(jù)表上的順序格遭，下面我們就開(kāi)始聊假發(fā)現(xiàn)率FDR哈街、q-value以及后驗(yàn)錯(cuò)誤率PEP。

FDR
當(dāng)FDR的字眼出現(xiàn)在屏幕上時(shí)拒迅，你心中是否有這樣的疑問(wèn)：不是已經(jīng)有p-value和E-value了嗎骚秦？還不夠用來(lái)評(píng)估鑒定結(jié)果么？又整出一堆幺蛾子干啥璧微？

講真作箍，小編認(rèn)為這是一個(gè)好問(wèn)題！要說(shuō)清楚呢前硫，我們還是舉個(gè)例子先：

image

假設(shè)我有很多袋彩球胞得，每袋100顆，其中紫色球95顆（代表正確的鑒定結(jié)果）开瞭，其它顏色的球5顆（代表錯(cuò)誤的鑒定結(jié)果）：

把一袋彩球倒入一個(gè)盒子里懒震，隨機(jī)從盒子里抽出一個(gè)球，抽到紫色球的概率為0.95嗤详，這個(gè)都會(huì)算吧。
把兩袋彩球倒入一個(gè)盒子里瓷炮，隨機(jī)從盒子里同時(shí)抽出兩個(gè)球葱色，抽到兩個(gè)紫色球的概率為：0.95*0.95=0.9025
把一百袋彩球倒入一個(gè)盒子里，隨機(jī)從盒子里同時(shí)抽出100個(gè)球娘香，抽到100個(gè)紫色球的概率為100個(gè)0.95相乘苍狰，即0.005921！

發(fā)現(xiàn)沒(méi)有烘绽？雖然每個(gè)袋子里鑒定結(jié)果的正確率是很高的（紫色球占95%）淋昭，但是當(dāng)鑒定的肽段（或蛋白）數(shù)量非常多的時(shí)候，我們也完全保證不了整個(gè)結(jié)果集合的正確率安接！

無(wú)論是p-value還是E-value翔忽，也是類(lèi)似的道理，它們只針對(duì)單個(gè)肽段進(jìn)行可信度的評(píng)估盏檐，如果我們不對(duì)所有肽段匹配結(jié)果進(jìn)行一個(gè)整體的質(zhì)控歇式，單個(gè)肽段的錯(cuò)誤率就在集合中累積，甚至嚴(yán)重影響整個(gè)結(jié)果報(bào)告的可信度胡野！

怎么來(lái)對(duì)整個(gè)結(jié)果的數(shù)據(jù)集進(jìn)行質(zhì)控呢材失？這就需要整點(diǎn)更高端的，行話叫“多重假設(shè)檢驗(yàn)”硫豆，此處龙巨，F(xiàn)DR閃亮登場(chǎng)笼呆！

FDR全名叫False-Discovery Rate，嚴(yán)格一些旨别，準(zhǔn)確翻譯為“假發(fā)現(xiàn)率”诗赌，決不能稱(chēng)為“假陽(yáng)率（FPR，F(xiàn)alse Positive Rate）”昼榛。FDR表示錯(cuò)誤拒絕零假設(shè)的個(gè)數(shù)占所有被拒絕假設(shè)的比例的期望境肾。其中，期望表示對(duì)真實(shí)值的估計(jì)胆屿。直觀說(shuō)奥喻，可以認(rèn)為假發(fā)現(xiàn)率FDR是對(duì)假陽(yáng)率FPR的估計(jì)。這種定義非迹，是不是看著就想吐血环鲤？

image

先忍忍，聽(tīng)小編跟你解釋?zhuān)∥覀兛梢怨烙?jì)韓寒和郭敬明的身高為170厘米憎兽。這是估計(jì)冷离，可能有偏差。為什么要估計(jì)纯命？我要是知道真實(shí)值西剥，我還估計(jì)？我有惨诠瞭空？！另外疗我，既然我估計(jì)了咆畏，我基本還是敢說(shuō)，他倆身高決不會(huì)超過(guò)180厘米吴裤。假陽(yáng)率FPR就是兩位大神的身高旧找，假發(fā)現(xiàn)率FDR就是我們的估計(jì)……

這么說(shuō)，如果我們?cè)O(shè)FDR為1%麦牺，從統(tǒng)計(jì)學(xué)角度講钮蛛，就表示我們可以接受這樣的匹配結(jié)果列表：其中有99%的匹配是正確的，只有1%的匹配是錯(cuò)誤的枕面。當(dāng)然愿卒，我們也可以心大一點(diǎn)，比如把FDR設(shè)到10%潮秘，那你肯定會(huì)得到長(zhǎng)得多的結(jié)果報(bào)告琼开，但問(wèn)題是，這里面是錯(cuò)誤匹配的可能性也會(huì)高得多枕荞！

懂了嗎柜候，親搞动？不同于p-value或者E-value只能評(píng)估單個(gè)肽段的可信度，F(xiàn)DR卻是為評(píng)價(jià)整體匹配結(jié)果的正確率而生的渣刷！樣本中肽段（或蛋白）越多鹦肿，它的重要性越明顯！

那么辅柴，F(xiàn)DR是怎么算的呢箩溃？話說(shuō)，最早提出這個(gè)評(píng)價(jià)指標(biāo)是一位叫Benjamini的大爺碌嘀，按照他的思路涣旨，在鳥(niǎo)槍法蛋白質(zhì)組學(xué)中，F(xiàn)DR就是一把切菜刀股冗，鑒定結(jié)果的列表就是一根香腸霹陡，p-value越小的瘦肉，放在越前面止状，越往后肉越肥烹棉，然后從前面開(kāi)始切，切到p-value大于一個(gè)閾值怯疤，就不切了浆洗，切好的拿來(lái)炒菜，剩下的都丟掉集峦！

image

這就是大名鼎鼎的The Bonferroni Method辅髓，詳細(xì)的解釋有興趣的童鞋可以找文獻(xiàn)來(lái)讀，我們只需要知道的是少梁，這種思路搞出來(lái)的切菜刀太過(guò)苛刻，符合打分的鑒定結(jié)果越多矫付，F(xiàn)DR卡值越嚴(yán)格凯沪，而最終能被切到的香腸片卻可能只是寥寥，大部分都被扔掉了买优！這多浪費(fèi)啊妨马，還能不能愉快地炒菜了？杀赢！

針對(duì)這種情況烘跺，后面又有各種大牛來(lái)改進(jìn)思路，比如BH方法之類(lèi)的脂崔，總之目的都是為了不要矯枉過(guò)正滤淳，才能在保證正確率的前提下，又能切到足夠多的香腸片砌左。目前主流的軟件用到的計(jì)算方法大體分兩類(lèi)：

目標(biāo)庫(kù)誘餌庫(kù)策略（Target-Decoy Approach脖咐，TDA）

這個(gè)名字看著很長(zhǎng)铺敌，其實(shí)很簡(jiǎn)單，相信很多童鞋多多少少也聽(tīng)過(guò)屁擅，就是我們通常說(shuō)的Decoy反庫(kù)偿凭。Decoy庫(kù)里的蛋白質(zhì)序列一般是目標(biāo)庫(kù)（Target）序列的反向序列或者隨機(jī)打亂后的序列，總之就是實(shí)際不存在的序列派歌，因此發(fā)生在反庫(kù)的肽譜匹配我們就認(rèn)為是錯(cuò)誤的匹配弯囊，可以用來(lái)評(píng)估FDR。

一些主流的軟件都有Decoy參數(shù)胶果，比如Mascot匾嘱，如果你想使用這種方法進(jìn)行質(zhì)控，就勾上Decoy選項(xiàng)稽物，軟件就用根據(jù)你設(shè)定的目標(biāo)蛋白庫(kù)奄毡，自動(dòng)生成一個(gè)反庫(kù)，進(jìn)行FDR的評(píng)估贝或。

經(jīng)驗(yàn)貝葉斯方法

看到這個(gè)名字吼过，估計(jì)有些人就要醉了！放心咪奖，小編不會(huì)整公式出來(lái)盗忱，實(shí)在感興趣的童鞋可以自行去讀文獻(xiàn)，大家只需要了解羊赵，它的基本策略是將每張譜圖對(duì)應(yīng)的最好的匹配打分分布視為正確匹配打分分布與錯(cuò)誤匹配打分分布的混合分布趟佃，然后從混合分布中求解這兩類(lèi)分布，從而計(jì)算出FDR（以及PEP昧捷，后面會(huì)講到）闲昭。

使用這個(gè)算法最有名的軟件是PeptideProphet，后來(lái)還有一個(gè)更牛的改進(jìn)算法Percolator（基于半監(jiān)督學(xué)習(xí)模型的過(guò)濾算法）靡挥，能夠過(guò)濾得到更多可靠的結(jié)果序矩。目前Percolator已經(jīng)被移植到Mascot、X!Tandem跋破、OMSSA以及MSGF+等搜索引擎中簸淀，并且都獲得了很好的效果。大家用的時(shí)候心里有個(gè)譜就可以了~

image

q-value

給定一個(gè)按打分從好到壞排序好的鑒定結(jié)果列表毒返，前100個(gè)來(lái)自正庫(kù)租幕，第101個(gè)來(lái)自反庫(kù)。那么拧簸，這101個(gè)結(jié)果組成的集合的FDR為1%（D/T=1/100=0.01）劲绪。繼續(xù)往下數(shù)到201個(gè)，依然來(lái)自正庫(kù)，此時(shí)FDR反而一直是小于1%的（D/T=1/201=0.005）珠叔。到第202個(gè)結(jié)果蝎宇，來(lái)自反庫(kù)，此時(shí)這202個(gè)結(jié)果組成的集合的FDR又變?yōu)?%（D/T=2/200=0.01）祷安。上面這個(gè)過(guò)程姥芥，F(xiàn)DR是一個(gè)從0到0.01，再減小汇鞭，再到0.01的過(guò)程凉唐。也就是FDR不是單調(diào)的。這讓處女座的科研人員怎可忍受霍骄？台囱！

image

q-values就是能夠過(guò)濾出打分為x的肽譜匹配所需的最小FDR閾值，它是對(duì)FDR在打分上的單調(diào)化读整。還是上面那個(gè)按打分從好到壞排序好的鑒定結(jié)果列表簿训，設(shè)定q-value為0.01表示我要202個(gè)結(jié)果（其中2個(gè)來(lái)自反庫(kù)）組成的集合，不要101個(gè)結(jié)果（其中1個(gè)來(lái)自反庫(kù)）組成的集合米间。

PEP

說(shuō)完了q-value强品，你以為就結(jié)束了嗎？想得美屈糊！還有一個(gè)重要的統(tǒng)計(jì)學(xué)指標(biāo)的榛，小編還沒(méi)介紹呢！

PEP（Posterior Error Probability）逻锐，翻譯過(guò)來(lái)叫后驗(yàn)錯(cuò)誤率夫晌。聽(tīng)起來(lái)好像很?chē)樔耍忉屍饋?lái)其實(shí)很簡(jiǎn)單昧诱，就是一個(gè)肽段匹配是錯(cuò)誤的概率晓淀。比如針對(duì)EAMRQPK這個(gè)匹配結(jié)果的PEP是5%，就表示有95%的可能性EAMRQPK這個(gè)結(jié)果是對(duì)的盏档！

看問(wèn)題呢要糊，我們多換幾個(gè)角度，理解就會(huì)更深刻一些妆丘。比如PEP，它與FDR是啥關(guān)系呢局劲？畫(huà)個(gè)圖大伙兒就清楚了：

image

從圖上看很直觀了勺拣，PEP是針對(duì)單個(gè)結(jié)果的假陽(yáng)性率評(píng)估，所以是線段與線段的比值鱼填；FDR是針對(duì)整個(gè)集合的假陽(yáng)性率評(píng)估药有，所以是面積對(duì)面積的比值。FDR就是所有PEP線段的集合（積分），所以愤惰，PEP又叫做局部FDR苇经，就是這么來(lái)的~

既然PEP與FDR友誼這么深，剛才小編列舉的計(jì)算FDR的兩種算法思路（搜反庫(kù)策略以及貝葉斯方法）也同樣適用于PEP哦宦言！

如果你真的有這個(gè)疑惑扇单，說(shuō)明你已經(jīng)進(jìn)入狀態(tài)了，恭喜奠旺！接下來(lái)小編就來(lái)回答這個(gè)問(wèn)題蜘澜，建議你拿個(gè)小本本記下來(lái)~

在針對(duì)肽段匹配的質(zhì)控環(huán)節(jié)，q-value和PEP被認(rèn)為是非常重要的兩個(gè)指標(biāo)响疚，該用哪個(gè)指標(biāo)取決你的研究目的：

請(qǐng)用q-value：如果你想知道樣本里都有些什么肽段（蛋白）鄙信，或者在系統(tǒng)層次研討這些蛋白的生物通路、互作網(wǎng)絡(luò)忿晕、功能聚類(lèi)等特性装诡；
請(qǐng)用PEP：就想知道特定的那個(gè)肽段（或蛋白）到底在不在我的樣本中；

小結(jié)

不知不覺(jué)又扯了這么多践盼，能看完整篇的童鞋舉個(gè)手鸦采，小編都覺(jué)得很感動(dòng)！在結(jié)束這燒腦的推文之前宏侍，再簡(jiǎn)單地總結(jié)一下吧~

image

我們一共聊了五個(gè)統(tǒng)計(jì)學(xué)指標(biāo)赖淤，其中p-value和E-value是一對(duì)，而FDR谅河、q- value以及PEP是一伙兒咱旱。如果我們只用p-value/E-value來(lái)篩選結(jié)果，約束就過(guò)余寬松绷耍，難以控制整體結(jié)果的質(zhì)量吐限；如果我們用Bonferroni策略來(lái)嚴(yán)格限制p-value，又過(guò)余苛刻（回憶一下切香腸的例子）褂始，比較適中的是PEP和q- value诸典，當(dāng)我們的研究目標(biāo)是特定的某個(gè)肽段或蛋白時(shí)，用PEP最合適崎苗，當(dāng)我們的研究目標(biāo)是整個(gè)蛋白集合時(shí)狐粱，q- value最合適！

好吧胆数，關(guān)于統(tǒng)計(jì)參數(shù)的介紹就寫(xiě)到這里了肌蜻，小編已經(jīng)盡力了，但仍然不免錯(cuò)誤和不嚴(yán)謹(jǐn)之處必尼，歡迎各種大神留言指正蒋搜，也歡迎小伙伴們提問(wèn)討論~

**特別致謝：
中科院計(jì)算所pFind團(tuán)隊(duì)提供的寫(xiě)作素材和專(zhuān)業(yè)指導(dǎo)篡撵！

參考文獻(xiàn)**

Kall L, Storey J D, MacCoss M J, et al.Posterior error probabilities and false discovery rates: Two sides of the same coin. J Proteome Res, 2008, 7(1): 40-4

Benjamini Y, Hochberg Y. Controlling the False Discovery Rate - a Practical and Powerful Approach to Multiple Testing. J Roy Stat Soc B, 1995, 57(1): 289-300

Storey J D. A direct approach to false discovery rates. J Roy Stat Soc B, 2002, 64(3): 479-98

Efron B, Tibshirani R. Empirical bayes methods and false discovery rates for microarrays. Genet Epidemiol, 2002, 23(1): 70-86

Moore R E, Young M K, Lee T D. Qscore: an algorithm for evaluating SEQUEST database search results. J Am Soc Mass Spectrom, 2002, 13(4): 378-86

Keller A, Nesvizhskii A I, Kolker E, et al. Empirical statistical model to estimate the accuracy of peptide identifications made by MS/MS and database search. Anal Chem, 2002, 74(20): 5383-92

Kall L, Canterbury J D, Weston J, et al. Semi-supervised learning for peptide identification from shotgun proteomics datasets. Nat Methods, 2007, 4(11): 923-5

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市豆挽，隨后出現(xiàn)的幾起案子育谬，更是在濱河造成了極大的恐慌，老刑警劉巖帮哈，帶你破解...
沈念sama閱讀 218,284評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件膛檀，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡但汞，警方通過(guò)查閱死者的電腦和手機(jī)宿刮，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,115評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)私蕾，“玉大人僵缺，你說(shuō)我怎么就攤上這事〔劝龋” “怎么了磕潮？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,614評(píng)論 0贊 354
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)容贝。經(jīng)常有香客問(wèn)我自脯，道長(zhǎng)，這世上最難降的妖魔是什么斤富？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,671評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任膏潮，我火速辦了婚禮，結(jié)果婚禮上满力，老公的妹妹穿的比我還像新娘焕参。我一直安慰自己，他們只是感情好油额，可當(dāng)我...
茶點(diǎn)故事閱讀 67,699評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布叠纷。她就那樣靜靜地躺著，像睡著了一般潦嘶。火紅的嫁衣襯著肌膚如雪涩嚣。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,562評(píng)論 1贊 305
城市分裂傳說(shuō)
那天掂僵，我揣著相機(jī)與錄音航厚，去河邊找鬼。笑死锰蓬，一個(gè)胖子當(dāng)著我的面吹牛阶淘，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播互妓，決...
沈念sama閱讀 40,309評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了冯勉？” 一聲冷哼從身側(cè)響起澈蚌，我...
開(kāi)封第一講書(shū)人閱讀 39,223評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎灼狰，沒(méi)想到半個(gè)月后宛瞄，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,668評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡交胚，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,859評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年份汗，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蝴簇。...
茶點(diǎn)故事閱讀 39,981評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡杯活，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出熬词，到底是詐尸還是另有隱情旁钧，我是刑警寧澤，帶...
沈念sama閱讀 35,705評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布互拾，位于F島的核電站歪今，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏颜矿。R本人自食惡果不足惜寄猩，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,310評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望骑疆。院中可真熱鬧田篇，春花似錦、人聲如沸封断。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,904評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)坡疼。三九已至彬呻，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間柄瑰，已是汗流浹背闸氮。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,023評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留教沾，地道東北人蒲跨。一個(gè)月前我還...
沈念sama閱讀 48,146評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像授翻，于是被迫代替她去往敵國(guó)和親或悲。傳聞我的和親對(duì)象是個(gè)殘疾皇子孙咪，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,933評(píng)論 2贊 355

2019-11-12 人氣推文p值虎锚、E值、FDR衩婚、q值…你暈菜了嗎窜护？續(xù)集來(lái)啦！

2019-11-12 人氣推文p值非春、E值柱徙、FDR、q值…你暈菜了嗎奇昙？續(xù)集來(lái)啦护侮！

轉(zhuǎn)發(fā)自http://crickcollege.com/news/148.html

推薦閱讀更多精彩內(nèi)容