2019-11-12 人氣推文p值非春、E值柱徙、FDR、q值…你暈菜了嗎奇昙?續(xù)集來(lái)啦护侮!

轉(zhuǎn)發(fā)自http://crickcollege.com/news/148.html

承前

小編很驚喜地看到,上一篇介紹蛋白質(zhì)組學(xué)統(tǒng)計(jì)學(xué)參數(shù)的推文在朋友圈著實(shí)火了一把储耐,真心感謝各路大俠小俠們的包涵和鼓勵(lì)羊初!篇幅所限,當(dāng)時(shí)只聊了p值和E值什湘,很多小伙伴讀完后都發(fā)來(lái)消息长赞,表示十分期待后續(xù)的FDR和q值!小編也一直把此事掛在心上禽炬,但由于近來(lái)雜事纏事涧卵,一晃就是一個(gè)地球月過(guò)去了,這才把第二篇完成腹尖,讓大伙兒久等了柳恐,在此深表歉意!
>> p值热幔、E值乐设、FDR、q值…你暈菜了嗎绎巨?

溫故

在繼續(xù)開(kāi)扒之前近尚,我們先來(lái)回顧一下總表:

image

雖然這張表已經(jīng)第二次露臉了,但小編明白场勤,要你愛(ài)上它的概率仍然是很低很低的戈锻!不過(guò)不要緊歼跟,你就當(dāng)它是課程表就好,根據(jù)表上的順序格遭,下面我們就開(kāi)始聊假發(fā)現(xiàn)率FDR哈街、q-value以及后驗(yàn)錯(cuò)誤率PEP。

FDR
當(dāng)FDR的字眼出現(xiàn)在屏幕上時(shí)拒迅,你心中是否有這樣的疑問(wèn):不是已經(jīng)有p-value和E-value了嗎骚秦?還不夠用來(lái)評(píng)估鑒定結(jié)果么?又整出一堆幺蛾子干啥璧微?

講真作箍,小編認(rèn)為這是一個(gè)好問(wèn)題!要說(shuō)清楚呢前硫,我們還是舉個(gè)例子先:

image

假設(shè)我有很多袋彩球胞得,每袋100顆,其中紫色球95顆(代表正確的鑒定結(jié)果)开瞭,其它顏色的球5顆(代表錯(cuò)誤的鑒定結(jié)果):

  • 把一袋彩球倒入一個(gè)盒子里懒震,隨機(jī)從盒子里抽出一個(gè)球,抽到紫色球的概率為0.95嗤详,這個(gè)都會(huì)算吧。
  • 把兩袋彩球倒入一個(gè)盒子里瓷炮,隨機(jī)從盒子里同時(shí)抽出兩個(gè)球葱色,抽到兩個(gè)紫色球的概率為:0.95*0.95=0.9025
  • 把一百袋彩球倒入一個(gè)盒子里,隨機(jī)從盒子里同時(shí)抽出100個(gè)球娘香,抽到100個(gè)紫色球的概率為100個(gè)0.95相乘苍狰,即0.005921!

發(fā)現(xiàn)沒(méi)有烘绽?雖然每個(gè)袋子里鑒定結(jié)果的正確率是很高的(紫色球占95%)淋昭,但是當(dāng)鑒定的肽段(或蛋白)數(shù)量非常多的時(shí)候,我們也完全保證不了整個(gè)結(jié)果集合的正確率安接!

無(wú)論是p-value還是E-value翔忽,也是類(lèi)似的道理,它們只針對(duì)單個(gè)肽段進(jìn)行可信度的評(píng)估盏檐,如果我們不對(duì)所有肽段匹配結(jié)果進(jìn)行一個(gè)整體的質(zhì)控歇式,單個(gè)肽段的錯(cuò)誤率就在集合中累積,甚至嚴(yán)重影響整個(gè)結(jié)果報(bào)告的可信度胡野!

怎么來(lái)對(duì)整個(gè)結(jié)果的數(shù)據(jù)集進(jìn)行質(zhì)控呢材失?這就需要整點(diǎn)更高端的,行話叫“多重假設(shè)檢驗(yàn)”硫豆,此處龙巨,F(xiàn)DR閃亮登場(chǎng)笼呆!

FDR全名叫False-Discovery Rate,嚴(yán)格一些旨别,準(zhǔn)確翻譯為“假發(fā)現(xiàn)率”诗赌,決不能稱(chēng)為“假陽(yáng)率(FPR,F(xiàn)alse Positive Rate)”昼榛。FDR表示錯(cuò)誤拒絕零假設(shè)的個(gè)數(shù)占所有被拒絕假設(shè)的比例的期望境肾。其中,期望表示對(duì)真實(shí)值的估計(jì)胆屿。直觀說(shuō)奥喻,可以認(rèn)為假發(fā)現(xiàn)率FDR是對(duì)假陽(yáng)率FPR的估計(jì)。這種定義非迹,是不是看著就想吐血环鲤?

image

先忍忍,聽(tīng)小編跟你解釋?zhuān)∥覀兛梢怨烙?jì)韓寒和郭敬明的身高為170厘米憎兽。這是估計(jì)冷离,可能有偏差。為什么要估計(jì)纯命?我要是知道真實(shí)值西剥,我還估計(jì)?我有惨诠瞭空?!另外疗我,既然我估計(jì)了咆畏,我基本還是敢說(shuō),他倆身高決不會(huì)超過(guò)180厘米吴裤。假陽(yáng)率FPR就是兩位大神的身高旧找,假發(fā)現(xiàn)率FDR就是我們的估計(jì)……

這么說(shuō),如果我們?cè)O(shè)FDR為1%麦牺,從統(tǒng)計(jì)學(xué)角度講钮蛛,就表示我們可以接受這樣的匹配結(jié)果列表:其中有99%的匹配是正確的,只有1%的匹配是錯(cuò)誤的枕面。當(dāng)然愿卒,我們也可以心大一點(diǎn),比如把FDR設(shè)到10%潮秘,那你肯定會(huì)得到長(zhǎng)得多的結(jié)果報(bào)告琼开,但問(wèn)題是,這里面是錯(cuò)誤匹配的可能性也會(huì)高得多枕荞!

懂了嗎柜候,親搞动?不同于p-value或者E-value只能評(píng)估單個(gè)肽段的可信度,F(xiàn)DR卻是為評(píng)價(jià)整體匹配結(jié)果的正確率而生的渣刷!樣本中肽段(或蛋白)越多鹦肿,它的重要性越明顯!

那么辅柴,F(xiàn)DR是怎么算的呢箩溃?話說(shuō),最早提出這個(gè)評(píng)價(jià)指標(biāo)是一位叫Benjamini的大爺碌嘀,按照他的思路涣旨,在鳥(niǎo)槍法蛋白質(zhì)組學(xué)中,F(xiàn)DR就是一把切菜刀股冗,鑒定結(jié)果的列表就是一根香腸霹陡,p-value越小的瘦肉,放在越前面止状,越往后肉越肥烹棉,然后從前面開(kāi)始切,切到p-value大于一個(gè)閾值怯疤,就不切了浆洗,切好的拿來(lái)炒菜,剩下的都丟掉集峦!

image

這就是大名鼎鼎的The Bonferroni Method辅髓,詳細(xì)的解釋有興趣的童鞋可以找文獻(xiàn)來(lái)讀,我們只需要知道的是少梁,這種思路搞出來(lái)的切菜刀太過(guò)苛刻,符合打分的鑒定結(jié)果越多矫付,F(xiàn)DR卡值越嚴(yán)格凯沪,而最終能被切到的香腸片卻可能只是寥寥,大部分都被扔掉了买优!這多浪費(fèi)啊妨马,還能不能愉快地炒菜了?杀赢!

針對(duì)這種情況烘跺,后面又有各種大牛來(lái)改進(jìn)思路,比如BH方法之類(lèi)的脂崔,總之目的都是為了不要矯枉過(guò)正滤淳,才能在保證正確率的前提下,又能切到足夠多的香腸片砌左。目前主流的軟件用到的計(jì)算方法大體分兩類(lèi):

目標(biāo)庫(kù)誘餌庫(kù)策略(Target-Decoy Approach脖咐,TDA)

這個(gè)名字看著很長(zhǎng)铺敌,其實(shí)很簡(jiǎn)單,相信很多童鞋多多少少也聽(tīng)過(guò)屁擅,就是我們通常說(shuō)的Decoy反庫(kù)偿凭。Decoy庫(kù)里的蛋白質(zhì)序列一般是目標(biāo)庫(kù)(Target)序列的反向序列或者隨機(jī)打亂后的序列,總之就是實(shí)際不存在的序列派歌,因此發(fā)生在反庫(kù)的肽譜匹配我們就認(rèn)為是錯(cuò)誤的匹配弯囊,可以用來(lái)評(píng)估FDR。

一些主流的軟件都有Decoy參數(shù)胶果,比如Mascot匾嘱,如果你想使用這種方法進(jìn)行質(zhì)控,就勾上Decoy選項(xiàng)稽物,軟件就用根據(jù)你設(shè)定的目標(biāo)蛋白庫(kù)奄毡,自動(dòng)生成一個(gè)反庫(kù),進(jìn)行FDR的評(píng)估贝或。

經(jīng)驗(yàn)貝葉斯方法

看到這個(gè)名字吼过,估計(jì)有些人就要醉了!放心咪奖,小編不會(huì)整公式出來(lái)盗忱,實(shí)在感興趣的童鞋可以自行去讀文獻(xiàn),大家只需要了解羊赵,它的基本策略是將每張譜圖對(duì)應(yīng)的最好的匹配打分分布視為正確匹配打分分布與錯(cuò)誤匹配打分分布的混合分布趟佃,然后從混合分布中求解這兩類(lèi)分布,從而計(jì)算出FDR(以及PEP昧捷,后面會(huì)講到)闲昭。

使用這個(gè)算法最有名的軟件是PeptideProphet,后來(lái)還有一個(gè)更牛的改進(jìn)算法Percolator(基于半監(jiān)督學(xué)習(xí)模型的過(guò)濾算法)靡挥,能夠過(guò)濾得到更多可靠的結(jié)果序矩。目前Percolator已經(jīng)被移植到Mascot、X!Tandem跋破、OMSSA以及MSGF+等搜索引擎中簸淀,并且都獲得了很好的效果。大家用的時(shí)候心里有個(gè)譜就可以了~

image

q-value

給定一個(gè)按打分從好到壞排序好的鑒定結(jié)果列表毒返,前100個(gè)來(lái)自正庫(kù)租幕,第101個(gè)來(lái)自反庫(kù)。那么拧簸,這101個(gè)結(jié)果組成的集合的FDR為1%(D/T=1/100=0.01)劲绪。繼續(xù)往下數(shù)到201個(gè),依然來(lái)自正庫(kù),此時(shí)FDR反而一直是小于1%的(D/T=1/201=0.005)珠叔。到第202個(gè)結(jié)果蝎宇,來(lái)自反庫(kù),此時(shí)這202個(gè)結(jié)果組成的集合的FDR又變?yōu)?%(D/T=2/200=0.01)祷安。上面這個(gè)過(guò)程姥芥,F(xiàn)DR是一個(gè)從0到0.01,再減小汇鞭,再到0.01的過(guò)程凉唐。也就是FDR不是單調(diào)的。這讓處女座的科研人員怎可忍受霍骄?台囱!

image

q-values就是能夠過(guò)濾出打分為x的肽譜匹配所需的最小FDR閾值,它是對(duì)FDR在打分上的單調(diào)化读整。還是上面那個(gè)按打分從好到壞排序好的鑒定結(jié)果列表簿训,設(shè)定q-value為0.01表示我要202個(gè)結(jié)果(其中2個(gè)來(lái)自反庫(kù))組成的集合,不要101個(gè)結(jié)果(其中1個(gè)來(lái)自反庫(kù))組成的集合米间。

PEP

說(shuō)完了q-value强品,你以為就結(jié)束了嗎?想得美屈糊!還有一個(gè)重要的統(tǒng)計(jì)學(xué)指標(biāo)的榛,小編還沒(méi)介紹呢!

PEP(Posterior Error Probability)逻锐,翻譯過(guò)來(lái)叫后驗(yàn)錯(cuò)誤率夫晌。聽(tīng)起來(lái)好像很?chē)樔耍忉屍饋?lái)其實(shí)很簡(jiǎn)單昧诱,就是一個(gè)肽段匹配是錯(cuò)誤的概率晓淀。比如針對(duì)EAMRQPK這個(gè)匹配結(jié)果的PEP是5%,就表示有95%的可能性EAMRQPK這個(gè)結(jié)果是對(duì)的盏档!

看問(wèn)題呢要糊,我們多換幾個(gè)角度,理解就會(huì)更深刻一些妆丘。比如PEP,它與FDR是啥關(guān)系呢局劲?畫(huà)個(gè)圖大伙兒就清楚了:

image

從圖上看很直觀了勺拣,PEP是針對(duì)單個(gè)結(jié)果的假陽(yáng)性率評(píng)估,所以是線段與線段的比值鱼填;FDR是針對(duì)整個(gè)集合的假陽(yáng)性率評(píng)估药有,所以是面積對(duì)面積的比值。FDR就是所有PEP線段的集合(積分),所以愤惰,PEP又叫做局部FDR苇经,就是這么來(lái)的~

既然PEP與FDR友誼這么深,剛才小編列舉的計(jì)算FDR的兩種算法思路(搜反庫(kù)策略以及貝葉斯方法)也同樣適用于PEP哦宦言!

如果你真的有這個(gè)疑惑扇单,說(shuō)明你已經(jīng)進(jìn)入狀態(tài)了,恭喜奠旺!接下來(lái)小編就來(lái)回答這個(gè)問(wèn)題蜘澜,建議你拿個(gè)小本本記下來(lái)~

在針對(duì)肽段匹配的質(zhì)控環(huán)節(jié),q-value和PEP被認(rèn)為是非常重要的兩個(gè)指標(biāo)响疚,該用哪個(gè)指標(biāo)取決你的研究目的:

  • 請(qǐng)用q-value:如果你想知道樣本里都有些什么肽段(蛋白)鄙信,或者在系統(tǒng)層次研討這些蛋白的生物通路、互作網(wǎng)絡(luò)忿晕、功能聚類(lèi)等特性装诡;
  • 請(qǐng)用PEP:就想知道特定的那個(gè)肽段(或蛋白)到底在不在我的樣本中;

小結(jié)

不知不覺(jué)又扯了這么多践盼,能看完整篇的童鞋舉個(gè)手鸦采,小編都覺(jué)得很感動(dòng)!在結(jié)束這燒腦的推文之前宏侍,再簡(jiǎn)單地總結(jié)一下吧~

image

我們一共聊了五個(gè)統(tǒng)計(jì)學(xué)指標(biāo)赖淤,其中p-value和E-value是一對(duì),而FDR谅河、q- value以及PEP是一伙兒咱旱。如果我們只用p-value/E-value來(lái)篩選結(jié)果,約束就過(guò)余寬松绷耍,難以控制整體結(jié)果的質(zhì)量吐限;如果我們用Bonferroni策略來(lái)嚴(yán)格限制p-value,又過(guò)余苛刻(回憶一下切香腸的例子)褂始,比較適中的是PEP和q- value诸典,當(dāng)我們的研究目標(biāo)是特定的某個(gè)肽段或蛋白時(shí),用PEP最合適崎苗,當(dāng)我們的研究目標(biāo)是整個(gè)蛋白集合時(shí)狐粱,q- value最合適!

好吧胆数,關(guān)于統(tǒng)計(jì)參數(shù)的介紹就寫(xiě)到這里了肌蜻,小編已經(jīng)盡力了,但仍然不免錯(cuò)誤和不嚴(yán)謹(jǐn)之處必尼,歡迎各種大神留言指正蒋搜,也歡迎小伙伴們提問(wèn)討論~

**特別致謝:
中科院計(jì)算所pFind團(tuán)隊(duì)提供的寫(xiě)作素材和專(zhuān)業(yè)指導(dǎo)篡撵!

參考文獻(xiàn)**

Kall L, Storey J D, MacCoss M J, et al.Posterior error probabilities and false discovery rates: Two sides of the same coin. J Proteome Res, 2008, 7(1): 40-4

Benjamini Y, Hochberg Y. Controlling the False Discovery Rate - a Practical and Powerful Approach to Multiple Testing. J Roy Stat Soc B, 1995, 57(1): 289-300

Storey J D. A direct approach to false discovery rates. J Roy Stat Soc B, 2002, 64(3): 479-98

Efron B, Tibshirani R. Empirical bayes methods and false discovery rates for microarrays. Genet Epidemiol, 2002, 23(1): 70-86

Moore R E, Young M K, Lee T D. Qscore: an algorithm for evaluating SEQUEST database search results. J Am Soc Mass Spectrom, 2002, 13(4): 378-86

Keller A, Nesvizhskii A I, Kolker E, et al. Empirical statistical model to estimate the accuracy of peptide identifications made by MS/MS and database search. Anal Chem, 2002, 74(20): 5383-92

Kall L, Canterbury J D, Weston J, et al. Semi-supervised learning for peptide identification from shotgun proteomics datasets. Nat Methods, 2007, 4(11): 923-5

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市豆挽,隨后出現(xiàn)的幾起案子育谬,更是在濱河造成了極大的恐慌,老刑警劉巖帮哈,帶你破解...
    沈念sama閱讀 218,284評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件膛檀,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡但汞,警方通過(guò)查閱死者的電腦和手機(jī)宿刮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)私蕾,“玉大人僵缺,你說(shuō)我怎么就攤上這事〔劝龋” “怎么了磕潮?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,614評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)容贝。 經(jīng)常有香客問(wèn)我自脯,道長(zhǎng),這世上最難降的妖魔是什么斤富? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,671評(píng)論 1 293
  • 正文 為了忘掉前任膏潮,我火速辦了婚禮,結(jié)果婚禮上满力,老公的妹妹穿的比我還像新娘焕参。我一直安慰自己,他們只是感情好油额,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布叠纷。 她就那樣靜靜地躺著,像睡著了一般潦嘶。 火紅的嫁衣襯著肌膚如雪涩嚣。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,562評(píng)論 1 305
  • 那天掂僵,我揣著相機(jī)與錄音航厚,去河邊找鬼。 笑死锰蓬,一個(gè)胖子當(dāng)著我的面吹牛阶淘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播互妓,決...
    沈念sama閱讀 40,309評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了冯勉?” 一聲冷哼從身側(cè)響起澈蚌,我...
    開(kāi)封第一講書(shū)人閱讀 39,223評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎灼狰,沒(méi)想到半個(gè)月后宛瞄,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,668評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡交胚,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評(píng)論 3 336
  • 正文 我和宋清朗相戀三年份汗,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蝴簇。...
    茶點(diǎn)故事閱讀 39,981評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡杯活,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出熬词,到底是詐尸還是另有隱情旁钧,我是刑警寧澤,帶...
    沈念sama閱讀 35,705評(píng)論 5 347
  • 正文 年R本政府宣布互拾,位于F島的核電站歪今,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏颜矿。R本人自食惡果不足惜寄猩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望骑疆。 院中可真熱鬧田篇,春花似錦、人聲如沸封断。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,904評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)坡疼。三九已至彬呻,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間柄瑰,已是汗流浹背闸氮。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,023評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留教沾,地道東北人蒲跨。 一個(gè)月前我還...
    沈念sama閱讀 48,146評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像授翻,于是被迫代替她去往敵國(guó)和親或悲。 傳聞我的和親對(duì)象是個(gè)殘疾皇子孙咪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容