在我們產(chǎn)品開發(fā)中,經(jīng)常會(huì)遇到一個(gè)問題(來自產(chǎn)品的靈魂拷問)直砂,我到底要測多少數(shù)據(jù)量菌仁,才夠呢?這直接決定了產(chǎn)品的成本和競爭力静暂。大部門時(shí)候济丘,似乎“憑經(jīng)驗(yàn)”,成了一個(gè)通用的回答籍嘹。然而闪盔,具體測多少數(shù)據(jù)量夠用,絕不是一個(gè)經(jīng)驗(yàn)的問題辱士,而是一個(gè)數(shù)學(xué)問題泪掀。具體是一個(gè)什么樣的數(shù)學(xué)問題呢?暫時(shí)列下不表颂碘,講一個(gè)看似不相關(guān)的問題:投硬幣异赫。
一枚1圓的鋼镚,我們每投一次头岔,硬幣落地只可能出現(xiàn)兩種結(jié)果塔拳,正面朝上或者負(fù)面朝上,這兩種結(jié)果是不會(huì)同時(shí)出現(xiàn)的峡竣。這種現(xiàn)象被數(shù)學(xué)家稱之為伯努利實(shí)驗(yàn)靠抑。當(dāng)我們連續(xù)投100次硬幣,硬幣出現(xiàn)正面和反面的次數(shù)相加适掰,肯定等于100颂碧,這也是多重伯努利實(shí)驗(yàn)荠列。數(shù)學(xué)家通過統(tǒng)計(jì)發(fā)現(xiàn),多重伯努利實(shí)驗(yàn)下载城,正面朝上這種現(xiàn)象發(fā)生的次數(shù)及其概率肌似,服從二項(xiàng)分布:
公式的解釋為,在n次伯努利實(shí)驗(yàn)中诉瓦,正面朝上這一事件川队,發(fā)生x次的概率為P(x),一次實(shí)驗(yàn)中正面朝上的發(fā)生幾率為p睬澡。
回到題目開始的數(shù)學(xué)問題固额。我們開發(fā)一個(gè)產(chǎn)品,問數(shù)據(jù)量的原因在于猴贰,我們需要保證我們檢測的準(zhǔn)確性对雪。對(duì)于檢測SNP突變來說,其“準(zhǔn)確性”翻譯一下就是米绕,對(duì)于某一突變頻率的SNP瑟捣,我要盡可能保證陽性位點(diǎn)都能檢出(盡可能低假陰性),陰性位點(diǎn)盡可能被過濾掉(盡可能低假陽性)栅干,常見案例如下:一個(gè)SNP位點(diǎn)迈套,其突變頻率為1%,當(dāng)測序深度為800X碱鳞,陽性判斷值為4(即檢測到4條及以上的突變r(jià)eads)桑李,我們出現(xiàn)假陽性和假陽性的概率分別是多少?
首先窿给,我們討論假陰性的問題贵白。所謂假陰性,即當(dāng)我們檢測到的突變r(jià)eads數(shù)量小于4的概率崩泡;對(duì)于上述二項(xiàng)分布而言禁荒,p=0.01;x=0,1,2,3角撞;n=800
????????????????????????????????????????????????????????????????P(x<4)=P(0)+P(1)+P(2)+P(3)= 0.041
然后呛伴,我們討論假陽性的問題。而這也是我們?yōu)槭裁匆O(shè)置陽判值為4而不是1的原因谒所。測序本身會(huì)存在一定的錯(cuò)誤率热康,這里取0.1%;所謂假陽性劣领,即即便我們檢出4條以上的reads姐军,通過了陽判值,也存在這4條reads都是測序錯(cuò)誤造成的可能性。這種概率有多大呢奕锌?對(duì)于上述二項(xiàng)分布而言衫贬,這時(shí)候,p=0.001歇攻;n=4,5,6,... 800
? ???????????????????????????????????????????????????????????P(x>=4)=1- P(0)- P(1)- P(2)- P(3)= 0.009
所以梆造,這個(gè)案例的答案就一目了然了缴守。但很多時(shí)候,我們的訴求不是算假陽性和假陰性镇辉,而是給定突變頻率屡穗,假陽性,假陰性以及陽判值的要求忽肛,需要我們給出測序深度村砂,也就是上述的二項(xiàng)分布中的n;而這個(gè)計(jì)算屹逛,從上述公式我們也很容易得出础废,合適的最低測序深度要求;簡單來說罕模,就是設(shè)置不同測序深度梯度评腺,去計(jì)算不同測試深度下,假陽性和假陰性概率淑掌,找到最合適的深度即可蒿讥。