劉小澤寫(xiě)于18.9.23
之前對(duì)這塊知識(shí)又渴望又敬畏,感覺(jué)無(wú)從下手坪哄。??
但是硬骨頭總歸要啃,從頭開(kāi)始势篡,一點(diǎn)點(diǎn)來(lái)彌補(bǔ)知識(shí)漏洞
顧名思義翩肌,“概率分布”:先看“概率”,概率怎么得到的禁悠,不得有數(shù)據(jù)嗎念祭?至于“分布”,不就是數(shù)據(jù)的統(tǒng)計(jì)形狀嗎碍侦?
因此粱坤,搞明白了前后順序隶糕,我們先來(lái)看什么是數(shù)據(jù)??
數(shù)據(jù)是什么?
數(shù)據(jù)在統(tǒng)計(jì)學(xué)中也叫隨機(jī)變量站玄,有兩種類(lèi)型:離散型和連續(xù)型
離散型數(shù)據(jù)
還是顧名思義【因?yàn)榧热蝗思医o翻譯成這樣枚驻,就一定有他的道理,否則大眾不可能接受株旷。相信“存在即合理”】離散數(shù)據(jù)就是不連續(xù)的數(shù)據(jù)再登。最典型的就是拋硬幣,因?yàn)榻Y(jié)果只有兩種:要么正面晾剖,要么反面霎冯。它就像草坪上的小石板路,一塊隔著一塊鋪起來(lái)钞瀑,每一塊石板是一個(gè)數(shù)據(jù)沈撞,并且他們之間存在間隔
連續(xù)型數(shù)據(jù)
它可以取任意的數(shù)值,比如時(shí)間雕什,可以隨意分隔缠俺,就像一條柏油馬路,那么平滑贷岸、連綿壹士,你可以連續(xù)往下走
數(shù)據(jù)集
不管離散還是連續(xù)的數(shù)據(jù),整合到一張表格中偿警,就是一個(gè)數(shù)據(jù)集躏救。它最大的特點(diǎn)就是模糊,最擅長(zhǎng)的就是讓人為之發(fā)瘋螟蒸。因?yàn)楦杏X(jué)無(wú)據(jù)可循盒使,十分模糊
問(wèn)題來(lái)了,面對(duì)龐雜的數(shù)據(jù)集七嫌,怎么分辨主次呢少办?
將數(shù)據(jù)簡(jiǎn)化的方法就是:選幾個(gè)有代表性的,能描述整體特點(diǎn)的數(shù)字诵原,比如學(xué)了一個(gè)學(xué)期的結(jié)果英妓,用一個(gè)學(xué)分績(jī)點(diǎn)就能代表,4.0最高绍赛,3.0以上說(shuō)明還不錯(cuò)蔓纠,2.0嘛,估計(jì)~_~吗蚌。這個(gè)事情有個(gè)專有名詞——描述性統(tǒng)計(jì)腿倚,就是用幾個(gè)描述變量就能得知數(shù)據(jù)的整體情況。再如:要買(mǎi)一部手機(jī)褪测,怎么算好手機(jī)呢猴誊?通過(guò)比較價(jià)格潦刃、外觀、性能等等指標(biāo)懈叹,就能幫你做出一個(gè)相對(duì)合理的判斷乖杠。
問(wèn)題又來(lái)了,我現(xiàn)在知道了可以用幾個(gè)指標(biāo)來(lái)判斷整體情況澄成,那么統(tǒng)計(jì)學(xué)中要用哪幾個(gè)指標(biāo)呢胧洒?
- 平均值:這個(gè)最常見(jiàn)了,某某班的平均成績(jī)最高墨状,班主任當(dāng)然高興啦卫漫,但是就個(gè)別成績(jī)差的學(xué)生而言,他的壓力可比普通班的學(xué)生大多了肾砂。這個(gè)例子表明列赎,平均值的缺點(diǎn)就是對(duì)異常值不敏感,很容易收到極端值的影響镐确。什么“平均薪水”包吝、“平均身高”等等,都要慎重看待
- 四分位數(shù):我們常見(jiàn)的箱線圖就是描述四分位數(shù)源葫,它有兩個(gè)作用: a.比較不同的數(shù)據(jù)整體情況诗越;b.識(shí)別異常值,Tukey's test用的就是四分位數(shù)
- 標(biāo)準(zhǔn)差:描述數(shù)據(jù)的波動(dòng)大小息堂,看數(shù)據(jù)是否穩(wěn)定嚷狞,比如老師分析某個(gè)學(xué)生考試發(fā)揮水平
- 標(biāo)準(zhǔn)分:也叫z分?jǐn)?shù),將原始分?jǐn)?shù)與團(tuán)體的平均數(shù)之差除以標(biāo)準(zhǔn)差所得的商數(shù)荣堰,表示某些數(shù)據(jù)的相對(duì)排名床未,可以比較不同的數(shù)據(jù)集,比如升學(xué)時(shí)用標(biāo)準(zhǔn)分計(jì)算出來(lái)的值就可以代表學(xué)生的整體排名持隧,對(duì)于學(xué)校選擇可以提供幫助
概率分布是什么即硼?
概率分布 = 數(shù)據(jù)+分布,橫軸表示數(shù)據(jù)值屡拨,縱軸表示數(shù)據(jù)值對(duì)應(yīng)的概率
數(shù)據(jù)類(lèi)型決定概率分布。切記:別記公式褥实,記不住呀狼,也沒(méi)用,R語(yǔ)言全能算损离,自己只需要知道什么時(shí)候套用什么模型就好啦
概率分布也分為兩種:離散型概率分布哥艇,連續(xù)型概率分布
大體知道了這兩種分布類(lèi)型,統(tǒng)計(jì)學(xué)就圍繞著它們開(kāi)始了研究僻澎,并且發(fā)現(xiàn)眾多的數(shù)據(jù)分布中貌踏,就有幾種形狀反復(fù)出現(xiàn)十饥,感覺(jué)就像一個(gè)“概率模版”一樣,記住這些模版祖乳,以后遇到數(shù)據(jù)直接套用
離散型概率分布
想得到一個(gè)特定數(shù)值的概率逗堵,還是拿離散型數(shù)據(jù):拋硬幣來(lái)說(shuō),正面朝上的概率是p(正面)=50%眷昆。包括以下幾種:
-
伯努利分布
最簡(jiǎn)單的離散型隨機(jī)變量分布
只有兩個(gè)可能的結(jié)果蜒秤,成功(1)、失斞钦(0)作媚,一般就是指單次試驗(yàn)
-
二項(xiàng)分布
是什么?
“二項(xiàng)”代表一個(gè)事情有2種可能的結(jié)果帅刊,“不成功便成仁”纸泡。它是重復(fù)n次獨(dú)立的伯努利試驗(yàn)【伯努利試驗(yàn)指的是指在一次試驗(yàn)中只考慮兩種結(jié)果】
特點(diǎn)是啥/如何辨別?
- 一個(gè)事情發(fā)生的次數(shù)(學(xué)名試驗(yàn)次數(shù))固定赖瞒,比如我拋硬幣5次弟灼;
- 每個(gè)試驗(yàn)都有兩種可能結(jié)果——成功或失敗冒黑;
- 每次成功概率相等田绑,比如拋硬幣正面向上每次都是50%;
- 你的目的是想知道成功n次的概率
涉及一個(gè)詞”期望值“:預(yù)期成功的次數(shù)抡爹,它等于發(fā)生的次數(shù)*每次成功的概率
二項(xiàng)分布期望值E(x)=np -
二項(xiàng)分布的變體——超幾何分布
它是從有限個(gè)物件中抽出n個(gè)物件掩驱,成功抽出指定種類(lèi)的物件的個(gè)數(shù)(不放回)。它每試驗(yàn)一次冬竟,就變一次欧穴,比如投飛鏢,這次沒(méi)投中就要換個(gè)靶子泵殴,但上次結(jié)果保留涮帘。它規(guī)定,一件事在每個(gè)維度上都只做一次(有點(diǎn)超脫的意思了笑诅;再回想二項(xiàng)分布调缨,就是死活要在那一個(gè)維度證明自己,它就是有放回的抽樣吆你,總想著重復(fù)同樣的過(guò)程就有可能會(huì)成功) 弦叶。特別像當(dāng)今的典型人群,有的人學(xué)習(xí)不行妇多,就轉(zhuǎn)行從商伤哺,可能獲得成功,他就是超幾何;有的人呢立莉,學(xué)不好绢彤,繼續(xù)拼命學(xué),總想著有一天能憑借學(xué)習(xí)出人頭地蜓耻,又可能學(xué)有所成茫舶,也有可能一事無(wú)成,他就是二項(xiàng)分布媒熊。
-
幾何分布
是什么奇适?
首先,它和二項(xiàng)分布很像芦鳍,可以說(shuō)是同卵雙胞胎(今天我和花花還討論了這個(gè)問(wèn)題??)嚷往。
特點(diǎn)是啥/如何辨別?
它最大的特點(diǎn)就是:如果要知道n次伯努利分布試驗(yàn)中第一次就能成功的概率(即前n-1次失敗柠衅,第n次成功)皮仁,那用它就沒(méi)錯(cuò)。還是上面飛鏢的例子菲宴,向靶子扔飛鏢贷祈,無(wú)規(guī)則地亂投卻正中耙心的概率(一件事在一個(gè)維度上重復(fù)多次)
區(qū)別二項(xiàng)分布和幾何分布很簡(jiǎn)單,就看試驗(yàn)?zāi)康氖遣皇菍ふ业谝淮纬晒Φ母怕?/p>
幾何分布期望值等于E(x)=1/p喝峦,比如每次找工作成功的概率是30%势誊,要按照幾何分布來(lái)看,期望值為1/0.3=3.3次(約為3次)谣蠢,也就是說(shuō)大概3次你就會(huì)成功應(yīng)聘【當(dāng)然實(shí)際成功概率并不是不變的】
-
泊松分布
是什么粟耻?
某個(gè)范圍內(nèi)(事件發(fā)生的時(shí)間和地點(diǎn)隨機(jī)分布),某件事情發(fā)生一定次數(shù)的概率眉踱,只對(duì)事件發(fā)生的次數(shù)感興趣挤忙。
比如說(shuō)一個(gè)月內(nèi)的售樓量、刊物的每一頁(yè)的印刷錯(cuò)誤次數(shù)(這里的次數(shù)無(wú)上限)谈喳。它的作用可大了册烈,比如店家要辦一個(gè)迎賓抽獎(jiǎng),準(zhǔn)備慶祝三天婿禽,計(jì)算得到第二天中獎(jiǎng)次數(shù)超過(guò)20次的概率都接近90%赏僧,和成本比較,發(fā)現(xiàn)這樣做會(huì)賠本谈宛,就可以未雨綢繆特點(diǎn)是啥/如何辨別次哈?
- 事件是相互獨(dú)立的,比如抽獎(jiǎng)的每次試驗(yàn)過(guò)程就是相互獨(dú)立的吆录;
【獨(dú)立事件:一個(gè)事件的概率不以任何方式影響另一個(gè)事件】 - 任意相同的時(shí)間內(nèi),發(fā)生概率相同(也就是不受時(shí)間前后的影響)琼牧,你抽獎(jiǎng)不會(huì)說(shuō)今天天氣好恢筝,你中獎(jiǎng)概率就大哀卫;
- 你的目的是想看特定的時(shí)間范圍內(nèi),某個(gè)事情發(fā)生的概率
- 事件是相互獨(dú)立的,比如抽獎(jiǎng)的每次試驗(yàn)過(guò)程就是相互獨(dú)立的吆录;
連續(xù)型概率分布
要算出中間每一個(gè)數(shù)值對(duì)應(yīng)的概率是不現(xiàn)實(shí)的撬槽,那是隨機(jī)變量此改。而你關(guān)心的應(yīng)該是連續(xù)變量,也就是隨機(jī)變量在某個(gè)區(qū)間內(nèi)取值的概率侄柔,此時(shí)的函數(shù)叫做概率密度函數(shù)共啃。
舉個(gè)例子:比如早上8點(diǎn)上課前學(xué)生們都會(huì)聊會(huì)天,什么時(shí)候安靜取決于老師什么時(shí)候進(jìn)教室暂题,老師可能7點(diǎn)59分59秒進(jìn)來(lái)移剪,可能8點(diǎn)2分10秒進(jìn)來(lái),但是這可能不是大家所關(guān)心的薪者,而且也算不完纵苛,因?yàn)闀r(shí)間點(diǎn)太多了。學(xué)生們實(shí)際關(guān)心的應(yīng)該是在7點(diǎn)55到8點(diǎn)整老師進(jìn)來(lái)的概率言津,因此來(lái)決定自己有多大的聊天機(jī)會(huì)
-
正態(tài)分布(高斯分布)
生活中絕大多數(shù)的分布都是正態(tài)分布攻人,比如降雨量、人的身高體重等悬槽,它就像一條鐘型曲線怀吻,中間高,兩邊低初婆,左右對(duì)稱蓬坡。于是體現(xiàn)的數(shù)據(jù)的分布就是:大部分?jǐn)?shù)據(jù)集中的地方,小部分?jǐn)?shù)據(jù)向兩邊分布烟逊。
當(dāng)伯努利試驗(yàn)的次數(shù)接近無(wú)窮大時(shí)渣窜,他們的分布函數(shù)基本相等。也可以說(shuō)宪躯,正態(tài)分布是二項(xiàng)分布的一個(gè)極限形式
這里有一個(gè)規(guī)律乔宿,可以幫助計(jì)算數(shù)據(jù)大體分布:正態(tài)隨機(jī)變量有69.3%的值在均值加減一個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),95.4%的值在兩個(gè)標(biāo)準(zhǔn)差內(nèi)访雪,99.7%的值在三個(gè)標(biāo)準(zhǔn)差內(nèi)详瑞。因此一般計(jì)算閾值的時(shí)候,采用
mean - 2*sd
的方法臣缀,就能達(dá)到95%以上的置信度 均勻分布
指數(shù)分布
關(guān)于差異統(tǒng)計(jì)
做實(shí)驗(yàn)的處理和對(duì)照坝橡,肯定有差別,但怎么設(shè)定這個(gè)標(biāo)準(zhǔn)精置,張三說(shuō)兩組差1叫有差別计寇,李四說(shuō)兩組得差5才叫有差別。科學(xué)嘛番宁,沒(méi)有證據(jù)就沒(méi)法證明元莫,于是在統(tǒng)計(jì)學(xué)的基礎(chǔ)上,產(chǎn)生了眾多的檢驗(yàn)方法蝶押。怎么選擇檢驗(yàn)方法至關(guān)重要踱蠢,因?yàn)橛袝r(shí)候自己對(duì)概念的模糊,導(dǎo)致選錯(cuò)方法棋电,得到的結(jié)果是完全不同的
一個(gè)重要的選擇標(biāo)準(zhǔn)就是茎截,數(shù)據(jù)總體分布是否符合正態(tài)分布和方差齊性
Shapiro-Wilk test檢驗(yàn)是否符合正態(tài)分布(p大于0.05是正態(tài)分布);
Levene's test檢驗(yàn)方差齊性(p大于0.05表示方差齊)
第一類(lèi):參數(shù)檢驗(yàn)
總體的分布類(lèi)型已知赶盔,用樣本指標(biāo)對(duì)總體參數(shù)進(jìn)行推斷或者進(jìn)行假設(shè)檢驗(yàn)
前提:方差齊性企锌、正態(tài)分布
比如:T檢驗(yàn)(多數(shù)人鐘愛(ài)的檢驗(yàn)方式)【兩組之間比較差異】;
ANOVA (Analysis of Variance方差分析招刨,又稱“變異數(shù)分析”霎俩,研究數(shù)據(jù)波動(dòng)情況) 【多組之間比較:如果p值大于0.05,表示各組總體均值相等】
第二類(lèi):非參數(shù)檢驗(yàn)
不考慮總體分布類(lèi)型是否已知沉眶,不比較總體參數(shù)打却,只比較總體的分布位置是否相同,用來(lái)檢驗(yàn)數(shù)據(jù)是否來(lái)自同一個(gè)總體
前提:總體分布不能確定(不知道是不是正態(tài)分布)
比如:Metastats谎倔,Wilcoxon rank sum test柳击,Welch’s t-test等【兩組之間比較差異】;
Kruskal-Wallis【多組之間比較片习,如果p值大于0.05捌肴,表示各組總體均值相等】
更多非參方法:
單樣本泊松分布
poisson.test()
-
分布一致性檢驗(yàn)
- 離散分布:卡方檢驗(yàn)【根據(jù)樣本數(shù)據(jù)的實(shí)際頻數(shù)推斷總體分布與期望分布或理論分布是否有顯著差異。零假設(shè)H0:樣本來(lái)自的總體分布形態(tài)和期望分布或某一理論分布沒(méi)有顯著差異】
- 連續(xù)分布:
Kolmogorov-Smirnovks.test(x, y)
【單樣本藕咏,檢驗(yàn)是否符合某種分布 状知;雙樣本,檢驗(yàn)是否屬于同一分布】
Shapiro-Wilkshapiro.test(x)
【正態(tài)W檢驗(yàn)方法孽查,p值大于a為正態(tài)分布饥悴,樣本含量在[3, 5000]之間】
-
離散一致性檢驗(yàn)
-
mood.test(x, y)
【此方法假設(shè)兩樣本中位數(shù)相同,因此需要先將兩個(gè)中位數(shù)差異消除】 -
ansari.test(x,y)
【兩樣本盲再,需要先將兩個(gè)中位數(shù)差異消除】 -
fligner.test(x)
【多樣本西设,不需要消除中位數(shù)差異】
-
-
列聯(lián)表獨(dú)立性檢驗(yàn)
卡方獨(dú)立性檢驗(yàn)
chisq.test()
【將數(shù)據(jù)寫(xiě)成二維表矩陣形式,包括行變量和列變量】
McNemar檢驗(yàn)
【針對(duì)配對(duì)數(shù)據(jù)答朋,數(shù)據(jù)不得小于5贷揽,總數(shù)要大于100,檢驗(yàn)變化的強(qiáng)度】 符號(hào)檢驗(yàn)
binom.test
【以中位數(shù)為界梦碗,一邊為正禽绪,一邊為負(fù)蓖救,理論上正負(fù)概率都應(yīng)該是50%。用p=0.5的二項(xiàng)檢驗(yàn)來(lái)完成】秩和檢驗(yàn)【解決了符號(hào)檢驗(yàn)中只考慮了符號(hào)丐一,沒(méi)有考慮差異的大小的問(wèn)題】
wilcoxon.test()
【用于單樣本】
Mann-Whitney U
檢驗(yàn)【兩個(gè)樣本】或者用wilcoxon.test(paired=TRUE)
kruskal.test
Kurskal-Wallis檢驗(yàn)【多個(gè)樣本藻糖,同樣也適用兩個(gè)樣本】
歡迎關(guān)注我們的公眾號(hào)~_~
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩淹冰,打造生信星球库车,想讓它成為一個(gè)不拽術(shù)語(yǔ)、通俗易懂的生信知識(shí)平臺(tái)樱拴。需要幫助或提出意見(jiàn)請(qǐng)后臺(tái)留言或發(fā)送郵件到Bioplanet520@outlook.com