隨機變量
離散型隨機變量
它全部可能取到的不相同的值是有限個或可列無限多個焊刹,也可以說概率1以一定的規(guī)律分布在各個可能值上构资。這種隨機變量稱為"離散型隨機變量"遮糖。
能按一定次序一一列出冕广,其值域為一個或若干個有限或無限區(qū)間,這樣的隨機變量稱為離散型隨機變量盈滴。離散型隨機變量與連續(xù)型隨機變量也是由隨機變量取值范圍(或說成取值的形式)確定涯肩,變量取值只能取離散型的自然數(shù),就是離散型隨機變量巢钓。
實例
比如病苗,一次擲20個硬幣,k個硬幣正面朝上症汹,
k是隨機變量,
k的取值只能是自然數(shù)0背镇,1咬展,2,…瞒斩,20破婆,而不能取小數(shù)3.5、無理數(shù)√20……
因而k是離散型隨機變量
再比如胸囱,擲一個骰子祷舀,令X為擲出的結(jié)果,則只會有1,2,3,4,5,6這六種結(jié)果烹笔,而擲出3.3333是不可能的裳扯。
因而X也是離散型隨機變量
幾何分布
定義:重復(fù)進行隨機事件,直到事件發(fā)生為止才停下(探究的是第幾次獲得成功)谤职。X為首次發(fā)生時共做的事件的次數(shù)嚎朽。每次發(fā)生的概率均為p,則X~G(p)
伯努利試驗:伯努利試驗(Bernoulli experiment)是在同樣的條件下重復(fù)地柬帕、相互獨立地進行的一種隨機試驗,其特點是該隨機試驗只有兩種可能結(jié)果:發(fā)生或者不發(fā)生。比如將考試成績判定為合格或不合格 陷寝、生男孩或者生女孩锅很、投擲硬幣為正面或反面等等。每一次試驗的結(jié)果只有兩種可能凤跑,并且每次試驗的結(jié)果之間相互獨立爆安,互不干擾。比如A及格與B能否及格沒有關(guān)系仔引。
期望:是指實驗中每個可能出現(xiàn)的結(jié)果乘以其概率的總和扔仓,反應(yīng)隨機變量平均取值的大小,即在多次試驗的情況下預(yù)測能取得的結(jié)果咖耘。
二項分布
定義:在n次獨立重復(fù)的伯努利試驗中翘簇,設(shè)每次試驗中事件A發(fā)生的概率為p。用X表示n重伯努利試驗中事件A發(fā)生的次數(shù)儿倒,則X的可能取值為0版保,1,…夫否,n,且對每一個k(0≤k≤n),事件{X=k}即為“n次試驗中事件A恰好發(fā)生k次”彻犁,隨機變量X的離散概率分布即為二項分布(Binomial Distribution)。
假設(shè)試驗成功的概率為p凰慈,除了成功就是失敗汞幢,沒有中間地帶,所以失敗的概率為1-p微谓,設(shè)為q∩瘢現(xiàn)在進行這個試驗,假設(shè)這個試驗進行了n次堰酿,有r次獲得了成功疾宏。可以用公式表示如下:
期望與方差
幾何分布探究的是第幾次獲得成功触创,而二項分布探究的是獲得成功的次數(shù)
泊松分布
定義:泊松分布適合于描述單位時間(或空間)內(nèi)隨機事件發(fā)生的次數(shù)坎藐。如某一服務(wù)設(shè)施在一定時間內(nèi)到達的人數(shù),電話交換機接到呼叫的次數(shù)哼绑,汽車站臺的候客人數(shù)岩馍,機器出現(xiàn)的故障數(shù),自然災(zāi)害發(fā)生的次數(shù)抖韩,一塊產(chǎn)品上的缺陷數(shù)蛀恩,顯微鏡下單位分區(qū)內(nèi)的細菌分布數(shù)等等。
假設(shè)r為給定區(qū)間內(nèi)時間/空間的發(fā)生次數(shù)茂浮。參數(shù)λ為每個區(qū)間內(nèi)平均發(fā)生次數(shù)双谆,或者稱為發(fā)生率 壳咕。可用公式表示如下:
期望和方差:
期望:如果X~po(λ)顽馋,那么E(x)=λ
方差:如果X~po(λ)谓厘,那么Var(x)=λ
次數(shù)過多的二項分布使用泊松分布求解:
二項分布的期望E(r)=np,方差Var(r)=npq寸谜,而泊松分布的期望和方差均為λ竟稳。此時我們需要這兩種分布的期望和方差相近似,即np與npq近似相等的情況 熊痴。
由以上可知他爸,當(dāng)二項分布的n很大而p很小時,泊松分布可作為二項分布的近似果善,其中λ為np诊笤。通常當(dāng)n≥20,p≤0.05時岭埠,就可以用泊松公式近似得計算盏混。
連續(xù)型隨機變量
連續(xù)型隨機變量是指如果隨機變量X的所有可能取值不可以逐個列舉出來,而是取數(shù)軸上某一區(qū)間內(nèi)的任一點的隨機變量惜论。
如果變量可以在某個區(qū)間內(nèi)取任一實數(shù)许赃,即變量的取值可以是連續(xù)的,這隨機變量就稱為連續(xù)型隨機變量馆类。
實例
比如混聊,公共汽車每15分鐘一班,某人在站臺等車時間x是個隨機變量乾巧,
x的取值范圍是[0,15)句喜,它是一個區(qū)間,從理論上說在這個區(qū)間內(nèi)可取任一實數(shù)3分鐘沟于、5分鐘7毫秒咳胃、7√2分鐘,在這十五分鐘的時間軸上任取一點旷太,都可能是等車的時間展懈,因而稱這隨機變量是連續(xù)型隨機變量
離散型隨機變量 與 連續(xù)型隨機變量 的不同
如上圖中離散型概率分布圖所示,離散型概率分布是由若干垂直于x軸的柱形組成供璧。柱形與x軸的交點表示可能發(fā)生的結(jié)果存崖,頂端對應(yīng)y軸的值表示該結(jié)果發(fā)生的概率。常見的離散型概率分布包括幾何分布睡毒、二項分布和泊松分布等来惧。
如上圖中連續(xù)型概率分布圖所示,因為事件的結(jié)果可以在x軸上的任意一點取值演顾,所以連續(xù)型概率分布是一條連續(xù)的曲線供搀。與離散型概率分布不同隅居,表示連續(xù)型概率分布的概率為概率密度,只有取x軸的一段區(qū)間趁曼,才能得到對應(yīng)事件發(fā)生的概率军浆。即對x1-x2的區(qū)間,對應(yīng)的概率為該區(qū)間曲線下方面積的積分挡闰。常見的連續(xù)型概率分布包括正態(tài)分布、均勻分布等掰盘。
正態(tài)分布
若隨機變量X服從一個數(shù)學(xué)期望為μ摄悯、方差為σ2的正態(tài)分布,記為N(μ愧捕,σ2)奢驯。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度次绘。當(dāng)μ = 0,σ = 1時的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布瘪阁。
正態(tài)分布中一些值得注意的量:
- 密度函數(shù)關(guān)于平均值對稱
- 平均值與它的眾數(shù)(statistical mode)以及中位數(shù)(median)同一數(shù)值。
- 函數(shù)曲線下68.268949%的面積在平均數(shù)左右的一個標(biāo)準(zhǔn)差范圍內(nèi)邮偎。
- 95.449974%的面積在平均數(shù)左右兩個標(biāo)準(zhǔn)差的范圍內(nèi)管跺。
- 99.730020%的面積在平均數(shù)左右三個標(biāo)準(zhǔn)差的范圍內(nèi)。
- 99.993666%的面積在平均數(shù)左右四個標(biāo)準(zhǔn)差的范圍內(nèi)禾进。
- 函數(shù)曲線的拐點(inflection point)為離平均數(shù)一個標(biāo)準(zhǔn)差距離的位置豁跑。
差異分析
異分析就是分析兩組數(shù)據(jù)是否有差異。比如泻云,北方人的身高是否顯著高于南方人的身高艇拍?這就涉及到“顯著”的定義了。何為顯著宠纯?高2公分為顯著卸夕,還是高5公分才為顯著?這當(dāng)然要用統(tǒng)計學(xué)來說話婆瓜。通常的做法是對兩組數(shù)據(jù)的差異倍數(shù)進行統(tǒng)計學(xué)檢驗快集,得到的P value達到某個閾值,則為顯著差異勃救。在轉(zhuǎn)錄組的基因差異表達分析中碍讨,一般的篩選標(biāo)準(zhǔn)是基因表達差異倍數(shù)大于2、并且FDR≤0.05為顯著差異的基因蒙秒。當(dāng)然這個標(biāo)準(zhǔn)也可以根據(jù)實際數(shù)據(jù)調(diào)整勃黍,如差異倍數(shù)下調(diào)為1.5、FDR≤0.01等晕讲。
方差齊性
也就是方差相等覆获,在t檢驗和方差分析中马澈,都需要滿足這一前提條件。在兩組和多組比較中弄息,方差齊性的意思很容易理解痊班,無非就是比較各組的方差大小,看看各組的方差是不是差不多大小摹量,如果差別太大涤伐,就認為是方差不齊,或方差不等缨称。如果差別不大凝果,就認為方差齊性或方差相等。當(dāng)然睦尽,這種所謂的差別大或小器净,需要統(tǒng)計學(xué)的檢驗,所以就有了方差齊性檢驗当凡。
正態(tài)分布檢驗
在t檢驗和方差分析中山害,要求樣本是來自正態(tài)分布的樣本。以此為前提才可以對樣本的均值進行統(tǒng)計檢驗沿量。檢驗的目的是判斷這兩個樣本是否來自于同一個總體的隨機抽樣結(jié)果還是來自完全不同的樣本浪慌。另外需要注意的是,如果樣本量大于30欧瘪,此時樣本的均值也近似服從正態(tài)分布眷射,這是我們也可以使用t檢驗
參數(shù)檢驗和非參數(shù)檢驗
參數(shù)檢驗和非參數(shù)檢驗的區(qū)別:
1 參數(shù)檢驗是針對參數(shù)做的假設(shè),非參數(shù)檢驗是針對總體分布情況做的假設(shè)佛掖,這個是區(qū)分參數(shù)檢驗和非參數(shù)檢驗的一個重要特征妖碉。例如兩樣本比較的t 檢驗是判斷兩樣本分別代表的總體的均值是否具有差異,屬于參數(shù)檢驗芥被。而兩樣本比較的秩和檢驗(wilcoxcon 檢驗及Mann-Whitney 檢驗)是判斷兩樣本分別代表的總體的位置有無差別(即兩總體的變量值有無傾向性的未知偏離)欧宜,自然屬于非參數(shù)檢驗。
2 二者的根本區(qū)別在于參數(shù)檢驗要利用到總體的信息(總體分布拴魄、總體的一些參數(shù)特征如方差)冗茸,以總體分布和樣本信息對總體參數(shù)作出推斷;非參數(shù)檢驗不需要利用總體的信息(總體分布匹中、總體的一些參數(shù)特征如方差)夏漱,以樣本信息對總體分布作出推斷。
3顶捷,參數(shù)檢驗只能用于等距數(shù)據(jù)和比例數(shù)據(jù)挂绰,非參數(shù)檢驗主要用于記數(shù)數(shù)據(jù)。也可用于等距和比例數(shù)據(jù)服赎,但精確性就會降低葵蒂。
T檢驗
(student t檢驗)是應(yīng)用t分布的特征交播,將t作為檢驗的統(tǒng)計量來進行統(tǒng)計推斷方法。它對樣本要求較小(例如n<30)践付。
主要用途:
- 樣本均數(shù)與總體均數(shù)的差異比較
- 兩樣本均數(shù)的差異比較
- 單樣本t檢驗
單樣本t檢驗主要用于判斷樣本均數(shù)與總體均數(shù)是否存在顯著差異秦士。
適用條件
- 已知一個總體均數(shù)
- 已知一個樣本均數(shù)及該樣本標(biāo)準(zhǔn)差
- 樣本正態(tài)分布或近似正態(tài)總體
實際應(yīng)用中,當(dāng)數(shù)據(jù)量足夠大時永高,對樣本正態(tài)分布要求不再嚴(yán)格隧土。只要數(shù)據(jù)分布不是嚴(yán)重偏態(tài),一般來說單樣本t檢驗都是適用的命爬。
獨立樣本t檢驗
獨立樣本t檢驗主要檢驗兩個樣本均數(shù)及其所代表的總體之間差異是否顯著次洼。
適用條件
- 獨立性,各觀察值之間相關(guān)獨立
- 正態(tài)性遇骑,各樣本均來自正態(tài)分布的總體
- 方差齊性,各樣本所在總體的方差相等(方差齊性檢驗之后揖曾,才可進行獨立樣本t檢驗落萎。)
配對樣本t檢驗
配對樣本t檢驗同樣檢驗兩個樣本均數(shù)及其所代表的總體之間差異是否顯著。
獨立樣本t檢驗與配對樣本t檢驗同屬于雙樣本t檢驗炭剪,不同點在于配對樣本t檢驗要求兩個樣本之間存在某些配對關(guān)系练链。
常見配對關(guān)系:
- 同一樣本兩種不同處理方法的檢驗結(jié)果
- 同一樣本前后時間點的檢驗結(jié)果
適用條件:正態(tài)性
方差檢驗
方差分析(analysis of variance ,ANOVA)就是通過檢驗多組總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響。
為了分析分類型自變量對數(shù)值型因變量的影響奴拦,需要分析數(shù)據(jù)誤差的來源媒鼓。
因素的不同水平下的均值會有差異,但這種差異有可能是由抽樣誤差帶來的错妖,所以需要檢驗這種差異是否顯著绿鸣。雖然我們感興趣的是均值,但我們在判斷時需要借助于方差(構(gòu)造檢驗統(tǒng)計量)暂氯,這也是方差分析這一名稱的來源潮模。
卡方檢驗
卡方檢驗就是統(tǒng)計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小痴施,卡方值越大擎厢,越不符合;卡方值越小辣吃,偏差越小动遭,越趨于符合,若兩個值完全相等時神得,卡方值就為0厘惦,表明理論值完全符合。
適用條件:
- 所有的理論數(shù)T≥5并且總樣本量n≥40,用Pearson卡方進行檢驗.
- 如果理論數(shù)T<5但T≥1,并且n≥40,用連續(xù)性校正的卡方進行檢驗.
- 如果有理論數(shù)T<1或n<40,則用Fisher’s檢驗.
秩和檢驗
秩和檢驗是對原假設(shè)的非參數(shù)檢驗循头,在不需要假設(shè)兩個樣本空間都為正態(tài)分布的情況下绵估,測試它們的分布是否完全相同炎疆。
R做差異分析
目前常用差異分析的R包有edgeR、limma国裳、DESeq2
1.limma包做差異分析要求數(shù)據(jù)滿足正態(tài)分布或近似正態(tài)分布形入,如基因芯片、TPM格式的高通量測序數(shù)據(jù)缝左。
2.通常認為Count數(shù)據(jù)不符合正態(tài)分布而服從泊松分布亿遂。對于count數(shù)據(jù)來說,用limma包做差異分析渺杉,誤差較大
3.DESeq2蛇数、和 EdgeR都是基于count,然后兩個都是NB(negative binomial)但是在估計dispersion parameter的方法上面不一樣是越。
4.limma耳舅,edgeR,DESeq2三大包基本是做轉(zhuǎn)錄組差異分析的金標(biāo)準(zhǔn)倚评,大多數(shù)轉(zhuǎn)錄組的文章都是用這三個R包進行差異分析浦徊。
5.edgeR差異分析速度快,得到的基因數(shù)目比較多天梧,假陽性高(實際不差異盔性,結(jié)果差異)。DESeq2差異分析速度慢呢岗,得到的基因數(shù)目比較少冕香,假陰性高(實際差異,結(jié)果不差異)后豫。
6.需要注意的是制作分組信息的因子向量是悉尾,因子水平的前后順序,在R的很多模型中硬贯,默認將因子向量的第一個水平看作對照組焕襟。
參考
概率和概率分布 - 知乎 (zhihu.com)
離散型概率分布——幾何分布 - 知乎 (zhihu.com)
離散型概率分布——二項分布 - 知乎 (zhihu.com)
離散型概率分布——泊松分布 - 知乎 (zhihu.com)
泊松分布的期望和方差推導(dǎo)saltriver的博客-CSDN博客泊松分布方差
隨機變量:常見的離散型、連續(xù)型隨機變量有哪些特點饭豹?-鳥哥筆記 (niaogebiji.com)
正態(tài)分布(高斯分布)Techblog of HaoWANG的博客-CSDN博客正態(tài)分布
差異分析的檢驗方法 - 簡書 (jianshu.com)
幾種常用的差異分析方法簡介weixin_43551076的博客-CSDN博客差異分析
生信工具推薦|差異分析的基本原理及工具使用解讀 - 知乎 (zhihu.com)