數(shù)據(jù)分布及差異分析

隨機變量

離散型隨機變量

它全部可能取到的不相同的值是有限個或可列無限多個焊刹,也可以說概率1以一定的規(guī)律分布在各個可能值上构资。這種隨機變量稱為"離散型隨機變量"遮糖。
能按一定次序一一列出冕广,其值域為一個或若干個有限或無限區(qū)間,這樣的隨機變量稱為離散型隨機變量盈滴。離散型隨機變量與連續(xù)型隨機變量也是由隨機變量取值范圍(或說成取值的形式)確定涯肩,變量取值只能取離散型的自然數(shù),就是離散型隨機變量巢钓。
實例

比如病苗,一次擲20個硬幣,k個硬幣正面朝上症汹,

k是隨機變量,
k的取值只能是自然數(shù)0背镇,1咬展,2,…瞒斩,20破婆,而不能取小數(shù)3.5、無理數(shù)√20……
因而k是離散型隨機變量

再比如胸囱,擲一個骰子祷舀,令X為擲出的結(jié)果,則只會有1,2,3,4,5,6這六種結(jié)果烹笔,而擲出3.3333是不可能的裳扯。
因而X也是離散型隨機變量

幾何分布

定義:重復(fù)進行隨機事件,直到事件發(fā)生為止才停下(探究的是第幾次獲得成功)谤职。X為首次發(fā)生時共做的事件的次數(shù)嚎朽。每次發(fā)生的概率均為p,則X~G(p)

概率分布:

伯努利試驗:伯努利試驗(Bernoulli experiment)是在同樣的條件下重復(fù)地柬帕、相互獨立地進行的一種隨機試驗,其特點是該隨機試驗只有兩種可能結(jié)果:發(fā)生或者不發(fā)生。比如將考試成績判定為合格或不合格 陷寝、生男孩或者生女孩锅很、投擲硬幣為正面或反面等等。每一次試驗的結(jié)果只有兩種可能凤跑,并且每次試驗的結(jié)果之間相互獨立爆安,互不干擾。比如A及格與B能否及格沒有關(guān)系仔引。
期望:是指實驗中每個可能出現(xiàn)的結(jié)果乘以其概率的總和扔仓,反應(yīng)隨機變量平均取值的大小,即在多次試驗的情況下預(yù)測能取得的結(jié)果咖耘。


二項分布

定義:在n次獨立重復(fù)的伯努利試驗中翘簇,設(shè)每次試驗中事件A發(fā)生的概率為p。用X表示n重伯努利試驗中事件A發(fā)生的次數(shù)儿倒,則X的可能取值為0版保,1,…夫否,n,且對每一個k(0≤k≤n),事件{X=k}即為“n次試驗中事件A恰好發(fā)生k次”彻犁,隨機變量X的離散概率分布即為二項分布(Binomial Distribution)。
假設(shè)試驗成功的概率為p凰慈,除了成功就是失敗汞幢,沒有中間地帶,所以失敗的概率為1-p微谓,設(shè)為q∩瘢現(xiàn)在進行這個試驗,假設(shè)這個試驗進行了n次堰酿,有r次獲得了成功疾宏。可以用公式表示如下:



期望與方差

幾何分布探究的是第幾次獲得成功触创,而二項分布探究的是獲得成功的次數(shù)

泊松分布

定義:泊松分布適合于描述單位時間(或空間)內(nèi)隨機事件發(fā)生的次數(shù)坎藐。如某一服務(wù)設(shè)施在一定時間內(nèi)到達的人數(shù),電話交換機接到呼叫的次數(shù)哼绑,汽車站臺的候客人數(shù)岩馍,機器出現(xiàn)的故障數(shù),自然災(zāi)害發(fā)生的次數(shù)抖韩,一塊產(chǎn)品上的缺陷數(shù)蛀恩,顯微鏡下單位分區(qū)內(nèi)的細菌分布數(shù)等等。
假設(shè)r為給定區(qū)間內(nèi)時間/空間的發(fā)生次數(shù)茂浮。參數(shù)λ為每個區(qū)間內(nèi)平均發(fā)生次數(shù)双谆,或者稱為發(fā)生率 壳咕。可用公式表示如下:



期望和方差:
期望:如果X~po(λ)顽馋,那么E(x)=λ
方差:如果X~po(λ)谓厘,那么Var(x)=λ

次數(shù)過多的二項分布使用泊松分布求解:
二項分布的期望E(r)=np,方差Var(r)=npq寸谜,而泊松分布的期望和方差均為λ竟稳。此時我們需要這兩種分布的期望和方差相近似,即np與npq近似相等的情況 熊痴。
由以上可知他爸,當(dāng)二項分布的n很大而p很小時,泊松分布可作為二項分布的近似果善,其中λ為np诊笤。通常當(dāng)n≥20,p≤0.05時岭埠,就可以用泊松公式近似得計算盏混。

連續(xù)型隨機變量

連續(xù)型隨機變量是指如果隨機變量X的所有可能取值不可以逐個列舉出來,而是取數(shù)軸上某一區(qū)間內(nèi)的任一點的隨機變量惜论。
如果變量可以在某個區(qū)間內(nèi)取任一實數(shù)许赃,即變量的取值可以是連續(xù)的,這隨機變量就稱為連續(xù)型隨機變量馆类。
實例

比如混聊,公共汽車每15分鐘一班,某人在站臺等車時間x是個隨機變量乾巧,
x的取值范圍是[0,15)句喜,它是一個區(qū)間,從理論上說在這個區(qū)間內(nèi)可取任一實數(shù)3分鐘沟于、5分鐘7毫秒咳胃、7√2分鐘,在這十五分鐘的時間軸上任取一點旷太,都可能是等車的時間展懈,因而稱這隨機變量是連續(xù)型隨機變量


常見的連續(xù)型函數(shù)的概率密度

離散型隨機變量 與 連續(xù)型隨機變量 的不同

不同

如上圖中離散型概率分布圖所示,離散型概率分布是由若干垂直于x軸的柱形組成供璧。柱形與x軸的交點表示可能發(fā)生的結(jié)果存崖,頂端對應(yīng)y軸的值表示該結(jié)果發(fā)生的概率。常見的離散型概率分布包括幾何分布睡毒、二項分布和泊松分布等来惧。

如上圖中連續(xù)型概率分布圖所示,因為事件的結(jié)果可以在x軸上的任意一點取值演顾,所以連續(xù)型概率分布是一條連續(xù)的曲線供搀。與離散型概率分布不同隅居,表示連續(xù)型概率分布的概率為概率密度,只有取x軸的一段區(qū)間趁曼,才能得到對應(yīng)事件發(fā)生的概率军浆。即對x1-x2的區(qū)間,對應(yīng)的概率為該區(qū)間曲線下方面積的積分挡闰。常見的連續(xù)型概率分布包括正態(tài)分布、均勻分布等掰盘。

正態(tài)分布

若隨機變量X服從一個數(shù)學(xué)期望為μ摄悯、方差為σ2的正態(tài)分布,記為N(μ愧捕,σ2)奢驯。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度次绘。當(dāng)μ = 0,σ = 1時的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布瘪阁。




正態(tài)分布中一些值得注意的量:

  • 密度函數(shù)關(guān)于平均值對稱
  • 平均值與它的眾數(shù)(statistical mode)以及中位數(shù)(median)同一數(shù)值。
  • 函數(shù)曲線下68.268949%的面積在平均數(shù)左右的一個標(biāo)準(zhǔn)差范圍內(nèi)邮偎。
  • 95.449974%的面積在平均數(shù)左右兩個標(biāo)準(zhǔn)差的范圍內(nèi)管跺。
  • 99.730020%的面積在平均數(shù)左右三個標(biāo)準(zhǔn)差的范圍內(nèi)。
  • 99.993666%的面積在平均數(shù)左右四個標(biāo)準(zhǔn)差的范圍內(nèi)禾进。
  • 函數(shù)曲線的拐點(inflection point)為離平均數(shù)一個標(biāo)準(zhǔn)差距離的位置豁跑。

差異分析

異分析就是分析兩組數(shù)據(jù)是否有差異。比如泻云,北方人的身高是否顯著高于南方人的身高艇拍?這就涉及到“顯著”的定義了。何為顯著宠纯?高2公分為顯著卸夕,還是高5公分才為顯著?這當(dāng)然要用統(tǒng)計學(xué)來說話婆瓜。通常的做法是對兩組數(shù)據(jù)的差異倍數(shù)進行統(tǒng)計學(xué)檢驗快集,得到的P value達到某個閾值,則為顯著差異勃救。在轉(zhuǎn)錄組的基因差異表達分析中碍讨,一般的篩選標(biāo)準(zhǔn)是基因表達差異倍數(shù)大于2、并且FDR≤0.05為顯著差異的基因蒙秒。當(dāng)然這個標(biāo)準(zhǔn)也可以根據(jù)實際數(shù)據(jù)調(diào)整勃黍,如差異倍數(shù)下調(diào)為1.5、FDR≤0.01等晕讲。


復(fù)雜總結(jié)

簡單總結(jié)

方差齊性

也就是方差相等覆获,在t檢驗和方差分析中马澈,都需要滿足這一前提條件。在兩組和多組比較中弄息,方差齊性的意思很容易理解痊班,無非就是比較各組的方差大小,看看各組的方差是不是差不多大小摹量,如果差別太大涤伐,就認為是方差不齊,或方差不等缨称。如果差別不大凝果,就認為方差齊性或方差相等。當(dāng)然睦尽,這種所謂的差別大或小器净,需要統(tǒng)計學(xué)的檢驗,所以就有了方差齊性檢驗当凡。

正態(tài)分布檢驗

在t檢驗和方差分析中山害,要求樣本是來自正態(tài)分布的樣本。以此為前提才可以對樣本的均值進行統(tǒng)計檢驗沿量。檢驗的目的是判斷這兩個樣本是否來自于同一個總體的隨機抽樣結(jié)果還是來自完全不同的樣本浪慌。另外需要注意的是,如果樣本量大于30欧瘪,此時樣本的均值也近似服從正態(tài)分布眷射,這是我們也可以使用t檢驗

參數(shù)檢驗和非參數(shù)檢驗

參數(shù)檢驗和非參數(shù)檢驗的區(qū)別:

1 參數(shù)檢驗是針對參數(shù)做的假設(shè),非參數(shù)檢驗是針對總體分布情況做的假設(shè)佛掖,這個是區(qū)分參數(shù)檢驗和非參數(shù)檢驗的一個重要特征妖碉。例如兩樣本比較的t 檢驗是判斷兩樣本分別代表的總體的均值是否具有差異,屬于參數(shù)檢驗芥被。而兩樣本比較的秩和檢驗(wilcoxcon 檢驗及Mann-Whitney 檢驗)是判斷兩樣本分別代表的總體的位置有無差別(即兩總體的變量值有無傾向性的未知偏離)欧宜,自然屬于非參數(shù)檢驗。

2 二者的根本區(qū)別在于參數(shù)檢驗要利用到總體的信息(總體分布拴魄、總體的一些參數(shù)特征如方差)冗茸,以總體分布和樣本信息對總體參數(shù)作出推斷;非參數(shù)檢驗不需要利用總體的信息(總體分布匹中、總體的一些參數(shù)特征如方差)夏漱,以樣本信息對總體分布作出推斷。

3顶捷,參數(shù)檢驗只能用于等距數(shù)據(jù)和比例數(shù)據(jù)挂绰,非參數(shù)檢驗主要用于記數(shù)數(shù)據(jù)。也可用于等距和比例數(shù)據(jù)服赎,但精確性就會降低葵蒂。

T檢驗

(student t檢驗)是應(yīng)用t分布的特征交播,將t作為檢驗的統(tǒng)計量來進行統(tǒng)計推斷方法。它對樣本要求較小(例如n<30)践付。
主要用途:

  • 樣本均數(shù)與總體均數(shù)的差異比較
  • 兩樣本均數(shù)的差異比較
  • 單樣本t檢驗

單樣本t檢驗主要用于判斷樣本均數(shù)與總體均數(shù)是否存在顯著差異秦士。
適用條件

  • 已知一個總體均數(shù)
  • 已知一個樣本均數(shù)及該樣本標(biāo)準(zhǔn)差
  • 樣本正態(tài)分布或近似正態(tài)總體
    實際應(yīng)用中,當(dāng)數(shù)據(jù)量足夠大時永高,對樣本正態(tài)分布要求不再嚴(yán)格隧土。只要數(shù)據(jù)分布不是嚴(yán)重偏態(tài),一般來說單樣本t檢驗都是適用的命爬。

獨立樣本t檢驗
獨立樣本t檢驗主要檢驗兩個樣本均數(shù)及其所代表的總體之間差異是否顯著次洼。

適用條件

  • 獨立性,各觀察值之間相關(guān)獨立
  • 正態(tài)性遇骑,各樣本均來自正態(tài)分布的總體
  • 方差齊性,各樣本所在總體的方差相等(方差齊性檢驗之后揖曾,才可進行獨立樣本t檢驗落萎。)

配對樣本t檢驗
配對樣本t檢驗同樣檢驗兩個樣本均數(shù)及其所代表的總體之間差異是否顯著。

獨立樣本t檢驗與配對樣本t檢驗同屬于雙樣本t檢驗炭剪,不同點在于配對樣本t檢驗要求兩個樣本之間存在某些配對關(guān)系练链。

常見配對關(guān)系:

  • 同一樣本兩種不同處理方法的檢驗結(jié)果
  • 同一樣本前后時間點的檢驗結(jié)果

適用條件:正態(tài)性

方差檢驗

方差分析(analysis of variance ,ANOVA)就是通過檢驗多組總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響。
為了分析分類型自變量對數(shù)值型因變量的影響奴拦,需要分析數(shù)據(jù)誤差的來源媒鼓。
因素的不同水平下的均值會有差異,但這種差異有可能是由抽樣誤差帶來的错妖,所以需要檢驗這種差異是否顯著绿鸣。雖然我們感興趣的是均值,但我們在判斷時需要借助于方差(構(gòu)造檢驗統(tǒng)計量)暂氯,這也是方差分析這一名稱的來源潮模。

卡方檢驗

卡方檢驗就是統(tǒng)計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小痴施,卡方值越大擎厢,越不符合;卡方值越小辣吃,偏差越小动遭,越趨于符合,若兩個值完全相等時神得,卡方值就為0厘惦,表明理論值完全符合。

適用條件:

  • 所有的理論數(shù)T≥5并且總樣本量n≥40,用Pearson卡方進行檢驗.
  • 如果理論數(shù)T<5但T≥1,并且n≥40,用連續(xù)性校正的卡方進行檢驗.
  • 如果有理論數(shù)T<1或n<40,則用Fisher’s檢驗.

秩和檢驗

秩和檢驗是對原假設(shè)的非參數(shù)檢驗循头,在不需要假設(shè)兩個樣本空間都為正態(tài)分布的情況下绵估,測試它們的分布是否完全相同炎疆。

R做差異分析

目前常用差異分析的R包有edgeR、limma国裳、DESeq2




1.limma包做差異分析要求數(shù)據(jù)滿足正態(tài)分布或近似正態(tài)分布形入,如基因芯片、TPM格式的高通量測序數(shù)據(jù)缝左。
2.通常認為Count數(shù)據(jù)不符合正態(tài)分布而服從泊松分布亿遂。對于count數(shù)據(jù)來說,用limma包做差異分析渺杉,誤差較大
3.DESeq2蛇数、和 EdgeR都是基于count,然后兩個都是NB(negative binomial)但是在估計dispersion parameter的方法上面不一樣是越。
4.limma耳舅,edgeR,DESeq2三大包基本是做轉(zhuǎn)錄組差異分析的金標(biāo)準(zhǔn)倚评,大多數(shù)轉(zhuǎn)錄組的文章都是用這三個R包進行差異分析浦徊。
5.edgeR差異分析速度快,得到的基因數(shù)目比較多天梧,假陽性高(實際不差異盔性,結(jié)果差異)。DESeq2差異分析速度慢呢岗,得到的基因數(shù)目比較少冕香,假陰性高(實際差異,結(jié)果不差異)后豫。
6.需要注意的是制作分組信息的因子向量是悉尾,因子水平的前后順序,在R的很多模型中硬贯,默認將因子向量的第一個水平看作對照組焕襟。

參考

概率和概率分布 - 知乎 (zhihu.com)
離散型概率分布——幾何分布 - 知乎 (zhihu.com)
離散型概率分布——二項分布 - 知乎 (zhihu.com)
離散型概率分布——泊松分布 - 知乎 (zhihu.com)
泊松分布的期望和方差推導(dǎo)saltriver的博客-CSDN博客泊松分布方差
隨機變量:常見的離散型、連續(xù)型隨機變量有哪些特點饭豹?-鳥哥筆記 (niaogebiji.com)
正態(tài)分布(高斯分布)Techblog of HaoWANG的博客-CSDN博客正態(tài)分布
差異分析的檢驗方法 - 簡書 (jianshu.com)
幾種常用的差異分析方法簡介weixin_43551076的博客-CSDN博客差異分析
生信工具推薦|差異分析的基本原理及工具使用解讀 - 知乎 (zhihu.com)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鸵赖,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子拄衰,更是在濱河造成了極大的恐慌它褪,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件翘悉,死亡現(xiàn)場離奇詭異茫打,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門老赤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來轮洋,“玉大人,你說我怎么就攤上這事抬旺”子瑁” “怎么了?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵开财,是天一觀的道長汉柒。 經(jīng)常有香客問我,道長责鳍,這世上最難降的妖魔是什么碾褂? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮历葛,結(jié)果婚禮上正塌,老公的妹妹穿的比我還像新娘。我一直安慰自己恤溶,他們只是感情好传货,可當(dāng)我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著宏娄,像睡著了一般。 火紅的嫁衣襯著肌膚如雪逮壁。 梳的紋絲不亂的頭發(fā)上孵坚,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天,我揣著相機與錄音窥淆,去河邊找鬼卖宠。 笑死,一個胖子當(dāng)著我的面吹牛忧饭,可吹牛的內(nèi)容都是我干的扛伍。 我是一名探鬼主播,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼词裤,長吁一口氣:“原來是場噩夢啊……” “哼刺洒!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起吼砂,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤逆航,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后渔肩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體因俐,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了抹剩。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片撑帖。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖澳眷,靈堂內(nèi)的尸體忽然破棺而出胡嘿,到底是詐尸還是另有隱情,我是刑警寧澤境蔼,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布灶平,位于F島的核電站,受9級特大地震影響箍土,放射性物質(zhì)發(fā)生泄漏逢享。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一吴藻、第九天 我趴在偏房一處隱蔽的房頂上張望瞒爬。 院中可真熱鬧,春花似錦沟堡、人聲如沸侧但。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽禀横。三九已至,卻和暖如春粥血,著一層夾襖步出監(jiān)牢的瞬間柏锄,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工复亏, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留趾娃,地道東北人。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓缔御,卻偏偏與公主長得像抬闷,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子耕突,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內(nèi)容