數(shù)據(jù)分布及差異分析

隨機變量

離散型隨機變量

它全部可能取到的不相同的值是有限個或可列無限多個焊刹，也可以說概率1以一定的規(guī)律分布在各個可能值上构资。這種隨機變量稱為"離散型隨機變量"遮糖。
能按一定次序一一列出冕广，其值域為一個或若干個有限或無限區(qū)間，這樣的隨機變量稱為離散型隨機變量盈滴。離散型隨機變量與連續(xù)型隨機變量也是由隨機變量取值范圍（或說成取值的形式）確定涯肩，變量取值只能取離散型的自然數(shù)，就是離散型隨機變量巢钓。
實例

比如病苗，一次擲20個硬幣，k個硬幣正面朝上症汹，

k是隨機變量，
k的取值只能是自然數(shù)0背镇，1咬展，2，…瞒斩，20破婆，而不能取小數(shù)3.5、無理數(shù)√20……
因而k是離散型隨機變量

再比如胸囱，擲一個骰子祷舀，令X為擲出的結(jié)果，則只會有1,2,3,4,5,6這六種結(jié)果烹笔，而擲出3.3333是不可能的裳扯。
因而X也是離散型隨機變量

幾何分布

定義：重復(fù)進行隨機事件，直到事件發(fā)生為止才停下（探究的是第幾次獲得成功）谤职。X為首次發(fā)生時共做的事件的次數(shù)嚎朽。每次發(fā)生的概率均為p，則X~G(p)

概率分布：

伯努利試驗：伯努利試驗（Bernoulli experiment）是在同樣的條件下重復(fù)地柬帕、相互獨立地進行的一種隨機試驗，其特點是該隨機試驗只有兩種可能結(jié)果：發(fā)生或者不發(fā)生。比如將考試成績判定為合格或不合格陷寝、生男孩或者生女孩锅很、投擲硬幣為正面或反面等等。每一次試驗的結(jié)果只有兩種可能凤跑，并且每次試驗的結(jié)果之間相互獨立爆安，互不干擾。比如A及格與B能否及格沒有關(guān)系仔引。
期望：是指實驗中每個可能出現(xiàn)的結(jié)果乘以其概率的總和扔仓，反應(yīng)隨機變量平均取值的大小，即在多次試驗的情況下預(yù)測能取得的結(jié)果咖耘。

二項分布

定義：在n次獨立重復(fù)的伯努利試驗中翘簇，設(shè)每次試驗中事件A發(fā)生的概率為p。用X表示n重伯努利試驗中事件A發(fā)生的次數(shù)儿倒，則X的可能取值為0版保，1，…夫否，n,且對每一個k（0≤k≤n）,事件{X=k}即為“n次試驗中事件A恰好發(fā)生k次”彻犁，隨機變量X的離散概率分布即為二項分布（Binomial Distribution）。
假設(shè)試驗成功的概率為p凰慈，除了成功就是失敗汞幢，沒有中間地帶，所以失敗的概率為1-p微谓，設(shè)為q∩瘢現(xiàn)在進行這個試驗，假設(shè)這個試驗進行了n次堰酿，有r次獲得了成功疾宏。可以用公式表示如下：

期望與方差

幾何分布探究的是第幾次獲得成功触创，而二項分布探究的是獲得成功的次數(shù)

泊松分布

定義：泊松分布適合于描述單位時間（或空間）內(nèi)隨機事件發(fā)生的次數(shù)坎藐。如某一服務(wù)設(shè)施在一定時間內(nèi)到達的人數(shù)，電話交換機接到呼叫的次數(shù)哼绑，汽車站臺的候客人數(shù)岩馍，機器出現(xiàn)的故障數(shù)，自然災(zāi)害發(fā)生的次數(shù)抖韩，一塊產(chǎn)品上的缺陷數(shù)蛀恩，顯微鏡下單位分區(qū)內(nèi)的細菌分布數(shù)等等。
假設(shè)r為給定區(qū)間內(nèi)時間/空間的發(fā)生次數(shù)茂浮。參數(shù)λ為每個區(qū)間內(nèi)平均發(fā)生次數(shù)双谆，或者稱為發(fā)生率壳咕。可用公式表示如下：

期望和方差：
期望：如果X~po(λ)顽馋，那么E(x)=λ
方差：如果X~po(λ)谓厘，那么Var(x)=λ

次數(shù)過多的二項分布使用泊松分布求解：
二項分布的期望E(r)=np，方差Var(r)=npq寸谜，而泊松分布的期望和方差均為λ竟稳。此時我們需要這兩種分布的期望和方差相近似，即np與npq近似相等的情況熊痴。
由以上可知他爸，當(dāng)二項分布的n很大而p很小時，泊松分布可作為二項分布的近似果善，其中λ為np诊笤。通常當(dāng)n≥20，p≤0.05時岭埠，就可以用泊松公式近似得計算盏混。

連續(xù)型隨機變量

連續(xù)型隨機變量是指如果隨機變量X的所有可能取值不可以逐個列舉出來，而是取數(shù)軸上某一區(qū)間內(nèi)的任一點的隨機變量惜论。
如果變量可以在某個區(qū)間內(nèi)取任一實數(shù)许赃，即變量的取值可以是連續(xù)的，這隨機變量就稱為連續(xù)型隨機變量馆类。
實例

比如混聊，公共汽車每15分鐘一班，某人在站臺等車時間x是個隨機變量乾巧，
x的取值范圍是[0,15)句喜，它是一個區(qū)間，從理論上說在這個區(qū)間內(nèi)可取任一實數(shù)3分鐘沟于、5分鐘7毫秒咳胃、7√2分鐘，在這十五分鐘的時間軸上任取一點旷太，都可能是等車的時間展懈，因而稱這隨機變量是連續(xù)型隨機變量

常見的連續(xù)型函數(shù)的概率密度

離散型隨機變量與連續(xù)型隨機變量的不同

不同

如上圖中離散型概率分布圖所示，離散型概率分布是由若干垂直于x軸的柱形組成供璧。柱形與x軸的交點表示可能發(fā)生的結(jié)果存崖，頂端對應(yīng)y軸的值表示該結(jié)果發(fā)生的概率。常見的離散型概率分布包括幾何分布睡毒、二項分布和泊松分布等来惧。

如上圖中連續(xù)型概率分布圖所示，因為事件的結(jié)果可以在x軸上的任意一點取值演顾，所以連續(xù)型概率分布是一條連續(xù)的曲線供搀。與離散型概率分布不同隅居，表示連續(xù)型概率分布的概率為概率密度，只有取x軸的一段區(qū)間趁曼，才能得到對應(yīng)事件發(fā)生的概率军浆。即對x1-x2的區(qū)間，對應(yīng)的概率為該區(qū)間曲線下方面積的積分挡闰。常見的連續(xù)型概率分布包括正態(tài)分布、均勻分布等掰盘。

正態(tài)分布

若隨機變量X服從一個數(shù)學(xué)期望為μ摄悯、方差為σ2的正態(tài)分布，記為N(μ愧捕，σ2)奢驯。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置，其標(biāo)準(zhǔn)差σ決定了分布的幅度次绘。當(dāng)μ = 0,σ = 1時的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布瘪阁。

正態(tài)分布中一些值得注意的量：

密度函數(shù)關(guān)于平均值對稱
平均值與它的眾數(shù)（statistical mode）以及中位數(shù)（median）同一數(shù)值。
函數(shù)曲線下68.268949%的面積在平均數(shù)左右的一個標(biāo)準(zhǔn)差范圍內(nèi)邮偎。
95.449974%的面積在平均數(shù)左右兩個標(biāo)準(zhǔn)差的范圍內(nèi)管跺。
99.730020%的面積在平均數(shù)左右三個標(biāo)準(zhǔn)差的范圍內(nèi)。
99.993666%的面積在平均數(shù)左右四個標(biāo)準(zhǔn)差的范圍內(nèi)禾进。
函數(shù)曲線的拐點（inflection point）為離平均數(shù)一個標(biāo)準(zhǔn)差距離的位置豁跑。

差異分析

異分析就是分析兩組數(shù)據(jù)是否有差異。比如泻云，北方人的身高是否顯著高于南方人的身高艇拍？這就涉及到“顯著”的定義了。何為顯著宠纯？高2公分為顯著卸夕，還是高5公分才為顯著？這當(dāng)然要用統(tǒng)計學(xué)來說話婆瓜。通常的做法是對兩組數(shù)據(jù)的差異倍數(shù)進行統(tǒng)計學(xué)檢驗快集，得到的P value達到某個閾值，則為顯著差異勃救。在轉(zhuǎn)錄組的基因差異表達分析中碍讨，一般的篩選標(biāo)準(zhǔn)是基因表達差異倍數(shù)大于2、并且FDR≤0.05為顯著差異的基因蒙秒。當(dāng)然這個標(biāo)準(zhǔn)也可以根據(jù)實際數(shù)據(jù)調(diào)整勃黍，如差異倍數(shù)下調(diào)為1.5、FDR≤0.01等晕讲。

復(fù)雜總結(jié)

簡單總結(jié)

方差齊性

也就是方差相等覆获，在t檢驗和方差分析中马澈，都需要滿足這一前提條件。在兩組和多組比較中弄息，方差齊性的意思很容易理解痊班，無非就是比較各組的方差大小，看看各組的方差是不是差不多大小摹量，如果差別太大涤伐，就認為是方差不齊，或方差不等缨称。如果差別不大凝果，就認為方差齊性或方差相等。當(dāng)然睦尽，這種所謂的差別大或小器净，需要統(tǒng)計學(xué)的檢驗，所以就有了方差齊性檢驗当凡。

正態(tài)分布檢驗

在t檢驗和方差分析中山害，要求樣本是來自正態(tài)分布的樣本。以此為前提才可以對樣本的均值進行統(tǒng)計檢驗沿量。檢驗的目的是判斷這兩個樣本是否來自于同一個總體的隨機抽樣結(jié)果還是來自完全不同的樣本浪慌。另外需要注意的是，如果樣本量大于30欧瘪，此時樣本的均值也近似服從正態(tài)分布眷射，這是我們也可以使用t檢驗

參數(shù)檢驗和非參數(shù)檢驗

參數(shù)檢驗和非參數(shù)檢驗的區(qū)別：

1 參數(shù)檢驗是針對參數(shù)做的假設(shè)，非參數(shù)檢驗是針對總體分布情況做的假設(shè)佛掖，這個是區(qū)分參數(shù)檢驗和非參數(shù)檢驗的一個重要特征妖碉。例如兩樣本比較的t 檢驗是判斷兩樣本分別代表的總體的均值是否具有差異，屬于參數(shù)檢驗芥被。而兩樣本比較的秩和檢驗（wilcoxcon 檢驗及Mann-Whitney 檢驗）是判斷兩樣本分別代表的總體的位置有無差別（即兩總體的變量值有無傾向性的未知偏離）欧宜，自然屬于非參數(shù)檢驗。

2 二者的根本區(qū)別在于參數(shù)檢驗要利用到總體的信息（總體分布拴魄、總體的一些參數(shù)特征如方差）冗茸，以總體分布和樣本信息對總體參數(shù)作出推斷；非參數(shù)檢驗不需要利用總體的信息（總體分布匹中、總體的一些參數(shù)特征如方差）夏漱，以樣本信息對總體分布作出推斷。

3顶捷，參數(shù)檢驗只能用于等距數(shù)據(jù)和比例數(shù)據(jù)挂绰，非參數(shù)檢驗主要用于記數(shù)數(shù)據(jù)。也可用于等距和比例數(shù)據(jù)服赎，但精確性就會降低葵蒂。

T檢驗

(student t檢驗)是應(yīng)用t分布的特征交播，將t作為檢驗的統(tǒng)計量來進行統(tǒng)計推斷方法。它對樣本要求較小(例如n＜30)践付。
主要用途：

樣本均數(shù)與總體均數(shù)的差異比較
兩樣本均數(shù)的差異比較
單樣本t檢驗

單樣本t檢驗主要用于判斷樣本均數(shù)與總體均數(shù)是否存在顯著差異秦士。
適用條件

已知一個總體均數(shù)
已知一個樣本均數(shù)及該樣本標(biāo)準(zhǔn)差
樣本正態(tài)分布或近似正態(tài)總體
實際應(yīng)用中，當(dāng)數(shù)據(jù)量足夠大時永高，對樣本正態(tài)分布要求不再嚴(yán)格隧土。只要數(shù)據(jù)分布不是嚴(yán)重偏態(tài)，一般來說單樣本t檢驗都是適用的命爬。

獨立樣本t檢驗
獨立樣本t檢驗主要檢驗兩個樣本均數(shù)及其所代表的總體之間差異是否顯著次洼。

適用條件

獨立性，各觀察值之間相關(guān)獨立
正態(tài)性遇骑，各樣本均來自正態(tài)分布的總體
方差齊性，各樣本所在總體的方差相等（方差齊性檢驗之后揖曾，才可進行獨立樣本t檢驗落萎。）

配對樣本t檢驗
配對樣本t檢驗同樣檢驗兩個樣本均數(shù)及其所代表的總體之間差異是否顯著。

獨立樣本t檢驗與配對樣本t檢驗同屬于雙樣本t檢驗炭剪，不同點在于配對樣本t檢驗要求兩個樣本之間存在某些配對關(guān)系练链。

常見配對關(guān)系：

同一樣本兩種不同處理方法的檢驗結(jié)果
同一樣本前后時間點的檢驗結(jié)果

適用條件：正態(tài)性

方差檢驗

方差分析（analysis of variance ,ANOVA）就是通過檢驗多組總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響。
為了分析分類型自變量對數(shù)值型因變量的影響奴拦，需要分析數(shù)據(jù)誤差的來源媒鼓。
因素的不同水平下的均值會有差異，但這種差異有可能是由抽樣誤差帶來的错妖，所以需要檢驗這種差異是否顯著绿鸣。雖然我們感興趣的是均值，但我們在判斷時需要借助于方差（構(gòu)造檢驗統(tǒng)計量）暂氯，這也是方差分析這一名稱的來源潮模。

卡方檢驗

卡方檢驗就是統(tǒng)計樣本的實際觀測值與理論推斷值之間的偏離程度，實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小痴施，卡方值越大擎厢，越不符合；卡方值越小辣吃，偏差越小动遭，越趨于符合，若兩個值完全相等時神得，卡方值就為0厘惦，表明理論值完全符合。

適用條件：

所有的理論數(shù)T≥5并且總樣本量n≥40,用Pearson卡方進行檢驗.
如果理論數(shù)T＜5但T≥1,并且n≥40,用連續(xù)性校正的卡方進行檢驗.
如果有理論數(shù)T＜1或n＜40,則用Fisher’s檢驗.

秩和檢驗

秩和檢驗是對原假設(shè)的非參數(shù)檢驗循头，在不需要假設(shè)兩個樣本空間都為正態(tài)分布的情況下绵估，測試它們的分布是否完全相同炎疆。

R做差異分析

目前常用差異分析的R包有edgeR、limma国裳、DESeq2

1.limma包做差異分析要求數(shù)據(jù)滿足正態(tài)分布或近似正態(tài)分布形入，如基因芯片、TPM格式的高通量測序數(shù)據(jù)缝左。
2.通常認為Count數(shù)據(jù)不符合正態(tài)分布而服從泊松分布亿遂。對于count數(shù)據(jù)來說，用limma包做差異分析渺杉，誤差較大
3.DESeq2蛇数、和 EdgeR都是基于count，然后兩個都是NB（negative binomial）但是在估計dispersion parameter的方法上面不一樣是越。
4.limma耳舅，edgeR，DESeq2三大包基本是做轉(zhuǎn)錄組差異分析的金標(biāo)準(zhǔn)倚评，大多數(shù)轉(zhuǎn)錄組的文章都是用這三個R包進行差異分析浦徊。
5.edgeR差異分析速度快，得到的基因數(shù)目比較多天梧，假陽性高（實際不差異盔性，結(jié)果差異）。DESeq2差異分析速度慢呢岗，得到的基因數(shù)目比較少冕香，假陰性高（實際差異，結(jié)果不差異）后豫。
6.需要注意的是制作分組信息的因子向量是悉尾，因子水平的前后順序，在R的很多模型中硬贯，默認將因子向量的第一個水平看作對照組焕襟。

參考

概率和概率分布 - 知乎 (zhihu.com)
離散型概率分布——幾何分布 - 知乎 (zhihu.com)
離散型概率分布——二項分布 - 知乎 (zhihu.com)
離散型概率分布——泊松分布 - 知乎 (zhihu.com)
泊松分布的期望和方差推導(dǎo)saltriver的博客-CSDN博客泊松分布方差
 隨機變量：常見的離散型、連續(xù)型隨機變量有哪些特點饭豹？-鳥哥筆記 (niaogebiji.com)
正態(tài)分布（高斯分布）Techblog of HaoWANG的博客-CSDN博客正態(tài)分布
 差異分析的檢驗方法 - 簡書 (jianshu.com)
幾種常用的差異分析方法簡介weixin_43551076的博客-CSDN博客差異分析
 生信工具推薦|差異分析的基本原理及工具使用解讀 - 知乎 (zhihu.com)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末鸵赖，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子拄衰，更是在濱河造成了極大的恐慌它褪，老刑警劉巖，帶你破解...
沈念sama閱讀 217,509評論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件翘悉，死亡現(xiàn)場離奇詭異茫打，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,806評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門老赤，熙熙樓的掌柜王于貴愁眉苦臉地迎上來轮洋，“玉大人，你說我怎么就攤上這事抬旺”子瑁” “怎么了？”我有些...
開封第一講書人閱讀 163,875評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵开财，是天一觀的道長汉柒。經(jīng)常有香客問我，道長责鳍，這世上最難降的妖魔是什么碾褂？我笑而不...
開封第一講書人閱讀 58,441評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮历葛，結(jié)果婚禮上正塌，老公的妹妹穿的比我還像新娘。我一直安慰自己恤溶，他們只是感情好传货，可當(dāng)我...
茶點故事閱讀 67,488評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著宏娄，像睡著了一般。火紅的嫁衣襯著肌膚如雪逮壁。梳的紋絲不亂的頭發(fā)上孵坚，一...
開封第一講書人閱讀 51,365評論 1贊 302
城市分裂傳說
那天，我揣著相機與錄音窥淆，去河邊找鬼卖宠。笑死，一個胖子當(dāng)著我的面吹牛忧饭，可吹牛的內(nèi)容都是我干的扛伍。我是一名探鬼主播，決...
沈念sama閱讀 40,190評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼词裤，長吁一口氣：“原來是場噩夢啊……” “哼刺洒！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起吼砂，我...
開封第一講書人閱讀 39,062評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤逆航，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后渔肩，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體因俐，經(jīng)...
沈念sama閱讀 45,500評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,706評論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了抹剩。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片撑帖。...
茶點故事閱讀 39,834評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖澳眷，靈堂內(nèi)的尸體忽然破棺而出胡嘿，到底是詐尸還是另有隱情，我是刑警寧澤境蔼，帶...
沈念sama閱讀 35,559評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布灶平，位于F島的核電站，受9級特大地震影響箍土，放射性物質(zhì)發(fā)生泄漏逢享。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,167評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一吴藻、第九天我趴在偏房一處隱蔽的房頂上張望瞒爬。院中可真熱鬧，春花似錦沟堡、人聲如沸侧但。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,779評論 0贊 22
一樁弒父案航罗，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽禀横。三九已至，卻和暖如春粥血，著一層夾襖步出監(jiān)牢的瞬間柏锄，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,912評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工复亏，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留趾娃，地道東北人。一個月前我還...
沈念sama閱讀 47,958評論 2贊 370
代替公主和親
正文我出身青樓缔御，卻偏偏與公主長得像抬闷，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子耕突，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,779評論 2贊 354