這一部分的內容是后續(xù)所有算法的基礎的基礎。就是我們常說的各種檢驗畅形,例如:t檢驗养距,Z檢驗,F檢驗日熬,卡方檢驗等等棍厌。這些檢驗目的是告訴我們可以接受原假設的概率有多大。之所以會有這么多檢驗方法,是因為現實世界太復雜耘纱,數據分析也會遇到各式各樣的難題敬肚,解決不同的難題可能需要不同的工具。
如果我們的變量是連續(xù)型指標束析,那么使用t-檢驗來描述均值之間的差異艳馒。
假如說,當下我們有兩塊小麥地员寇,我們希望對兩塊小麥的產量進行比較弄慰,看是否不同的土地的產量相同。當然蝶锋,我們不希望要把這兩塊地所有的小麥收割下來進行比較陆爽,希望能夠簡單一點,輕松一點扳缕,僅僅是分別采集兩塊地一小部分的小麥進行比較慌闭。
我們將兩塊地的樣本產量分別進行可視化表示。
首先躯舔,我們從均值的角度入手驴剔,來對比兩個分布的差異。然而均值僅僅是一個切面的信息粥庄,數據的分布可能形態(tài)各異仔拟,均值本身并不能代表全部的信息分布。例如如下的第二張和第三張截圖飒赃,可以想象第二張圖數據集中性程度相比較第三張要分散的開(離散程度高)利花,那么同樣的均值,第二張分布的均值對于整體數據的代表程度要低于第三張圖载佳。
此刻炒事,我們可以進一步思考,如果均值代表了不同數據分布差異的時候蔫慧,其數據的離散程度就代表了均值不能解釋的部分挠乳,或者稱為噪音。通過兩者相除的方式姑躲,就產生了如下的t值計算公式睡扬。
這里,我們可以看到如果t值越大黍析,那么代表了兩個分布的差異也許會越大卖怜,那么多大代表著最夠大呢?于是阐枣,我們需要在這里引入一個標準來衡量t值马靠,這時候就是我們p值登場的地方了奄抽,p值怎么理解,詳見《p值等同于概率么》這篇文章甩鳄。每一個t值都會有一個p值逞度,p值越小,代表沒有足夠的理由去接受原假設妙啃。
而t檢驗與z檢驗的不同就在于樣本量與是否得知整體方差档泽,t檢驗適用于小于30的樣本量,不知道整體分布方差的情況揖赴,z檢驗反之馆匿。