假設檢驗的目的:判斷樣本與樣本张遭,樣本與總體的差異是由抽樣誤差造成還是本質差別造成;或是為了判斷推斷總體特征作出的假設是否應該接受
名詞解釋
- 顯著性水平:原假設為真卻被拒絕的概率(簡稱棄真概率)
- 提出相互對立的兩個假設枫笛。原假設H0通常是要被反駁的假設斩熊,備擇假設H1是認為相對正確的假設
- 檢驗統(tǒng)計量:統(tǒng)計量差值做過標準化之后的值(下文用差異標準值代替)
- 拒絕域:檢驗結果落入此區(qū)域會被拒絕
假設檢驗的驗證方式有2種:
1.統(tǒng)計量值作判斷:
根據實際情況粥谬,提出假設,通常是統(tǒng)計量之間的對比像鸡,比如樣本1的平均值<=樣本2的平均值勘高。對統(tǒng)計量差值進行標準化操作,得到標準值坟桅。要判斷差異標準值在什么范圍算是顯著差異华望,什么范圍算是正常差異值,就規(guī)定一個k值作為判斷差異值大小的衡量標準仅乓,也就是在差異標準值>=k時算是樣本差異顯著赖舟。但是不能直接判斷出k值的大小,所以通過運用棄真概率控制在小概率的方法夸楣,得到差異標準值與k的比較結果宾抓,以此來拒絕或者接受原假設。
棄真是指原假設為真卻被拒絕的情況豫喧,這種情況為不能消除的小概率事件石洗,所以將差異標準值>=k(拒絕情況)的概率控制在a,a在概率密度曲線上的面積稱為拒絕域紧显,在原假設成立的情況下讲衫,比較差異標準值是否在拒絕域內,如果是孵班,則證明差異顯著涉兽,需要拒絕原假設,否則接受原假設篙程。
2.p值作判斷:
根據實際情況枷畏,提出假設,通常是統(tǒng)計量之間的對比虱饿,比如樣本1的平均值<=樣本2的平均值拥诡。對統(tǒng)計量差值進行標準化操作,得到標準值氮发。和統(tǒng)計量值判斷方式不一樣的是渴肉,根據差值出現(xiàn)的概率判斷是否是小概率事件,也就是判斷是不是極端情況的出現(xiàn)折柠。
要判斷差值出現(xiàn)的概率在什么范圍算是小概率宾娜,什么范圍算大概率批狐,就規(guī)定了顯著性水平a作為判斷標準扇售,如果差值出現(xiàn)的概率比a大前塔,說明是大概率范圍事件,即抽樣誤差造成承冰,所以接受原假設华弓。如果差值出現(xiàn)的概率比a小,說明樣本差值為極端情況困乒,屬于小概率事件寂屏。根據小概率事件原理,小概率事件是不會在一次試驗中出現(xiàn)的娜搂,所以說明差值為本質差異迁霎,不是誤差造成,所以拒絕原假設百宇。
abtest假設檢驗運用操作流程:
- 實驗背景:做abtest的項目介紹
1.1 實驗策略:ab對比具體內容
1.2 策略目標:目的是為了改變什么 - 指標選擇:
2.1 第一類指標:健康檢驗指標考廉,為確保新上線策略不會發(fā)生原則性錯誤,并對每個指標確定一個dmin携御,實際最小變化昌粤,以防即使結果顯著,但是對企業(yè)來說不切實際
2.2 第二類指標:希望有所變化的指標啄刹,和產品商業(yè)目標有關
2.3 收集基線數據:得到日常指標數據用做對比 - 樣本選擇:
3.1 選出ab實驗樣本:抽取4-5份流量空跑涮坐,對比指標,得到數據最接近的兩組數據誓军,作為ab實驗樣本總體數據
3.2 樣本量計算:計算出多大的樣本就能計算出樣本間的差異袱讹,使用功效函數
3.3 確定樣本量并開始做ab實驗 - abtest實驗數據分析:
4.1 收集數據
4.2 估計統(tǒng)計量的總體分布:一般符合正態(tài)分布
4.3 結合實際判斷檢驗類型:(類型總結在附錄)
4.4 作出假設
4.5 計算結果分析:是否拒絕原假設,是否符合dmin
4.6 總結反思出報告
takeaway:
我自己在做了幾次abtest假設檢驗之后有些反思和感悟:
- 假設檢驗本就是驗證相近數據的差異是否顯著昵时,所以對于原數據相差較遠的數據沒有必要進行假設檢驗。所以檢驗前的描述性統(tǒng)計也很重要
- 樣本估計是估計在一定概率下债查,能檢測出數據顯著結果的最小樣本容量。是幫助減少第一類錯誤的方式盹廷,同時也幫助成本優(yōu)化
- 置信區(qū)間與假設檢驗的關系就是可以互相印證的關系,置信區(qū)間計算出的結果是假設檢驗的非拒絕域俄占,假設檢驗計算出的結果是置信區(qū)間的非區(qū)間域管怠,置信區(qū)間用的是1-a,假設檢驗用的是a而已缸榄。
附錄:
參考文獻[推薦文章]:
[1] https://zhuanlan.zhihu.com/p/145416879
[2] https://zhuanlan.zhihu.com/p/128435866
[3] https://zhuanlan.zhihu.com/p/26810566
[4] http://www.reibang.com/p/11f91c292bd1
[5] [概率論與數理統(tǒng)計(第四版)].盛驟&謝式千&潘承毅