Lesson 10 - 假設檢驗

2 Hypothesis Testing

學術專家和行業(yè)專家 ,會有各種各樣的問題 ,作為數(shù)據分析師 我們努力幫助他們回答這些問題 ,但首先我們需要把問題轉變成假設 ,然后 我們需要收集數(shù)據 ,來判斷哪個假設可能是真的

image.png

例如 有一天 ,我和一位朋友辯論 ,世界上最受歡迎的冰淇淋口味是什么斯棒? ,我認為最受歡迎的口味是巧克力味 ,而他們堅信是香草味 ,這種情況下 我們可以假設 ,最受歡迎的冰淇淋是巧克力味 ,然后收集數(shù)據 驗證這些數(shù)據是否實際支持這個假設

但是 除非我們問過每個人 否則怎么確定呢席噩? ,我們怎么知道我們的結論是否可靠呢话侄?

事實上 ,可以使用假設檢驗 ,或者上一節(jié)課中講過的置信區(qū)間, 僅利用樣本數(shù)據得出關于總體的結論

image.png

在醫(yī)學研究中 例如我想檢驗 ,一種抗癌藥物是否對患者有效
可以用多種不同方法進行假設

  1. 如果患者感覺好些了 藥物是否有效均抽?
  2. 如果患者壽命延長 藥物是否有效蜈首?
  3. 如果藥物減小了腫瘤的尺寸 它是否有效毕箍?

在這一節(jié)課中 你將學習 ,如何建立和評估假設檢驗的結果 ,假設檢驗的目的就是幫助企業(yè) ,對數(shù)據庫做出更好残邀、更明智的決策 我們開始吧

?

3 設置假設檢驗

進行假設檢驗時, 第一件事是 把一個問題轉換成兩個對立的假設

image.png
  • 一個假設叫做零假設
  • 另一個叫做對立假設

這些假設的建立存在一定主觀性 ,但有幾個基本規(guī)則

  • H0是我們在收集任何數(shù)據之前認為為真的條件

  • 在數(shù)學上 H0通常認為兩組相等或者效應為零

  • H0H1應該是對立的瘪匿、不重疊的假設

  • H1通常 ,與你希望為真或你想要證明為真的事情相關

  • 在數(shù)學上 H0一般包含相等關系 (=, ≤, or ≥)

  • H1包含大于判耕、小于或不等關系(≠, >, or <.)

舉例: 美國司法系統(tǒng)中常說 “被證明有罪之前是無辜的”

這實際是建立了一個假設檢驗 ,在司法案例中 ,每個個體要么無辜 要么有罪 , “被證明有罪之前是無辜的” 的陳述 ,其實表達的是

image.png
  • “我們最初認為每個人都是無辜的” ,這是一種零假設, 假設每個人都是無辜的 ,在收集任何數(shù)據之前 我們認為這種陳述為真
image.png
  • 與它對立的對立假設就是 個體有罪 ,然后我們收集證據或數(shù)據 檢驗這些數(shù)據支持哪個假設

4 ,

舉例: 假如你建了一個新網頁布局 我們想知道 ,這個新網頁是否能比現(xiàn)有網頁帶來更多流量,我們可以這樣問 “與現(xiàn)有網頁相比” ,“新網頁的平均網站流量是否增加透绩?”

在進行這個檢驗之前 ,我們可能希望新網頁更好 ,這也是我們建這個網頁的原因 ,但是我們需要證明 ,這表示

  • 新網頁好于現(xiàn)有網頁 ,屬于對立假設
  • 零假設就是兩個網頁的平均網站流量相同或者舊網頁實際更好

在數(shù)學上
現(xiàn)有網頁的平均流量等于新網頁的平均流量

image.png

那么 對立假設就是新網頁的平均流量大于現(xiàn)有網頁的平均流量

image.png

我們可以收集數(shù)據 檢驗數(shù)據支持哪個假設 ,這里 在零假設和對立假設的定義上 我們的準則起了很大的作用 ,假設檢驗的建立比較棘手 因為不只有一個正確答案 ,在后面的概念中 ,你將了解這對我們的決策過程有多重要 ,現(xiàn)在用這個例子以及這四條準則練習設置假設 ,

image.png

?

5 錯誤類型

你已經練習了如何建立假設 ,你可能會問自己 ,為什么零假設和對立假設這么重要? 它們非常重要 ,我們再回顧一下之前舉過的法庭例子 ,我們可以把可能與事實組成四個決策組合 ,為了方便查看每個結果 ,我們使用網格 用這個軸線代表 一個人無辜或者有罪的事實 ,用這個軸線代表 ,陪審團認為這個人無辜還是有罪的決定 ,這形成了一個包含四個潛在結果的網格

image.png
  • 事實是一個人無辜 ,陪審團也認為這個人是無辜
  • 事實是這個人有罪 ,陪審團也認為這個人有罪

在其余兩個角 ,陪審團犯了錯誤 因為事實與他們的決定不符 ,這產生了兩個潛在錯誤 它們在假設檢驗中也可能會發(fā)生是

image.png
  • 第一種可能錯誤一個人有罪 ,但陪審團認為這個人無辜 ,這個錯誤會導致有罪的人被釋放
  • 第二種錯誤是一個人無辜 ,但陪審團認為這個人有罪 ,這個錯誤會導致無辜的人被懲罰

?

6 兩種類型的錯誤

一類錯誤二類錯誤,正是由于這個原因 ,正確建立零假設和對立假設是非常重要的 ,它們定義了我們犯的錯誤的重要程度

在上一個例子中 ,一類錯誤是我們認為一個人有罪 ,但他們實際無罪

一類錯誤的定義是 ,在零假設實際為真的情況下,選擇對立假設的錯誤 ,你可能還聽過另一種叫法假正例 它常用 α 表示 ,一類錯誤是兩種可能錯誤中較嚴重的類型

image.png

Type I errors have the following features:

  1. You should set up your null and alternative hypotheses, so that the worse of your errors is the type I error.
  2. They are denoted by the symbol α.
  3. The definition of a type I error is: Deciding the alternative (H1) is true, when actually (H0) is true.
  4. Type I errors are often called false positives.

另一種錯誤 ,可能導致有罪的人被釋放, 這是二類錯誤

二類錯誤的定義是在對立假設實際為真的情況下選擇零假設

image.png
  1. They are denoted by the symbol β.
  2. The definition of a type II error is: Deciding the null (H0) is true, when actually (H1) is true.
  3. Type II errors are often called false negatives.

在這個例子中 我們可以看出 有兩個潛在極端 ,陪審團可能從來不想犯一類錯誤 在這種情況下 ,無論證據如何 ,都會認為每個人無罪 ,他們以后還會犯更多的二類錯誤

image.png

相反 如果陪審團認為每個人都有罪 ,他們永遠不會犯二類錯誤 ,只會犯更多的一類錯誤

image.png

由于一類錯誤和二類錯誤之間的這種關系 ,專業(yè)人員通常會為 ,他們愿意犯的一類錯誤的數(shù)量設置一個閾值, 之后 他們在滿足這個閾值的同時,盡量減少二類錯誤 ,醫(yī)學領域內常見的一類錯誤率是 1% ,學術期刊和其它商業(yè)應用中是 5% ,但實際上 這個比率取決于具體應用情況

image.png

?
希望你現(xiàn)在能輕松辨別假設和錯誤類型, 我們再舉一個例子 解釋這些概念 ,這個例子幫助我 ,將假設檢驗和一類壁熄、二類錯誤的所有信息點結合起來 ,我希望它對你有同樣的效果

假設你有一個跳傘裝備商店 ,作為你工作的一部分 ,你必須對降落傘進行檢查 確保它們功能正常 ,有兩個潛在結果 ,降落傘正常或者不正常

你可以把這兩個結果創(chuàng)建為兩個潛在假設 ,你知道對于跳傘者與降落傘的每個組合有四個潛在結果

首先 你檢查每個降落傘, 確定降落傘是否正常

  • 如果確定它正常 ,你把它放在貨架上供跳傘者使用
  • 如果不正常 你把它扔掉

現(xiàn)在 有兩個可能事實 ,降落傘要么正常, 要么不正常

對于我們扔掉的降落傘

image.png

如果它不正常,那很好 但是如果正常 ,那我們很可能損失了 30 塊

現(xiàn)在 對于我們上架的降落傘

image.png

如果它正常 那么跳傘者 ,用它跳出飛機 安全落地 ,但是 如果不正常, 我們明顯犯了最嚴重類型的錯誤 ,在這個例子中 它屬于一類錯誤 ,所以另一種錯誤是二類錯誤 ,這能幫助我們把零假設與對立假設這樣排列

image.png

我們知道 一類錯誤率是, 在零假設為真的情況下選擇了對立假設, 所以我們算出一類錯誤率是1% 或 5% 這太高了 ,在每 100 個人中犯五次 ,甚至一次這種錯誤 都是不可接受的

image.png

7 常見假設檢驗

大家已經了解了假設檢驗的建立 ,我們現(xiàn)在看一下實踐中的最常見檢驗

  • 一種常見檢驗是檢驗一個總體的均值或比例是否等于某個值

例如 在金融領域 ,我們有一個問題 ,如果你期望投資回報率大于 6% ,那么 我們可以用以下方法建立假設檢驗

image.png

零表示你的投資回報率小于等于 6% ,另一種表示大于 6%

  • 另一種常見假設檢驗是 ,確定兩種營銷活動中的哪一種能給我們的網站帶來更多流量 ,這種情況下 我們可以設置一個零和一個這樣的替代值
image.png

零表示在兩種活動中 ,訪問我們網頁的個人的比例相同 ,另一種表示其中一個網頁吸引的流量更大

image.png

這種情況下兩個網頁之間的流量比例不同 ,如果我們真的想要檢驗新活動是否好于舊活動 ,可以使用這樣的單側假設檢驗 ,其中的 “大于” ,表示新活動中訪問我們網站的個人的比例較大 ,你可以做一些代數(shù)運算 將相同的邏輯改成這樣

image.png

注意: 所有的這些假設檢驗都考慮了參數(shù) ,這些檢驗與統(tǒng)計值無關, 從來無關 ,不需要對統(tǒng)計值進行假設檢驗 ,因為在我們的數(shù)據集里它們屬于精確值 ,我們的問題與整個總體有關 因此 ,我們的假設也與整個總體有關 ,

常見的假設檢驗包括:

  1. 測試總體平均值(一個樣本t檢驗)帚豪。

  2. 測試均值差異(雙樣本t檢驗)

  3. 測試同一個體治療前后的差異(配對t檢驗)

  4. 測試人口比例(一個樣本z檢驗)

  5. 測試人口比例之間的差異(兩個樣本z檢驗)

您可以使用其中一個站點提供t表或z表來支持上述方法之一: t-tablet-table或z-table

實際上有100多種不同的假設檢驗草丧! 但是狸臣,您可以找到最佳估計您想要估計的參數(shù)的統(tǒng)計數(shù)據,而不是記住如何執(zhí)行所有這些測試昌执,您可以通過引導來模擬采樣分布烛亦。然后,您可以使用抽樣分布來幫助選擇適當?shù)募僭O仙蚜。

10 如何在假設之間做出選擇此洲?

問題

喝咖啡的所有人的平均身高是否大于 70 英寸 (1.78 米)

我們可以用以下方法建立已知的對立假設 ,這里 我們的

  • 零假設是喝咖啡的所有人的平均身高小于等于 70 英寸
  • 對立假設是平均身高大于 70 英寸

注意: 我們檢驗的始終是參數(shù), 所以我在這里用 μ 表示喝咖啡的所有人的均值

第一種方法:
根據我剛才建立的置信區(qū)間 ,你可以用一個直觀的方法確定零假設是否可能 ,即自助抽樣數(shù)據的一個樣本集 然后反復計算樣本均值 ,建立抽樣分布和對應的置信區(qū)間 ,用特定置信水平為總體均值確定合理值

image.png

在實踐中, 假設我們從數(shù)據集中獲得了這個樣本 ,我們可以用以下方法對它進行自助抽樣, 現(xiàn)在 我們進行多次自助抽樣 然后計算每個自助樣本的均值 ,這里 我們有自助樣本 ,在這里 我已經創(chuàng)建了一個空的均值向量 ,我將把每個自助抽樣均值添加到其中 ,現(xiàn)在 我們得出了所有均值 可以創(chuàng)建置信區(qū)間了 ,這里是下限 ,這里是上限 ,另外 我們還可以選擇對它們繪圖 這是繪制的圖表

image.png

結論: 在上面的例子中,我們的區(qū)間完全低于70委粉,這表明零(總體均值小于70)實際上是正確的呜师。

喝咖啡的所有人的平均身高是否大于 70 英寸 (1.78 米) ,我們可以建立這樣的零假設和對立假設 ,在假設檢驗中做決策

第二種常用方法:
假如零假設為真 如果我們用零假設里最接近對立假設的值進行模擬

我們可以知道抽樣分布的形狀 ,這個值是70,這是零假設里最接近對立假設的值 ,我們可以用抽樣分布的標準偏差確定,如果這個值來自零假設 抽樣分布是什么形狀

image.png

在這個例子中 我們對正態(tài)分布進行模擬 ,我將復制之前使用的代碼 ,以便獲得我們的抽樣分布的標準偏差 ,抽樣分布的標準偏差等于 0.2658 ,我們知道 如果它來自70 的零假設值 它會是什么形狀

根據中心極限定理 ,我們知道 它服從正態(tài)分布 ,現(xiàn)在從 NumPy 的正態(tài)分布文檔中,我們了解了可以用以下方法

70假設均值和抽樣分布的標準偏差 ,對正態(tài)分布中的抽取值進行模擬

image.png

這里 “l(fā)oc” 表示均值 也就是 70 ,“scale” 是我們想要使用的標準偏差 ,是我們的抽樣分布的標準偏差 ,我們可以模擬其中的1 萬個值 ,這里的每個被模擬抽取值代表零假設中的一個可能均值

image.png

我們現(xiàn)在可以問一個問題 樣本均值位于這個分布中的哪個位置 ,回顧一下樣本均值

image.png

可以看出 它遠遠低于這個正態(tài)分布 ,如果樣本均值接近 70 的中心值 ,它就是零假設中的值 因此 ,我們認為零假設更可能為真 ,現(xiàn)在這種情況下 樣本均值位于尾部之外 ,我們不太可能認為它來自這個零假設值

11 什么是p值

如果p值比α小, 意味著拒絕零假設而偏向對立假設犯一類錯誤的概率為p, 而犯一類錯誤的概率不能超過5%, 所以說可以很安全的推翻零假設.

如果p值比α大, 意味著拒絕零假設而偏向對立假設犯一類錯誤的概率為p, 而犯一類錯誤的概率不能超過5%, 而此時超過了5%,因此犯錯誤的概率太大太有風險, 不能推翻零假設

如果零假設為真,則 p值的定義是觀察您的統(tǒng)計量(或者更偏向于替代方案)的概率贾节。

在第二種方法中
我們問了一個問題 如果零假設為真, 獲得數(shù)據中觀察到的統(tǒng)計量或者更極端統(tǒng)計量, 從而選擇對立假設的概率是多少汁汗?

這個概率稱為 P 值, P 值的確定涉及你學到的多個概念, 抽樣分布和條件概率

image.png

假如我們有一個零假設, 假設總體均值等于零, 我們收集樣本數(shù)據 發(fā)現(xiàn)樣本均值是5, 樣本標準偏差是2

image.png

假設統(tǒng)計量的抽樣分布符合零假設, 從這個分布中的數(shù)據, 觀察到統(tǒng)計量實際值的概率是多少衷畦?

如果我們想知道, 總體均值實際大于零的概率, 你可以更新假設6、7知牌、10等值都在這更像是表明對立假設為真, 總體均值大于零

image.png

另外 觀察到的統(tǒng)計量, 表明需要選擇對立假設的概率是多少祈争?
這個陰影區(qū)域就是這個概率 也就是 P 值

注意: P 值取決于對立假設 因為它決定了更極端的值, 如果對立假設是參數(shù)大于零, 陰影區(qū)域會比現(xiàn)在顯示的統(tǒng)計量大

image.png

但是 如果我們把零假設和對立假設改成這樣, 陰影區(qū)域應該在這個統(tǒng)計量左邊
P 值的陰影區(qū)域現(xiàn)在是這樣

要理解的有兩個部分
第一 你必須把 P 值完全概念化, 它是零假設為真的情況下數(shù)據的條件概率, 然后 你需要明白要計算的是什么, 這三個圖片有很直觀的總結, 在開始學習運用 P 值的概念做決策之前, 你還需要對這兩個部分進行練習

  • 如果您的參數(shù)大于備選假設中的某個值,則您的著色將如下所示以獲取您的p值:
image.png
  • 如果您的參數(shù)小于備選假設中的某個值角寸,則您的著色將如下所示以獲取您的p值:
image.png

注意 : 這會形成非常大的概率, 因為這種情況下幾乎整個分布區(qū)域都是陰影, 如果對立假設中含有不等關系, 陰影區(qū)域則與在兩個方向, 均遠離零假設的極端值相關, 這種情況下 我們只關心在兩個方向均遠離零假設的統(tǒng)計量, 所以我們最終在遠離零假設的兩端涂陰影 從而確定 P 值

  • 如果您的參數(shù)不等于備選假設中的某個值菩混,則您的著色將如下所示以獲取您的p值:
image.png

計算p值

如果p值比α小, 意味著拒絕零假設而偏向對立假設犯一類錯誤的概率為p, 而犯一類錯誤的概率不能超過5%, 所以說可以很安全的推翻零假設.

如果p值比α大, 意味著拒絕零假設而偏向對立假設犯一類錯誤的概率為p, 而犯一類錯誤的概率不能超過5%, 而此時超過了5%,因此犯錯誤的概率太大太有風險, 不能推翻零假設

你學習了如何用零假設模擬抽樣

image.png
  • 如果統(tǒng)計量處于分布區(qū)域內 ,這表明統(tǒng)計量可能來自這個零假設
  • 但是 如果統(tǒng)計量遠離分布區(qū)域 ,這表明零假設不可能產生統(tǒng)計量

你還學習了如何根據陰影區(qū)計算 p 值 ,陰影區(qū)從我們觀察到的統(tǒng)計量開始 延伸到分布區(qū)域的尾部 ,陰影區(qū)取決于對立假設

你用零假設模擬了抽樣分布的值, 假設我們的對立假設是 ,總體均值大于 70 ,我們可以將 p 值作為大于樣本均值的模擬樣本的比例來計算

這里可以看出 我們得到的 p 值是1 ,記住 p 值較大表示不應該拋棄零假設 ,在這個案例中 這表明 我們應該認為均值小于 70 ,這里 我們已經計算了大于樣本均值的空值 ,由于這是一 ,p 值較大 因此 我們不會拋棄零假設 ,這表明總體均值實際小于等于 70

image.png

如果新的零假設和對立假設是這樣 ,計算 p 值的方法稍微有些不同 ,這里 由于對立假設是小于 70 ,我們現(xiàn)在可以看統(tǒng)計量左邊的陰影區(qū)域 ,p 值將變成這樣 ,由于 p 值是零 ,這表明我們應該拋棄零假設 選擇對立假設 ,表明總體均值小于 70

image.png

如果這是零假設和對立假設 ,我們現(xiàn)在應該看 在遠離零假設的任一方向 ,都比樣本均值極端的值

image.png

過程總結:

  • 從null中模擬可能的統(tǒng)計值
  • 計算您在數(shù)據中實際獲得的統(tǒng)計值扁藕。
  • 將統(tǒng)計信息與null中的值進行比較沮峡。
  • 根據您的對立假設計算被視為極值的空值的比例。

P是“拒絕原假設時犯錯誤概率”又或者說是“如果你拒絕掉原假設實際上是在冤枉好人的概率”亿柑。

不管怎么表達理解上都有點繞邢疙,所以你還是看例子吧。比如你做一個假設( null hypothesis):你的女性朋友平均身高2米望薄,輸入你統(tǒng)計的樣本數(shù)據后疟游,計算機給你返回的p值是0.03。這意味著如果你拒絕“女性朋友平均身高2米”這個結論痕支,犯錯的概率是0.03颁虐,小于0.05(人們一般認為拒絕一句話時犯錯概率小于0.05就可以放心大膽地拒絕了),這個時候你就可以拒絕原假設采转。如果計算機返回p值是0.9聪廉,那么你就會想瞬痘,這說明拒絕原假設犯錯概率高達90%故慈,那么我就不應該拒絕原假設,即你應該認為你的女性朋友平均身高就是2米框全。

原假設為女性朋友身高平均值2米察绷,取了若干個樣本后測量出樣本的平均值為1.6,經過計算津辩,在我們設定alpha為0.05時拆撼,置信區(qū)間為1.8到2.2,咱們取的樣本均值1.6不在這個范圍內喘沿,所以拒絕闸度。

“拒絕原假設犯錯的概率”是在說什么呢,它是在說蚜印,我們假設女孩子們身高均值為2米莺禁,計算出來的均值為1.6,跟原假設差距很大窄赋,這時候我們拒絕原假設“身高為2米”哟冬,我們拒絕這個不靠譜零假設時可能犯錯的概率<=0.05楼熄。
or
“接受原假設正確的概率”是在說什么呢,它是在說浩峡,我們假設女孩子們身高均值為2米可岂,計算出來的均值為1.6,跟原假設差距很大翰灾,但我們還是堅持認為原假設“身高為2米缕粹,我們堅持這個不靠譜零假設時可能正確的概率<=0.05。

樣本均值1.6對應的p值為0.03是什么意思纸淮?這是指致开,在假設全體女孩身高為2米的情況下,咱們隨機抽取到一些樣本得出均值為1.6米或比1.6米更極端的數(shù)值的可能性為0.03萎馅,在原假設下抽到這樣樣本的概率太低了双戳,而我們卻十分稀罕地居然一下就抽到了這樣的樣本,那么正常人的第一反應就是糜芳,咱們原先假設身高均值為2米這個假設不對飒货。用統(tǒng)計學的話來說就叫做“由于樣本均值落在拒絕域中,所以拒絕原假設”峭竣。

如果p值比α小, 意味著拒絕零假設而偏向對立假設犯一類錯誤的概率為p, 而犯一類錯誤的概率不能超過5%, 所以說可以很安全的推翻零假設.

如果p值比α大, 意味著拒絕零假設而偏向對立假設犯一類錯誤的概率為p, 而犯一類錯誤的概率不能超過5%, 而此時超過了5%,因此犯錯誤的概率太大太有風險, 不能推翻零假設

可見塘辅,p值是在精確的算出一個取樣的稀罕程度。alpha值是事先給出了一個對樣本稀罕程度的判斷皆撩,這個值是可以主觀去改變的扣墩,你可以認為取到樣本均值的可能性為0.2或更低就很極端從而拒絕,也可以認為取到樣本均值的可能性為0.001或更低才拒絕扛吞。一般認為樣本稀罕到可能取到的概率<=0.05時呻惕,咱們就認為原假設不靠譜。

14 p 值與錯誤類型

如果p值比α小, 意味著拒絕零假設而偏向對立假設犯一類錯誤的概率為p, 而犯一類錯誤的概率不能超過5%, 所以說可以很安全的推翻零假設.

如果p值比α大, 意味著拒絕零假設而偏向對立假設犯一類錯誤的概率為p, 而犯一類錯誤的概率不能超過5%, 而此時超過了5%,因此犯錯誤的概率太大太有風險, 不能推翻零假設

學習了 p 值是從零假設中 ,獲取數(shù)據或更極端值的概率 ,那么 這與做決策和我們犯的錯誤類型有什么關系滥比? ,

如果 p 值非常小 ,表示不太可能從零假設中觀察到統(tǒng)計量 ,統(tǒng)計量很可能來自對立假設 ,但是 如果選擇零假設 ,p 值最小應該是多少亚脆? (接受原假設正確的概率)

image.png

我認為這取決于你犯特定類型錯誤的意愿有多大 ,如果你愿意犯 5% 的錯誤 ,錯誤地選擇對立假設 ,p 值需要小于這個閾值 才能選擇對立假設

image.png

但是 如果從零假設獲得數(shù)據的概率是 ,比如 8% ,在 5% 的一類錯誤閾值下 ,這個概率足以讓你選擇零假設

image.png

簡單的規(guī)則是 如果 p 值小于一類錯誤率 ,專業(yè)人員建議我們拒絕零假設 ,即 選擇對立假設 ,如果 p 值大于一類錯誤率 ,我們無法拒絕零假設 ,即 我們選擇零假設作為我們的決策 ,到底哪個為真? ,在實踐中 我們無法確定 ,但是 我們現(xiàn)在能利用數(shù)據庫做出決策

image.png

在選擇零假設與對立假設之間做決策時 ,你可能會看到一些專家 特別是統(tǒng)計學家 ,畏畏縮縮 做出這樣的總結 ,“根據數(shù)據 ,我們認為零假設為真” 或者 ,“根據數(shù)據 我們認為對立假設為真”

記住 建立零假設和對立假設時 ,在收集任何數(shù)據之前 我們自動把零假設設為真 ,因此 這種陳述是默認的 ,這不是說我們不確定應該選哪個假設 然后從中選擇一個 ,而是默認選擇了零假設

現(xiàn)在再看法庭的例子 ,每個人在被證明有罪之前 都是無辜的 ,你不是選擇某個人無辜 ,默認情況下 每個人都是無辜的

因此 在假設檢驗中 ,我們說 “根據數(shù)據 ,我們有證據反對零假設” 或者 ,如果沒有足夠的證據反對零假設 我們說 ,“根據數(shù)據 我們無法反對零假設” ,許多人只關心做出對的決策 ,所以這樣區(qū)分可能看起來有點吹毛求疵 ,但是它強調的是 在你開始陳述哪個為真時 ,零假設被選中的可能性更大 ,

其他需要考慮的事項

  1. 樣本能夠代表總體嗎
image.png
  1. 樣本的大小對結果有影響嗎?
image.png
  1. 假設檢驗與機器學習
    對于大樣本量盲泛,假設檢驗甚至導致最小的發(fā)現(xiàn)具有統(tǒng)計學意義濒持。然而,這些發(fā)現(xiàn)可能根本沒有實際意義寺滚。

例如柑营,假設你發(fā)現(xiàn)統(tǒng)計學多的人喜歡的飲料1到飲料2就超過一百萬人的研究。在此基礎上村视,您決定開設一家商店來銷售飲料1.然后您會發(fā)現(xiàn)飲料1僅比飲料2更受歡迎0.0002%(但您的大樣本量具有統(tǒng)計學意義)官套。實際上,也許你應該開一家賣兩者的商店。

假設檢驗對基于數(shù)據的結論采取綜合方法虏杰,因為這些檢驗旨在了解人口參數(shù)(即總人口價值)讥蟆。

或者,機器學習技術采用個別方法來得出結論纺阔,因為它們試圖預測每個特定數(shù)據點的結果瓤湘。

image.png

17 , ,你已經了解了假設檢驗可能會發(fā)生的錯誤類型 ,你還了解了如何為 ,錯誤的允許發(fā)生頻率創(chuàng)建一個閾值 ,

但是想一下 如果我們把同一類型的假設檢驗進行 20 次 ,即使零假設實際為真 ,如果一類錯誤率是 5% ,可以預計 其中一次檢驗的結果是選擇對立假設 ,世界上的研究者通常都在進行非常相似的研究 ,所以 當一名研究者獲得了重大成果 ,我們怎么確定這些成果就是這些一類錯誤的其中之一撞蚕? 在許多情況下 我們無從知曉 這是難點所在 ,這是一個問題 但是統(tǒng)計學家提出了 ,解決這個問題的幾個辦法 ,最保守和常見的一種方法是 Bonferroni 校正法 ,這種簡單校正法認為 如果你正在進行 m 檢驗 ,你應該將一類錯誤率除以 m ,確保保持這里的錯誤率 ,所以 如果你真的想要 ,達到 5% 的一類錯誤率 并且正在進行 10 次假設檢驗 ,新的選擇對立假設的閾值實際是 0.5%

image.png

這只是其中一種常見的校正法 ,其它方法包括 Tukey 校正法 ,生物醫(yī)學領域 ,常用的方法是 Q 值法 ,下面的講師注釋介紹了更多方法 ,

image.png

其他技術

防止復合I類錯誤的其他技術包括:

  1. Tukey校正

  2. Q值

15 CI和HT如何比較硼啤?

雙邊假設檢驗(即涉及a的測試) \ neq≠替代方案)就作為置信區(qū)間作出的結論而言是相同的聪富,只要:

1 - CI = α

例如,95%置信區(qū)間將得出與假設檢驗相同的結論玻靡,I類錯誤率為0.05结榄,根據選擇的假設,因為:

1 - 0.95 = 0.05

假設替代假設是雙邊檢驗囤捻。

image.png
image.png

你已經學習了如何建立零假設和對立假設 ,你還判定了一類錯誤和二類錯誤 ,你可以根據錯誤閾值計算要選擇的假設 ,你還了解了在樣本量非常大 ,以及需要進行多次假設檢驗的情況下 ,你可能做出的結論會帶來什么危害 ,最后 你了解了置信區(qū)間和 ,假設檢驗的緊密關系 ,假設檢驗相關概念是 ,A/B 測試以及數(shù)據庫業(yè)務決策的核心 ,在下一節(jié)課 ,你將學習在實戰(zhàn)中運用這些概念

用圖形如何解釋p值

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末臼朗,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子蝎土,更是在濱河造成了極大的恐慌视哑,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件誊涯,死亡現(xiàn)場離奇詭異挡毅,居然都是意外死亡,警方通過查閱死者的電腦和手機暴构,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進店門跪呈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人取逾,你說我怎么就攤上這事耗绿。” “怎么了菌赖?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵缭乘,是天一觀的道長沐序。 經常有香客問我琉用,道長,這世上最難降的妖魔是什么策幼? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任邑时,我火速辦了婚禮,結果婚禮上特姐,老公的妹妹穿的比我還像新娘晶丘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布浅浮。 她就那樣靜靜地躺著沫浆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪滚秩。 梳的紋絲不亂的頭發(fā)上专执,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天,我揣著相機與錄音郁油,去河邊找鬼本股。 笑死,一個胖子當著我的面吹牛桐腌,可吹牛的內容都是我干的拄显。 我是一名探鬼主播,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼案站,長吁一口氣:“原來是場噩夢啊……” “哼躬审!你這毒婦竟也來了?” 一聲冷哼從身側響起蟆盐,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤盒件,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后舱禽,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體炒刁,經...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年誊稚,在試婚紗的時候發(fā)現(xiàn)自己被綠了翔始。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡里伯,死狀恐怖城瞎,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情疾瓮,我是刑警寧澤脖镀,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站狼电,受9級特大地震影響蜒灰,放射性物質發(fā)生泄漏。R本人自食惡果不足惜肩碟,卻給世界環(huán)境...
    茶點故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一强窖、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧削祈,春花似錦翅溺、人聲如沸脑漫。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽优幸。三九已至,卻和暖如春褪猛,著一層夾襖步出監(jiān)牢的瞬間劈伴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工握爷, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留跛璧,地道東北人。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓新啼,卻偏偏與公主長得像追城,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子燥撞,可洞房花燭夜當晚...
    茶點故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內容