機器學習-基礎統(tǒng)計

學了大半個月的統(tǒng)計榕栏,這里總結一下畔勤,順便整理一遍扒磁。

首先定義一些名詞,樣本與總體妨托。假設有一個關于某大學學生對食堂滿意度的問卷調查,全體學生為500人兰伤,要求全校學生都要做一份問卷。隨機從全校學生抽取10人做訪問問卷敦腔。那么這里的總體的全校學生,樣本是10人会烙。

標準偏差與樣本標準偏差(標準誤差):

首先標準偏差是針對總體的筒捺,樣本標準偏差是對樣本的柏腻,從名字就能看出系吭,他們分別代表什么意思呢,我們來看看公式


標準偏差
標準誤差

解釋一下∑是求和的意思,所以上部分可以分解成這樣


等于


X拔(上面一橫的)是平均值躯枢,x1~Xn為每個獨立樣本的值槐臀,下面的n為樣本量锄蹂,

公式意思是求每個獨立樣本與平均值直接的差距水慨,至于為什么要平方得糜,再開根號晰洒,就是樣本值有可能小于均值導致為負數(shù),所以要平方谍珊,去除負數(shù),再開根號將值還原砌滞。

除以n表示平均每個樣本的標準差,為什么樣本標準偏差要除以n-1呢贝润,因為抽樣有差異性,所要減去一题暖。

假設我們的問卷調查滿分為10分按傅,最低分為0分胧卤,隨機得到10張問卷分數(shù)分別為【4,5枝誊,6,5叶撒,8,4祠够,5,8古瓤,9腺阳,6】

假設500人的問卷調查結果平均值為6,我們也算出樣本平均值為6亭引,根據(jù)上面公式我們可以得知樣本標準偏差約為3.1。(500人的隨機數(shù)我懶得做出來皮获,有興趣的可以自己嘗試)

正態(tài)分布與Z臨界值:


u為平均值,θ表示標準偏差主届,我們會發(fā)現(xiàn)68%的值會在正負一個θ之內,接近96的值會在正負兩個θ之內君丁。

假設均值u=6,θ=3.1绘闷,我們可以得知正負一個標準偏差在X軸上分別為9.1和2.9,兩個標準偏差值分別為12.2和-0.2印蔗。

Z臨界值為任何值距離平均值的標準偏差數(shù),公式為Z = (x-u)/θ

假設我們得到一份問卷調查為8丑勤,Z值約為0.645,我們可以在X軸上標出該Z臨界值法竞,然后我們看看Z Table



該圖可以計算出,Z臨界值為多少時薛躬,小于該Z臨界值的正態(tài)分布面積百分比為多少,因為我們的Z值為0.645型宝,所以對應的小于該值面積百分比為0.7389(面積百分比是0~1)

假設我們不知道樣本的值,只知道樣本量為10趴酣,總體均值為6,標準偏差為3.1坑夯,我們怎么知道樣本的標準偏差呢?

這里我們用到一個公式 :


S為標準誤差慎璧,n為樣本量床嫌,SE就是要求的樣本標準偏差

有了這個公式我們就可以在不知道詳細樣本數(shù)據(jù)的時候估算樣本標準偏差胸私。

根據(jù)Z Table我們也可以根據(jù)百分比去判斷Z值


例如我們定義紅色區(qū)域為α鳖谈,α=5%岁疼,即0.05缆娃,那么Z的臨界值為多少捷绒?因為α為0.05贯要,剩下橙色的為0.95,所以通過Z Table可以得知最接近Z臨界為1.64崇渗。這叫單尾驗證。雙尾驗證比這個復雜一點看下圖:


同樣地α=5%宅广,但是雙尾驗證的話,兩邊要攤分5%跟狱,所以兩邊分別是0.025,從Z Table可以找到Z臨界值為正負1.96

T分布和檢驗:

以上都是我們知道總體參數(shù)(總體的平均值u驶臊,標準偏差θ)的情況下才能得出的結果,但大多數(shù)情況下我們只知道樣本关翎,或者幾個樣本,這些樣本可以是獨立笤休,也可以是非獨立的尖飞。只根據(jù)樣本得出的分布是T分布店雅,該分布比較容易跟總體分布有較大的誤差。

T分布通常用自由度來定義闹啦,什么是自由度?舉個例子窍奋,我們隨意挑選三個整數(shù)(可以為負數(shù))酱畅,讓這三個數(shù)加起來為10,

假設我們第一個數(shù)是100江场,第一個通常沒限制,是自由的

第二個數(shù)同樣是自由的址否,我們隨便選個111

但第三個數(shù)不能自由,因為三個數(shù)加起來必須等于10佑附,所以第三個數(shù)只能是-201

根據(jù)這個例子,隨意挑選三個數(shù)音同,3是n,我們只能自由挑選2個权均,所以自由度邊際總數(shù)為n-1。

對于T分布螺句,我們需要新的表格 T表格


T表格左邊是自由度,上面表示大于T臨界值面積百分比蛇尚。T分布的單尾和雙尾驗證是跟上面是差不多的,這里就不敘述了取劫。

跟Z值一樣,T統(tǒng)計量值也可以通過公式求出:


x拔為樣本均值谱邪,uo為總體均值,下面為樣本標準偏差(標準誤差)

當對比均值時惦银,衡量效應大小常見標準之一就是Cohen's d,公式為:


M1為總體均值扯俱,M2為樣本均值,SD為標準誤差

確定系數(shù)r^2 迅栅,一般用來衡量兩個變量之間的關系程度,公式為r^2 = ?t2/(t2+df)读存。其中df為自由度呕屎。

假設與檢驗:

首先假設有兩種,零假設和對立假設秀睛,我們用Ho表示零假設,Ha表示對立假設琅催。例子我們研發(fā)一種新藥物對付癌癥居凶,我們想知道這種新藥對比舊藥對患者治療究竟有沒有顯著提高,我們進行實驗得出結果侠碧。

這里我們的零假設就是:新藥對比舊藥,治療效果差不多弄兜。對立假設為:新藥效果對比舊藥更加好,或者比舊藥差很多替饿。可以用下圖來表示


u表示干預前的總體參數(shù)视卢,uI表示干預后的

兩個樣本的時候如何計算標準誤差:

以上所說的都是單個樣本的情況,如果我們有兩個獨立樣本据过,我們應該如何求出獨立樣本的新標準誤差呢?

假設兩個樣本的標準偏差分別為S1绳锅,S2,樣本量分別為n1鳞芙,n2眷柔,那么我們可以用新的標準誤差公式計算出標準誤差:


首先這個公式怎么來的呢原朝?首先我們要從兩個樣本的標準差求出一個新的標準,用下面公式


然后根據(jù)之前所知道的標準誤差公式竿拆,得出下面推導過程



兩個樣本的量差別很大時候:

以上假設都是在兩個樣本量大致相同的時候(n1與n2大致相同),假如一個樣本量為100丙笋,一個樣本量為10煌贴,兩本量差距太大锥忿,我們需要合并方差來糾正樣本量


合并方差


得出合并方差之后再用它計算出校正的標準誤差:


校正標準誤差


以上純碎個人總結,只是方便自己以后回憶一下敬鬓。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市钉答,隨后出現(xiàn)的幾起案子础芍,更是在濱河造成了極大的恐慌数尿,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件右蹦,死亡現(xiàn)場離奇詭異,居然都是意外死亡何陆,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門贷盲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人晃洒,你說我怎么就攤上這事慨灭∏蚣埃” “怎么了?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵吃引,是天一觀的道長。 經(jīng)常有香客問我镊尺,道長,這世上最難降的妖魔是什么庐氮? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上仙畦,老公的妹妹穿的比我還像新娘。我一直安慰自己慨畸,他們只是感情好,可當我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布寸士。 她就那樣靜靜地躺著,像睡著了一般弱卡。 火紅的嫁衣襯著肌膚如雪乃正。 梳的紋絲不亂的頭發(fā)上谐宙,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天界弧,我揣著相機與錄音凡蜻,去河邊找鬼垢箕。 笑死划栓,一個胖子當著我的面吹牛条获,可吹牛的內容都是我干的忠荞。 我是一名探鬼主播帅掘,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼修档!你這毒婦竟也來了?” 一聲冷哼從身側響起吱窝,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎院峡,沒想到半個月后兴使,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體照激,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年俩垃,在試婚紗的時候發(fā)現(xiàn)自己被綠了欢策。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡踩寇,死狀恐怖,靈堂內的尸體忽然破棺而出俺孙,到底是詐尸還是另有隱情,我是刑警寧澤掷贾,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站想帅,受9級特大地震影響,放射性物質發(fā)生泄漏港准。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一浅缸、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧衩椒,春花似錦蚌父、人聲如沸毛萌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽膏秫。三九已至冀痕,卻和暖如春荔睹,著一層夾襖步出監(jiān)牢的瞬間言蛇,已是汗流浹背僻他。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工腊尚, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓劝篷,卻偏偏與公主長得像,于是被迫代替她去往敵國和親娇妓。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內容