《統(tǒng)計思維:程序員數(shù)學(xué)之概率統(tǒng)計》讀書筆記

均值是為了描述集中趨勢叛薯,而方差則是描述分散情況。

匯總統(tǒng)計量簡單明了笙纤, 但風(fēng)險也大耗溜, 因?yàn)樗鼈兒苡锌赡軙谏w數(shù)據(jù)的真相。 另一種方法就是看數(shù)據(jù)的分布(distribution)省容,它描述了各個值出現(xiàn)的頻繁程度抖拴。?

表示分布最常用的方法是直方圖(histogram),這種圖用于展示各個值出現(xiàn)的頻數(shù)或概率腥椒。直方圖很有用阿宅,因?yàn)樗梢苑浅V庇^地展現(xiàn)數(shù)據(jù)的以下特征。在數(shù)據(jù)量較大時笼蛛,可以使用曲線圖洒放。

??眾數(shù)

分布中出現(xiàn)次數(shù)最多的值叫做眾數(shù),眾數(shù)是最適合描述典型值的匯總統(tǒng)計量滨砍。

??形狀

以眾數(shù)為中心往湿,整個分布的形狀是否對稱,是否有奇異處惋戏,比如升降快慢领追、截斷、突出尖刺等等日川,分析是否合理蔓腐。

??異常值

遠(yuǎn)離眾數(shù)的值叫做異常值(outlier)。其中有些只是罕見情況龄句,但有些很有可能是匯總或者記錄數(shù)據(jù)的某個環(huán)節(jié)中的失誤導(dǎo)致的回论。

如果你對數(shù)據(jù)的含義有基本認(rèn)識散罕,設(shè)計一個能展示直觀效應(yīng)的可視化方法通常會有所幫助】兀可以做一個變換欧漱,凸顯數(shù)據(jù)的特征,比如葬燎,放大圖形的某一部分误甚、歸一化處理,或者將數(shù)據(jù)從一個域變換到另一個域等等谱净。

可以用相對風(fēng)險(relative risk)來概括類似的數(shù)據(jù)窑邦,它代表兩個概率的比值。例如壕探。第一胎提前出生的概率是18.2%冈钦。非第一胎嬰兒提前出生的概率是16.8%。因此相對風(fēng)險就是1.08李请。這意味著第一胎較其他幾胎更早出生的可能性有8瞧筛。

平均數(shù):是統(tǒng)計中最常用的數(shù)據(jù)代表值,比較可靠和穩(wěn)定导盅,因?yàn)樗c每一個數(shù)據(jù)都有關(guān)较幌,反映出來的信息最充分。平均數(shù)既可以描述一組數(shù)據(jù)本身的整體平均情況白翻,也可以用來作為不同組數(shù)據(jù)比較的一個標(biāo)準(zhǔn)乍炉。因此,它在生活中應(yīng)用最廣泛嘁字,比如我們經(jīng)常所說的平均成績恩急、平均身高、平均體重等纪蜒。

中位數(shù):作為一組數(shù)據(jù)的代表,可靠性比較差此叠,因?yàn)樗焕昧瞬糠謹(jǐn)?shù)據(jù)纯续。但當(dāng)一組數(shù)據(jù)的個別數(shù)據(jù)偏大或偏小時,用中位數(shù)來描述該組數(shù)據(jù)的集中趨勢就比較合適灭袁。

眾數(shù):作為一組數(shù)據(jù)的代表猬错,可靠性也比較差,因?yàn)樗仓焕昧瞬糠謹(jǐn)?shù)據(jù)茸歧。在一組數(shù)據(jù)中倦炒,如果個別數(shù)據(jù)有很大的變動,且某個數(shù)據(jù)出現(xiàn)的次數(shù)最多软瞎,此時用該數(shù)據(jù)(即眾數(shù))表示這組數(shù)據(jù)的“集中趨勢”就比較適合逢唤。

平均數(shù)拉讯、中位數(shù)和眾數(shù)的聯(lián)系與區(qū)別:?

平均數(shù)應(yīng)用比較廣泛,它作為一組數(shù)據(jù)的代表鳖藕,比較穩(wěn)定魔慷、可靠。但平均數(shù)與一組數(shù)據(jù)中的所有數(shù)據(jù)都有關(guān)系著恩,容易受極端數(shù)據(jù)的影響院尔;簡單的說就是表示這組數(shù)據(jù)的平均數(shù)。中位數(shù)在一組數(shù)據(jù)中的數(shù)值排序中處于中間的位置喉誊,人們由中位數(shù)可以對事物的大體進(jìn)行判斷和掌控邀摆,它雖然不受極端數(shù)據(jù)的影響,但可靠性比較差伍茄;所以中位數(shù)只是表示這組數(shù)據(jù)的一般情況隧熙。眾數(shù)著眼對一組數(shù)據(jù)出現(xiàn)的頻數(shù)的考察,它作為一組數(shù)據(jù)的代表幻林,它不受極端數(shù)據(jù)的影響贞盯,其大小與一組數(shù)據(jù)中的部分?jǐn)?shù)據(jù)有關(guān),當(dāng)一組數(shù)據(jù)中沪饺,如果個別數(shù)據(jù)有很大的變化躏敢,且某個數(shù)據(jù)出現(xiàn)的次數(shù)較多,此時用眾數(shù)表示這組數(shù)據(jù)的集中趨勢整葡,比較合適件余,體現(xiàn)了整個數(shù)據(jù)的集中情況。 這三個統(tǒng)計量雖反映有所不同遭居,但都可表示數(shù)據(jù)的集中趨勢啼器,都可作為數(shù)據(jù)一般水平的代表。應(yīng)用時可以根據(jù)數(shù)據(jù)的特點(diǎn)進(jìn)行選擇俱萍,一般使用平均數(shù)端壳,可以用中位數(shù)和眾數(shù)作為輔助考察數(shù)據(jù)。

偏度(skewness)是度量分布函數(shù)不對稱程度的統(tǒng)計量枪蘑。樣本偏度的定義為:

這里 m2 是均方離差(即方差)损谦,m3 是平均的立方離差。負(fù)的偏度表示分布向左偏(skews left)岳颇,此時分布函數(shù)的左邊會比右邊延伸得更長照捡;正的偏度表示分布函數(shù)向右偏。上述計算樣本偏度的公式在實(shí)際應(yīng)用中使用得并不多话侧。 因?yàn)槿绻麡颖局写嬖诋惓V担?那么這些異常值可能對偏度的值產(chǎn)生非常大的影響栗精。

另外一個評價分布函數(shù)非對稱程度的方法是比較均值和中位數(shù)的大小。

皮爾遜中值偏度系數(shù)(Pearson’s median skewness coefficient)就是一個基于這種思想的偏度度量(其中μ為均值瞻鹏,μ1/2 為中位數(shù)):

g_{p}=3(\mu-\mu_{1/2})/\sigma

該統(tǒng)計量是偏度的一個魯棒估計悲立,它對異常值的影響不敏感鹿寨。

假設(shè)檢驗(yàn)(hypothesis testing)的邏輯類似于數(shù)學(xué)上的反證法:為了證明數(shù)學(xué)命題A是正確的,我們先假設(shè)A是錯誤的级历,如果基于這個假設(shè)得出了矛盾的結(jié)果释移,那么我們就證明了A是正確的。同樣地寥殖,為了檢驗(yàn)?zāi)硞€直觀效應(yīng)是否真實(shí)存在玩讳,我們首先假設(shè)這個效應(yīng)不是真實(shí)存在的,即偶然造成的(原假設(shè))嚼贡。然后基于這個原假設(shè)計算出發(fā)生這種效應(yīng)的概率(p 值)熏纯。如果p值非常小,我們就可以認(rèn)為原假設(shè)不大可能是真的粤策。

我們提到了一個問題:如何確定觀測到的表觀效應(yīng)是否真實(shí)存在樟澜?我們是這樣來處理的。首先叮盘,定義原假設(shè)(效應(yīng)不存在)為H0秩贰,然后定義p值為 P(E|H0), 這里的E表示的是與表觀效應(yīng)相符以及比表觀效應(yīng)更顯著的效應(yīng)柔吼。 最后我們可以計算得到p值毒费,并將其與閾值α作比較。一般說來有如下的幾種解釋:

? 古典解釋

在古典的假設(shè)檢驗(yàn)中愈魏,如果p值小于閾值α觅玻,那么我們可以說效應(yīng)在統(tǒng)計學(xué)上是顯著的,但是不能得到效應(yīng)真實(shí)存在的結(jié)論培漏。這種解釋很謹(jǐn)慎溪厘,避免提到結(jié)論,但無法讓人滿意牌柄。

? 實(shí)際解釋

在實(shí)際應(yīng)用中畸悬,人們并沒有像上述那樣正式地處理假設(shè)檢驗(yàn)。在絕大多數(shù)科學(xué)雜志中友鼻,研究者毫無節(jié)制地報道p值傻昙,讀者也將它們作為表觀效應(yīng)真實(shí)存在的證據(jù)。p值越低彩扔,就越能使他們相信結(jié)論的正確性。

? 貝葉斯統(tǒng)計解釋

實(shí)際上我們想知道的是 P(HA|E)僻爽,這里HA是與H0相對的假設(shè)虫碉,即效應(yīng)是真實(shí)存在的。由貝葉斯定理可得

P(H_{A}|E)=\frac{P(E|H_{A})P(H_{A})}{P(E)}

這里P(HA)是在我們觀測到這個效應(yīng)之前的先驗(yàn)概率胸梆。P(E|HA)是在HA成立的條件下觀測到效應(yīng)E的概率敦捧。P(E)是在任意情況下觀測到效應(yīng)E的概率须板。效應(yīng)要么存在,要么不存在兢卵,所以這里P(E)可以表示為

P(E) = P(E|HA)P(HA) + P(E|H0)P(H0)

我們使用數(shù)據(jù)集來構(gòu)建HA习瑰,然后再用同一個數(shù)據(jù)集進(jìn)行檢驗(yàn)。這并不是一個好方法秽荤,很容易產(chǎn)生錯誤結(jié)果甜奄。可以用交叉驗(yàn)證(cross-validation)的方法來解決這個問題:用一批數(shù)據(jù)來計算δ窃款,然后再用另一批數(shù)據(jù)來計算 P(HA|E)课兄。 第一批數(shù)據(jù)稱為訓(xùn)練集(training set),第二批數(shù)據(jù)稱為測試集(testing set)晨继。

貝葉斯概率依賴于先驗(yàn)概率的指定烟阐,而人們在這個問題上往往很難達(dá)成一致,一些人因此對貝葉斯概率持反對態(tài)度紊扬。對那些堅持認(rèn)為科學(xué)結(jié)果應(yīng)是具有客觀性和普遍性的人來說蜒茄,貝葉斯概率的這種性質(zhì)是他們無法接受的。

針對反對觀點(diǎn)餐屎,下面是一種解釋:在實(shí)際應(yīng)用中檀葛,強(qiáng)有力的證據(jù)會降低先驗(yàn)概率的影響,所以即使人們初始指定的概率不同啤挎,最終的后驗(yàn)概率會傾向于收斂驻谆。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市庆聘,隨后出現(xiàn)的幾起案子胜臊,更是在濱河造成了極大的恐慌,老刑警劉巖伙判,帶你破解...
    沈念sama閱讀 222,590評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件象对,死亡現(xiàn)場離奇詭異,居然都是意外死亡宴抚,警方通過查閱死者的電腦和手機(jī)勒魔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,157評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來菇曲,“玉大人冠绢,你說我怎么就攤上這事〕3保” “怎么了弟胀?”我有些...
    開封第一講書人閱讀 169,301評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我孵户,道長萧朝,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,078評論 1 300
  • 正文 為了忘掉前任夏哭,我火速辦了婚禮检柬,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘竖配。我一直安慰自己何址,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,082評論 6 398
  • 文/花漫 我一把揭開白布械念。 她就那樣靜靜地躺著头朱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪龄减。 梳的紋絲不亂的頭發(fā)上项钮,一...
    開封第一講書人閱讀 52,682評論 1 312
  • 那天,我揣著相機(jī)與錄音希停,去河邊找鬼烁巫。 笑死,一個胖子當(dāng)著我的面吹牛宠能,可吹牛的內(nèi)容都是我干的亚隙。 我是一名探鬼主播,決...
    沈念sama閱讀 41,155評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼违崇,長吁一口氣:“原來是場噩夢啊……” “哼阿弃!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起羞延,我...
    開封第一講書人閱讀 40,098評論 0 277
  • 序言:老撾萬榮一對情侶失蹤渣淳,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后伴箩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體入愧,經(jīng)...
    沈念sama閱讀 46,638評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,701評論 3 342
  • 正文 我和宋清朗相戀三年嗤谚,在試婚紗的時候發(fā)現(xiàn)自己被綠了棺蛛。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,852評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡巩步,死狀恐怖旁赊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情椅野,我是刑警寧澤彤恶,帶...
    沈念sama閱讀 36,520評論 5 351
  • 正文 年R本政府宣布钞钙,位于F島的核電站鳄橘,受9級特大地震影響声离,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瘫怜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,181評論 3 335
  • 文/蒙蒙 一术徊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧鲸湃,春花似錦赠涮、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,674評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至炸裆,卻和暖如春垃它,著一層夾襖步出監(jiān)牢的瞬間坏快,已是汗流浹背罕扎。 一陣腳步聲響...
    開封第一講書人閱讀 33,788評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留上忍,地道東北人惯殊。 一個月前我還...
    沈念sama閱讀 49,279評論 3 379
  • 正文 我出身青樓酱吝,卻偏偏與公主長得像,于是被迫代替她去往敵國和親土思。 傳聞我的和親對象是個殘疾皇子务热,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,851評論 2 361

推薦閱讀更多精彩內(nèi)容

  • 《數(shù)據(jù)分析的統(tǒng)計基礎(chǔ)》的讀書筆記 作 者:經(jīng)管之家、曹正鳳 出版社:電子工業(yè)出版社 版 次:2015年2月第1...
    格式化_001閱讀 9,671評論 1 58
  • 現(xiàn)在人們都說“520”這個數(shù)字代表著我愛你己儒,在5月20日這一天崎岂,我參加了五蓮縣義工團(tuán)組織的“感恩母親、護(hù)蛋行動”的...
    張宏zh閱讀 433評論 4 3
  • 人類從古到今生活有許多的變化址愿。如現(xiàn)在的信息還有交通等等都發(fā)生了很多改變该镣。 在信息上,人們以前用飛鴿傳書响谓。...
    環(huán)絮閱讀 220評論 0 0
  • 心如沙漠 你在沙漠深處與我做伴 灑下一顆顆曼珠沙華的種子 拿出手中的蕭 喚醒孤寂的花 春季潤物 載著所有希望 給了...
    涼意眉閱讀 313評論 0 2