DataWhale概率統(tǒng)計(jì)2——數(shù)理統(tǒng)計(jì)概念及描述性統(tǒng)計(jì)

3音瓷、數(shù)理統(tǒng)計(jì)概念

3.1基本概念釋義

1.定義:在數(shù)理統(tǒng)計(jì)中姓迅,稱研究對象的全體為總體般甲,通常用一個隨機(jī)變量表示總體。組成總體的每個基本單元叫個體墓造。從總體X中隨機(jī)抽取一部分個體觅闽,稱這部分個體為取自X的容量為n的樣本蛉拙。

樣本具有兩重性孕锄,即當(dāng)再一次具體地抽樣后它是一組確定的數(shù)值吮廉。但在一般敘述中宦芦,樣本也是一組隨機(jī)變量恼除,因?yàn)槌闃邮请S機(jī)的踪旷。一般地,用X_{1}, X_{2},...X_{n}表示隨機(jī)樣本豁辉,它們?nèi)〉降闹涤洖?img class="math-inline" src="https://math.jianshu.com/math?formula=x_%7B1%7D%2C%20x_%7B2%7D%2C...%20x_%7Bn%7D%20" alt="x_{1}, x_{2},... x_{n} " mathimg="1">稱為樣本觀測值令野。

樣本作為隨機(jī)變量,有一定的概率分布徽级,這個概率分布稱為樣本分布气破。顯然,樣本分布取決于總體的性質(zhì)和樣本的性質(zhì)餐抢。

3.2統(tǒng)計(jì)量與抽樣

數(shù)理統(tǒng)計(jì)的任務(wù)是采集和處理帶有隨機(jī)影響的數(shù)據(jù)现使,或者說收集樣本并對之進(jìn)行加工,以此對所研究的問題做出一定的結(jié)論旷痕,這個過程稱為統(tǒng)計(jì)推斷

定義:設(shè)X_{1}, X_{2},...X_{n}是總體X的一個簡單隨機(jī)樣本,T(X_{1}, X_{2},...X_{n})為一個n元連續(xù)函數(shù)欺抗,且T中不包含任何關(guān)于總體的未知參數(shù)售碳,則稱T(X_{1}, X_{2},...X_{n})是一個統(tǒng)計(jì)量,稱統(tǒng)計(jì)量的分布為抽樣分布绞呈。

3.3常用的統(tǒng)計(jì)量

1.樣本均值

設(shè)X_{1}, X_{2},...X_{n}是總體X的一個簡單隨機(jī)樣本贸人,稱

\bar{X}= \frac{1}{n} \sum_{i=1}^n X_{i}

為樣本均值。通常用樣本均值來估計(jì)總體分布的均值和對有關(guān)總體分布均值的假設(shè)作檢驗(yàn)佃声。

2.樣本方差

設(shè)X_{1}, X_{2},...X_{n}是總體X的一個簡單隨機(jī)樣本艺智,\bar{X}為樣本均值,稱

S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_{i}-\bar{X})^2

為樣本方差圾亏。通常用樣本方差來估計(jì)總體分布的方差和對有關(guān)總體分布均值或方差的假設(shè)作檢驗(yàn)十拣。

3.k階樣本原點(diǎn)矩

設(shè)X_{1}, X_{2},...X_{n}是總體X的一個簡單隨機(jī)樣本封拧,稱

A_{k} = \frac{1}{n}\sum_{i=1}^nX_{i}^k

為樣本的k階原點(diǎn)矩(可以看到當(dāng)k=1時,相當(dāng)于樣本均值)铛只,通常用樣本的無階原點(diǎn)矩來估計(jì)總體分布的k階原點(diǎn)矩埠胖。

4.k階樣本中心矩

設(shè)X_{1}, X_{2},...X_{n}是總體X的一個簡單隨機(jī)樣本,\bar{X}為樣本均值淳玩,稱

M_{k} = \frac{1}{n}\sum_{i=1}^n(X_{i}-\bar{X} )^k

為樣本的k階中心矩直撤,通常用樣本的k階中心矩來估計(jì)總體分布的k階中心矩。

5.順序統(tǒng)計(jì)量

設(shè)X_{1}, X_{2},...X_{n}是抽自總體X的樣本蜕着,x_{1}, x_{2},... x_{n} 為樣本觀測值谋竖。將x_{1}, x_{2},... x_{n} 按照從小到大的順序排列為

x_{(1)}<= x_{(2)}<=... <=x_{(n)}

當(dāng)樣本X_{1}, X_{2},...X_{n}取值x_{1}, x_{2},... x_{n} 時,定義X_{(k)}取值X_{(k)}(k = 1,2,...n),稱X_{(1)},X_{(2)},...X_{(n)}

X_{1}, X_{2},...X_{n}的順序統(tǒng)計(jì)量承匣。

4.描述性統(tǒng)計(jì)

4.1數(shù)據(jù)集中趨勢的度量

1.平均數(shù):是表示一組數(shù)據(jù)集中趨勢的量數(shù)蓖乘,是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個數(shù)

2.中位數(shù):是指在一組數(shù)據(jù)中,按順序排列后韧骗,居于中間位置的數(shù)嘉抒。中位數(shù)表述數(shù)據(jù)中心位置的數(shù)字特征,對于對稱分布的數(shù)據(jù)袍暴,均值與中位數(shù)比較接近些侍;對于偏態(tài)分布的數(shù)據(jù),均值與中位數(shù)不同政模。中位數(shù)不受異常值的影響岗宣,具有穩(wěn)健性。

3.頻數(shù):指同一觀測值在一組數(shù)據(jù)中心出現(xiàn)的次數(shù)淋样。

4.眾數(shù):就是一組數(shù)據(jù)中耗式,出現(xiàn)最多的那個數(shù)。

5.百分位數(shù):百分位數(shù)就是中位數(shù)的推廣习蓬,將數(shù)據(jù)按從小到大排列后纽什,按照百分?jǐn)?shù)進(jìn)行定位。

4.2數(shù)據(jù)離散趨勢的度量

表示數(shù)據(jù)分散(離散躲叼,差異)成都的特征量有 方差芦缰,標(biāo)準(zhǔn)差,極差以及變異系數(shù)等枫慷。

1.方差:用來計(jì)算每一個變量(觀察值)與總體均數(shù)之間的差異让蕾。實(shí)際工作中浪规,總體均屬難以得到時,應(yīng)用樣本統(tǒng)計(jì)量代替總體參數(shù)探孝,經(jīng)校正后笋婿,樣本方差計(jì)算公式:

S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_{i}-\bar{X})^2

2.標(biāo)準(zhǔn)差:樣本方差的開平方成為樣本標(biāo)準(zhǔn)差。

3.極差:數(shù)據(jù)越分散顿颅,極差越大缸濒。

R = x_{(n)} -x_{(1)} = max(x)-min(x)

4.變異系數(shù):

a.是刻畫數(shù)據(jù)相對分散性的一種度量。變異系數(shù)只在平均值不為零時有意義粱腻,而且一般適用于平均值大于零的情況庇配。變異系數(shù)也被稱為標(biāo)準(zhǔn)離差率單位風(fēng)險(xiǎn)。

b.當(dāng)需要比較兩組數(shù)據(jù)離散程度大小的時候绍些,如果兩組數(shù)據(jù)的測量尺度相差太大捞慌,或者數(shù)據(jù)量綱的不同,變異系數(shù)可以消除測量尺度和量綱的影響柬批。

5.四分位差:樣本上啸澡、下四分位數(shù)之差稱為四分位差(或半極差)。它也是度量樣本分散性的重要數(shù)字特征氮帐,特別對于具有異常值的數(shù)據(jù)嗅虏,它作為分散性具有穩(wěn)健性。

4.3分布特征

描述一個隨機(jī)變量上沐,不僅要說明它能夠取哪些值旋恼,還要關(guān)心它取這些值的概率(可能性)。

1.離散變量與連續(xù)變量:

離散型隨機(jī)變量是指其數(shù)值只能用自然數(shù)或整數(shù)單位計(jì)算的則為離散變量奄容。例如:班級人數(shù)冰更,電腦臺數(shù)等,只能按計(jì)量單位數(shù)計(jì)數(shù)昂勒,這種變量的數(shù)值一般用計(jì)數(shù)方法取得蜀细。

反之,在一定區(qū)間內(nèi)可以任意取值的變量叫連續(xù)變量戈盈,其數(shù)值是連續(xù)不斷的奠衔,即可取無限個數(shù)值。例如:人體測量的身高塘娶,體重等归斤。

如果隨機(jī)變量的值可以都可以逐個列舉出來,則為離散型隨機(jī)變量刁岸。如果隨機(jī)變量X的取值無法逐個列舉則為連續(xù)型變量脏里。

2.概率函數(shù):就是用函數(shù)的形式來表達(dá)概率。(大量重復(fù)試驗(yàn)中出現(xiàn)的頻率來估計(jì)概率虹曙,它約等于事件出現(xiàn)的頻數(shù)除以重復(fù)試驗(yàn)的次數(shù))迫横,連續(xù)型隨機(jī)變量的概率函數(shù)就叫做概率密度函數(shù)番舆。

3.分布函數(shù):設(shè)X是一個隨機(jī)變量,對任意的實(shí)數(shù)x矾踱,令

F(x) = P\{X<=x\},x\in (-\propto 恨狈,+\propto )

則稱F(x)是隨機(jī)變量X的分布函數(shù)(概率累積函數(shù))。

分布函數(shù)和密度函數(shù)的區(qū)別:密度函數(shù)求積分為分布函數(shù)呛讲,分布函數(shù)求導(dǎo)為密度函數(shù)

4.正態(tài)分布:也稱高斯分布禾怠,是一個非常常見的連續(xù)概率分布。概率密度函數(shù)為

f(x) = \frac{1}{\sqrt{2π}\sigma  } exp\{-\frac{(x-\mu )^2}{2\sigma ^2}\},-∞<x<+∞

例如測量誤差贝搁、商品的重量或尺寸刃宵、某年齡人群的身高和體重均為正態(tài)分布。

對于一般正態(tài)分布徘公,從\mu -3\sigma \mu +3\sigma 的區(qū)間上概率密度曲線之下的面積占總面積的99.7%,這就是著名的3\sigma 原則哮针。

4.4偏度與峰度

偏度(skewness):也稱偏態(tài)关面,是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計(jì)數(shù)據(jù)分布非堆成程度的數(shù)字特征十厢。直觀看來就是密度函數(shù)曲線尾部的相對長度等太。偏度刻畫的是分布函數(shù)(數(shù)據(jù))的對稱性。關(guān)于均值對稱的數(shù)據(jù)其偏度系數(shù)為0蛮放,右側(cè)更分散的數(shù)據(jù)偏度系數(shù)為正缩抡,左側(cè)更分散的數(shù)據(jù)偏度系數(shù)為負(fù)

正態(tài)分布的偏度為0,兩側(cè)尾部長度對稱

左偏:1.以bs表示偏度包颁。bs<0稱分布具有負(fù)偏離瞻想,也稱左偏態(tài);2.此時數(shù)據(jù)位于均值左邊的比位于右邊的少娩嚼,直觀表現(xiàn)為左邊的尾部相對于右邊的尾部要長蘑险;3.因?yàn)橛猩贁?shù)變量值很小,使曲線左側(cè)尾部拖得很長岳悟。

右偏:1.bs>0稱分布具有正偏離佃迄,也稱右偏態(tài);2.此時數(shù)據(jù)位于均值右邊的比位于左邊的少贵少,直觀表現(xiàn)為右邊的尾部相對于左邊的要長呵俏;3.因?yàn)橛猩贁?shù)變量值很大,使曲線右側(cè)尾部拖得很長滔灶。

峰度(peakedness;kurtosis):說明的是分布曲線在平均值處峰值高低的特征數(shù)普碎。直觀看來,峰度反映了峰部的尖度录平。樣本的峰度是和正態(tài)分布相比較而言的統(tǒng)計(jì)量随常,如果峰度大于三潜沦,峰的形狀比較尖,比正態(tài)分布峰要陡峭绪氛。反之亦然唆鸡。峰度刻畫的是分布函數(shù)集中和分散程度。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末枣察,一起剝皮案震驚了整個濱河市争占,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌序目,老刑警劉巖臂痕,帶你破解...
    沈念sama閱讀 211,376評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異猿涨,居然都是意外死亡握童,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評論 2 385
  • 文/潘曉璐 我一進(jìn)店門叛赚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來澡绩,“玉大人,你說我怎么就攤上這事俺附》士ǎ” “怎么了?”我有些...
    開封第一講書人閱讀 156,966評論 0 347
  • 文/不壞的土叔 我叫張陵事镣,是天一觀的道長步鉴。 經(jīng)常有香客問我,道長璃哟,這世上最難降的妖魔是什么氛琢? 我笑而不...
    開封第一講書人閱讀 56,432評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮随闪,結(jié)果婚禮上艺沼,老公的妹妹穿的比我還像新娘。我一直安慰自己蕴掏,他們只是感情好障般,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,519評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著盛杰,像睡著了一般挽荡。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上即供,一...
    開封第一講書人閱讀 49,792評論 1 290
  • 那天定拟,我揣著相機(jī)與錄音,去河邊找鬼。 笑死青自,一個胖子當(dāng)著我的面吹牛株依,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播延窜,決...
    沈念sama閱讀 38,933評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼恋腕,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了逆瑞?” 一聲冷哼從身側(cè)響起荠藤,我...
    開封第一講書人閱讀 37,701評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎获高,沒想到半個月后哈肖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,143評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡念秧,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,488評論 2 327
  • 正文 我和宋清朗相戀三年淤井,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片摊趾。...
    茶點(diǎn)故事閱讀 38,626評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡币狠,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出严就,到底是詐尸還是另有隱情,我是刑警寧澤器罐,帶...
    沈念sama閱讀 34,292評論 4 329
  • 正文 年R本政府宣布梢为,位于F島的核電站,受9級特大地震影響轰坊,放射性物質(zhì)發(fā)生泄漏铸董。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,896評論 3 313
  • 文/蒙蒙 一肴沫、第九天 我趴在偏房一處隱蔽的房頂上張望粟害。 院中可真熱鬧,春花似錦颤芬、人聲如沸悲幅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽汰具。三九已至,卻和暖如春菱魔,著一層夾襖步出監(jiān)牢的瞬間留荔,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工澜倦, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留聚蝶,地道東北人杰妓。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像碘勉,于是被迫代替她去往敵國和親巷挥。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,494評論 2 348