3音瓷、數(shù)理統(tǒng)計(jì)概念
3.1基本概念釋義
1.定義:在數(shù)理統(tǒng)計(jì)中姓迅,稱研究對象的全體為總體般甲,通常用一個隨機(jī)變量表示總體。組成總體的每個基本單元叫個體墓造。從總體X中隨機(jī)抽取一部分個體觅闽,稱這部分個體為取自X的容量為n的樣本蛉拙。
樣本具有兩重性孕锄,即當(dāng)再一次具體地抽樣后它是一組確定的數(shù)值吮廉。但在一般敘述中宦芦,樣本也是一組隨機(jī)變量恼除,因?yàn)槌闃邮请S機(jī)的踪旷。一般地,用表示隨機(jī)樣本豁辉,它們?nèi)〉降闹涤洖?img class="math-inline" src="https://math.jianshu.com/math?formula=x_%7B1%7D%2C%20x_%7B2%7D%2C...%20x_%7Bn%7D%20" alt="x_{1}, x_{2},... x_{n} " mathimg="1">稱為樣本觀測值令野。
樣本作為隨機(jī)變量,有一定的概率分布徽级,這個概率分布稱為樣本分布气破。顯然,樣本分布取決于總體的性質(zhì)和樣本的性質(zhì)餐抢。
3.2統(tǒng)計(jì)量與抽樣
數(shù)理統(tǒng)計(jì)的任務(wù)是采集和處理帶有隨機(jī)影響的數(shù)據(jù)现使,或者說收集樣本并對之進(jìn)行加工,以此對所研究的問題做出一定的結(jié)論旷痕,這個過程稱為統(tǒng)計(jì)推斷
定義:設(shè)是總體X的一個簡單隨機(jī)樣本,為一個n元連續(xù)函數(shù)欺抗,且T中不包含任何關(guān)于總體的未知參數(shù)售碳,則稱是一個統(tǒng)計(jì)量,稱統(tǒng)計(jì)量的分布為抽樣分布绞呈。
3.3常用的統(tǒng)計(jì)量
1.樣本均值
設(shè)是總體X的一個簡單隨機(jī)樣本贸人,稱
為樣本均值。通常用樣本均值來估計(jì)總體分布的均值和對有關(guān)總體分布均值的假設(shè)作檢驗(yàn)佃声。
2.樣本方差
設(shè)是總體X的一個簡單隨機(jī)樣本艺智,為樣本均值,稱
為樣本方差圾亏。通常用樣本方差來估計(jì)總體分布的方差和對有關(guān)總體分布均值或方差的假設(shè)作檢驗(yàn)十拣。
3.k階樣本原點(diǎn)矩
設(shè)是總體X的一個簡單隨機(jī)樣本封拧,稱
為樣本的k階原點(diǎn)矩(可以看到當(dāng)k=1時,相當(dāng)于樣本均值)铛只,通常用樣本的無階原點(diǎn)矩來估計(jì)總體分布的k階原點(diǎn)矩埠胖。
4.k階樣本中心矩
設(shè)是總體X的一個簡單隨機(jī)樣本,為樣本均值淳玩,稱
為樣本的k階中心矩直撤,通常用樣本的k階中心矩來估計(jì)總體分布的k階中心矩。
5.順序統(tǒng)計(jì)量
設(shè)是抽自總體X的樣本蜕着,為樣本觀測值谋竖。將按照從小到大的順序排列為
當(dāng)樣本取值時,定義取值(k = 1,2,...n),稱為
的順序統(tǒng)計(jì)量承匣。
4.描述性統(tǒng)計(jì)
4.1數(shù)據(jù)集中趨勢的度量
1.平均數(shù):是表示一組數(shù)據(jù)集中趨勢的量數(shù)蓖乘,是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個數(shù)
2.中位數(shù):是指在一組數(shù)據(jù)中,按順序排列后韧骗,居于中間位置的數(shù)嘉抒。中位數(shù)表述數(shù)據(jù)中心位置的數(shù)字特征,對于對稱分布的數(shù)據(jù)袍暴,均值與中位數(shù)比較接近些侍;對于偏態(tài)分布的數(shù)據(jù),均值與中位數(shù)不同政模。中位數(shù)不受異常值的影響岗宣,具有穩(wěn)健性。
3.頻數(shù):指同一觀測值在一組數(shù)據(jù)中心出現(xiàn)的次數(shù)淋样。
4.眾數(shù):就是一組數(shù)據(jù)中耗式,出現(xiàn)最多的那個數(shù)。
5.百分位數(shù):百分位數(shù)就是中位數(shù)的推廣习蓬,將數(shù)據(jù)按從小到大排列后纽什,按照百分?jǐn)?shù)進(jìn)行定位。
4.2數(shù)據(jù)離散趨勢的度量
表示數(shù)據(jù)分散(離散躲叼,差異)成都的特征量有 方差芦缰,標(biāo)準(zhǔn)差,極差以及變異系數(shù)等枫慷。
1.方差:用來計(jì)算每一個變量(觀察值)與總體均數(shù)之間的差異让蕾。實(shí)際工作中浪规,總體均屬難以得到時,應(yīng)用樣本統(tǒng)計(jì)量代替總體參數(shù)探孝,經(jīng)校正后笋婿,樣本方差計(jì)算公式:
2.標(biāo)準(zhǔn)差:樣本方差的開平方成為樣本標(biāo)準(zhǔn)差。
3.極差:數(shù)據(jù)越分散顿颅,極差越大缸濒。
4.變異系數(shù):
a.是刻畫數(shù)據(jù)相對分散性的一種度量。變異系數(shù)只在平均值不為零時有意義粱腻,而且一般適用于平均值大于零的情況庇配。變異系數(shù)也被稱為標(biāo)準(zhǔn)離差率或單位風(fēng)險(xiǎn)。
b.當(dāng)需要比較兩組數(shù)據(jù)離散程度大小的時候绍些,如果兩組數(shù)據(jù)的測量尺度相差太大捞慌,或者數(shù)據(jù)量綱的不同,變異系數(shù)可以消除測量尺度和量綱的影響柬批。
5.四分位差:樣本上啸澡、下四分位數(shù)之差稱為四分位差(或半極差)。它也是度量樣本分散性的重要數(shù)字特征氮帐,特別對于具有異常值的數(shù)據(jù)嗅虏,它作為分散性具有穩(wěn)健性。
4.3分布特征
描述一個隨機(jī)變量上沐,不僅要說明它能夠取哪些值旋恼,還要關(guān)心它取這些值的概率(可能性)。
1.離散變量與連續(xù)變量:
離散型隨機(jī)變量是指其數(shù)值只能用自然數(shù)或整數(shù)單位計(jì)算的則為離散變量奄容。例如:班級人數(shù)冰更,電腦臺數(shù)等,只能按計(jì)量單位數(shù)計(jì)數(shù)昂勒,這種變量的數(shù)值一般用計(jì)數(shù)方法取得蜀细。
反之,在一定區(qū)間內(nèi)可以任意取值的變量叫連續(xù)變量戈盈,其數(shù)值是連續(xù)不斷的奠衔,即可取無限個數(shù)值。例如:人體測量的身高塘娶,體重等归斤。
如果隨機(jī)變量的值可以都可以逐個列舉出來,則為離散型隨機(jī)變量刁岸。如果隨機(jī)變量X的取值無法逐個列舉則為連續(xù)型變量脏里。
2.概率函數(shù):就是用函數(shù)的形式來表達(dá)概率。(大量重復(fù)試驗(yàn)中出現(xiàn)的頻率來估計(jì)概率虹曙,它約等于事件出現(xiàn)的頻數(shù)除以重復(fù)試驗(yàn)的次數(shù))迫横,連續(xù)型隨機(jī)變量的概率函數(shù)就叫做概率密度函數(shù)番舆。
3.分布函數(shù):設(shè)X是一個隨機(jī)變量,對任意的實(shí)數(shù)x矾踱,令
則稱F(x)是隨機(jī)變量X的分布函數(shù)(概率累積函數(shù))。
分布函數(shù)和密度函數(shù)的區(qū)別:密度函數(shù)求積分為分布函數(shù)呛讲,分布函數(shù)求導(dǎo)為密度函數(shù)
4.正態(tài)分布:也稱高斯分布禾怠,是一個非常常見的連續(xù)概率分布。概率密度函數(shù)為
例如測量誤差贝搁、商品的重量或尺寸刃宵、某年齡人群的身高和體重均為正態(tài)分布。
對于一般正態(tài)分布徘公,從到的區(qū)間上概率密度曲線之下的面積占總面積的99.7%,這就是著名的原則哮针。
4.4偏度與峰度
偏度(skewness):也稱偏態(tài)关面,是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計(jì)數(shù)據(jù)分布非堆成程度的數(shù)字特征十厢。直觀看來就是密度函數(shù)曲線尾部的相對長度等太。偏度刻畫的是分布函數(shù)(數(shù)據(jù))的對稱性。關(guān)于均值對稱的數(shù)據(jù)其偏度系數(shù)為0蛮放,右側(cè)更分散的數(shù)據(jù)偏度系數(shù)為正缩抡,左側(cè)更分散的數(shù)據(jù)偏度系數(shù)為負(fù)
正態(tài)分布的偏度為0,兩側(cè)尾部長度對稱
左偏:1.以bs表示偏度包颁。bs<0稱分布具有負(fù)偏離瞻想,也稱左偏態(tài);2.此時數(shù)據(jù)位于均值左邊的比位于右邊的少娩嚼,直觀表現(xiàn)為左邊的尾部相對于右邊的尾部要長蘑险;3.因?yàn)橛猩贁?shù)變量值很小,使曲線左側(cè)尾部拖得很長岳悟。
右偏:1.bs>0稱分布具有正偏離佃迄,也稱右偏態(tài);2.此時數(shù)據(jù)位于均值右邊的比位于左邊的少贵少,直觀表現(xiàn)為右邊的尾部相對于左邊的要長呵俏;3.因?yàn)橛猩贁?shù)變量值很大,使曲線右側(cè)尾部拖得很長滔灶。
峰度(peakedness;kurtosis):說明的是分布曲線在平均值處峰值高低的特征數(shù)普碎。直觀看來,峰度反映了峰部的尖度录平。樣本的峰度是和正態(tài)分布相比較而言的統(tǒng)計(jì)量随常,如果峰度大于三潜沦,峰的形狀比較尖,比正態(tài)分布峰要陡峭绪氛。反之亦然唆鸡。峰度刻畫的是分布函數(shù)集中和分散程度。