第一章 變量和圖形
統(tǒng)計學(xué):科學(xué)方法收集焊切、整理影晓、匯總、描述和分析數(shù)據(jù)資料暖呕,并在此基礎(chǔ)上進(jìn)行推斷和決策的科學(xué);
歸納統(tǒng)計學(xué)/統(tǒng)計推斷:通過樣本分析來給總體下結(jié)論
描述性統(tǒng)計學(xué)/演繹統(tǒng)計學(xué):值描述和分析特定對象而不下結(jié)論或推斷
變量苞氮、常量湾揽、連續(xù)變量、離散變量笼吟、連續(xù)數(shù)據(jù)库物、離散數(shù)據(jù)
自變量、因變量贷帮、函數(shù)戚揭、單值函數(shù)、多值函數(shù)
第二章 頻數(shù)分布
數(shù)組陣列:原始數(shù)據(jù)按照數(shù)量大小升序或者降序排列撵枢,最大值與最小值的差為全距民晒;
組距、組限锄禽、組界潜必、組中值、直方圖與頻率多邊形
頻率分布=某一組頻數(shù)/總頻數(shù)
累計頻數(shù)分布/累計頻數(shù)表沃但,累計頻數(shù)多邊形/卵形線
累計頻率分布/百分率累計頻數(shù)=累計頻數(shù)/總頻數(shù)
第三章 均值磁滚、中位數(shù)、眾數(shù)及其他表示集中趨勢的度量
一宵晚、中位數(shù)
定義/解釋:按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)垂攘,即在這組數(shù)據(jù)中,有一半的數(shù)據(jù)比他大淤刃,有一半的數(shù)據(jù)比他小
#?如果觀察值有偶數(shù)個晒他,通常取最中間的兩個數(shù)值的平均數(shù)作為中位數(shù)。
二钝凶、方差
參考百科:方差
1)定義
方差(variance):是在概率論和統(tǒng)計方差衡量隨機(jī)變量或一組數(shù)據(jù)時離散程度的度量
2)應(yīng)用
1仪芒、在統(tǒng)計描述中
方差用來計算每一個變量(觀察值)與總體均數(shù)之間的差異
在許多實際問題中,研究方差即偏離程度有著重要意義
為避免出現(xiàn)離均差(X -?
)總和為零耕陷,離均差平方和受樣本含量的影響掂名,統(tǒng)計學(xué)采用平均離均差平方和來描述變量的變異程度
總體方差計算公式:
:總體方差
:變量
:總體均值
:總體例數(shù)
實際工作中,總體均數(shù)難以得到時哟沫,應(yīng)用樣本統(tǒng)計量代替總體參數(shù)饺蔑,經(jīng)校正后,樣本方差計算公式:S2?= ∑(X -
)2/ (n - 1)?
S2:樣本方差
X:變量
:為樣本均值
n:樣本例數(shù)嗜诀。
2猾警、在概率分布中
用來度量隨機(jī)變量和其數(shù)學(xué)期望(即均值)之間的偏離程度孔祸。
在概率分布中鲤脏,設(shè)X是一個離散型隨機(jī)變量卡骂,若E{[X - E(X)]2}存在,則稱E{[X - E(X)]2}為X的方差可缚,記為D(X)穴墅,Var(X)或DX惶室,其中E(X)是X的期望值,X是變量值玄货,公式中的E是期望值expected value的縮寫皇钞,意為“變量值與其期望值之差的平方和”的期望值。
離散型隨機(jī)變量方差計算公式:D(X)=E{[X - E(X)]2} = E(X2) - [E(X)]2
當(dāng)D(X) = E{[X-E(X)]2}稱為變量X的方差松捉,而
稱為標(biāo)準(zhǔn)差(或均方差)夹界。它與X有相同的量綱。標(biāo)準(zhǔn)差是用來衡量一組數(shù)據(jù)的離散程度的統(tǒng)計量?
對于連續(xù)型隨機(jī)變量X隘世,若其定義域為(a, b)可柿,概率密度函數(shù)為f(x),連續(xù)型隨機(jī)變量X方差計算公式:D(X) =
(x - μ)2* f(x)dx以舒,方差刻畫了隨機(jī)變量的取值對于其數(shù)學(xué)期望的離散程度趾痘。(標(biāo)準(zhǔn)差慢哈、方差越大蔓钟,離散程度越大),若X的取值比較集中卵贱,則方差D(X)較小滥沫,若X的取值比較分散,則方差D(X)較大键俱。因此兰绣,D(X)是刻畫X取值分散程度的一個量,它是衡量取值分散程度的一個尺度编振。
三缀辩、標(biāo)準(zhǔn)差
# 參考百科:標(biāo)準(zhǔn)差
1)定義
標(biāo)準(zhǔn)差(Standard Deviation)又常稱均方差,是方差的算術(shù)平方根踪央,反映一個數(shù)據(jù)集的離散程度
2)應(yīng)用
在概率統(tǒng)計中:最常使用作為統(tǒng)計分布程度(statistical dispersion)上的測量臀玄。
標(biāo)準(zhǔn)差定義是總體各單位標(biāo)準(zhǔn)值與其平均數(shù)離差平方的算術(shù)平均數(shù)的平方根。它反映組內(nèi)個體間的離散程度
測量到分布程度的結(jié)果畅蹂,原則上具有兩種性質(zhì):
為非負(fù)數(shù)值健无, 與測量資料具有相同單位
一個總量的標(biāo)準(zhǔn)差或一個隨機(jī)變量的標(biāo)準(zhǔn)差,及一個子集合樣品數(shù)的標(biāo)準(zhǔn)差之間液斜,有所差別累贤。
公式:
假設(shè)有一組數(shù)值X?,X?,X?,......Xn(皆為實數(shù))叠穆,其平均值(算術(shù)平均值)為μ
標(biāo)準(zhǔn)差也被稱為標(biāo)準(zhǔn)偏差,或者實驗標(biāo)準(zhǔn)差臼膏,公式:
3)其它
簡單來說硼被,標(biāo)準(zhǔn)差是一組數(shù)據(jù)平均值分散程度的一種度量。一個較大的標(biāo)準(zhǔn)差渗磅,代表大部分?jǐn)?shù)值和其平均值之間差異較大祷嘶;一個較小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值
四夺溢、均方誤差
1)定義
均方誤差(mean-square error, MSE)是反映估計量與被估計量之間差異程度的一種度量论巍。
設(shè)t是根據(jù)子樣確定的總體參數(shù)θ的一個估計量,(θ-t)2的數(shù)學(xué)期望风响,稱為估計量t的均方誤差嘉汰。它等于σ2+b2,其中σ2與b分別是t的方差與偏倚状勤。
2)名詞介紹
相合估計(或一致估計)是在大樣本下評價估計量的標(biāo)準(zhǔn)鞋怀,在樣本量不是很多時,人們更加傾向于基于小樣本的評價標(biāo)準(zhǔn)持搜,此時密似,對無偏估計使用方差,對有偏估計使用均方誤差葫盼。
一般地残腌,在樣本量一定時,評價一個點估計的好壞標(biāo)準(zhǔn)使用的指標(biāo)總是點估計
與參數(shù)真值
的距離的函數(shù)贫导,最常用的函數(shù)是距離的平方抛猫,由于估計量
具有隨機(jī)性,可以對該函數(shù)求期望孩灯,這就是下式給出的均方誤差:
均方誤差是評價點估計的最一般的標(biāo)準(zhǔn)闺金,自然,我們希望估計的均方誤差越小越好峰档,注意到
上式說明败匹,均方誤差
由點估計的方差
與偏差
的平方兩部分組成。
如果?
是 θ 的無偏估計讥巡,則
掀亩,此時用均方誤差評價點估計與用方差是完全一致的,這也說明了用方差考察無偏估計是合理的尚卫。
當(dāng)
不是 θ 的無偏估計归榕,就要看其均方誤差
,即不僅看方差大小吱涉,還要看其偏差大小刹泄,下面的例子說明在均方誤差的含義下外里,有些有偏估計優(yōu)于無偏估計。
3)一致性最小的均方誤差估計
定義1:
設(shè)有樣本
對待估參數(shù) θ特石,有一個估計類盅蝗,稱
是該類中θ的一致最小均方誤差估計,如果對該類估計中另外任意一個θ的估計
姆蘸,在參數(shù)空間
上都有
使用情況:
一致最小均方誤差估計通常是在一個確定的估計類中進(jìn)行的墩莫,一致最小均方誤差估計一般是不存在的。
既然一致最小均方誤差估計一般是不存在的逞敷,人們通常就對估計提出一些合理性要求狂秦,如無偏性就是一個常見的合理性要求。?
一致最小方差無偏估計前面曾指出推捐,均方誤差
由點估計的方差
與偏差
的平方兩部分組成裂问,當(dāng)
是 θ 的無偏估計時,均方誤差就簡化為方差牛柒,此時一致最小均方誤差估計就是一致最小方差無偏估計堪簿。
定義2 :
設(shè)
是 θ 的無偏估計,如果對于任意一個θ的無偏估計
皮壁,在參數(shù)空間
上都有
則稱
是 θ 的一致最小方差無偏估計椭更,簡記為UMVUE。?
五蛾魄、估計量
1)定義
用來估計總體未知參數(shù)用的統(tǒng)計量虑瀑。
在統(tǒng)計學(xué)中,估計量是基于觀測數(shù)據(jù)計算一個已知量的估計值的法則:于是估計量(estimator)畏腕、被估量(estimand)和估計值(estimate)是有區(qū)別的缴川。
估計值:當(dāng)經(jīng)測定的具體數(shù)值代入估計量時,它就是一個具體的數(shù)值描馅,稱為估計值,英文是estimator而线。
2)舉例
設(shè)(X1,……,Xn)為來自總體X的樣本铭污,(X1,……,Xn)為相應(yīng)的樣本值,θ是總體分布的未知參數(shù)膀篮,θ∈Θ嘹狞。
Θ?表示 θ 的取值范圍,稱 Θ 為參數(shù)空間誓竿。盡管 θ 是未知的磅网,但它的參數(shù)空間 Θ 是事先知道的,為了估計未知參數(shù)θ筷屡,我們構(gòu)造一個統(tǒng)計量 h(X1,……,Xn)涧偷,然后用 h(X1,……,Xn) 的值 h(X1,……,Xn) 來估計θ的真值簸喂,稱h(X1,……,Xn)為θ的估計量。
假設(shè)存在一個固定的待估參數(shù)燎潮。那么"估計量"是樣本空間映射到樣本估計值的一個函數(shù)喻鳄。
的一個估計量記為
。很容易用隨機(jī)變量的代數(shù)來闡述這個理論:因而如果用X來標(biāo)記對應(yīng)觀測數(shù)據(jù)的隨機(jī)變量确封,估計量(本身視為隨機(jī)變量)的符號表示為該隨機(jī)變量的函數(shù)除呵,
。對特定觀測數(shù)據(jù)集(即對于X=x)的估計值為一固定值
爪喘。通常使用簡化標(biāo)記颜曾,用
表示隨機(jī)變量,不過這會造成誤解秉剑。
個人理解:
目的:估計總體數(shù)據(jù)集 X 的分布情況泛啸,即?θ;
方法:從總體數(shù)據(jù)集 X 中抽取一組樣本 h秃症,根據(jù) h 的分布以及θ?的取值范圍Θ?來估計總體數(shù)據(jù)集 X 的分布情況?θ候址。
3)誤差
對于一個給定樣本x,估計量
的"誤差"定義為
其中
是待估參數(shù)种柑。
注意誤差e不僅取決于估計量(估計公式或過程)岗仑,還取決于樣本。
4)均方誤差
估計量
的均方誤差被定義為誤差的平方的期望值聚请,即為:
荠雕。
它用來顯示估計值的集合與被估計單個參數(shù)的平均差異。試想下面的類比:假設(shè)“參數(shù)”是靶子的靶心驶赏,“估計量”是向靶子射箭的過程炸卑,而每一支箭則是“估計值”(樣本)。那么煤傍,高均方誤差就意味著每一支箭離靶心的平均距離較大盖文,低均方誤差則意味著每一支箭離靶心的平均距離較小。箭支可能集聚蚯姆,也可能不五续。比如說,即使所有箭支都射中了同一個點龄恋,同時卻嚴(yán)重偏離了靶子疙驾,均方誤差相對來說依然很大。然而要注意的是郭毕,如果均方誤差相對較小它碎,箭支則更有可能集聚(而不是離散)。
5)一致性
一致估計量序列是一列隨著序號(通常是樣本容量)無限增大時依概率收斂于被估量的估計量序列。換句話說扳肛,增加樣本容量增大了估計量接近總體參數(shù)的概率傻挂。
在數(shù)學(xué)上,一個估計量序列 {tn;n≥ 0} 是參數(shù)θ?的一致估計量當(dāng)且僅當(dāng)對于所有??> 0敞峭,不管多小踊谋,我們都有
;
就如旋讹,一個人不斷地拋硬幣殖蚕,隨著次數(shù)的增多,任何一面出現(xiàn)的概率(機(jī)率)就會趨于0.5沉迹。那么這個0.5就是這個拋硬幣事件中任何一面出現(xiàn)概率的一致估計量睦疫,或者說一致估計值。
六鞭呕、高斯函數(shù)蛤育、正態(tài)分布
1)定義
格式:
a、b與c為實數(shù)常數(shù)葫松,且a> 0瓦糕;
c= 2的高斯函數(shù)是傅立葉變換的特征函數(shù)。這就意味著高斯函數(shù)的傅立葉變換不僅僅是另一個高斯函數(shù)腋么,而且是進(jìn)行傅立葉變換的函數(shù)的標(biāo)量倍咕娄。
2)積分
任意高斯函數(shù)的積分是:
另一種形式是:
其中f?必須是嚴(yán)格積分的積分收斂;
3)正態(tài)分布
參見百科:https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83
公式:
正態(tài)分布(Normal distribution)珊擂,也稱“常態(tài)分布”圣勒,又名高斯分布(Gaussian distribution)
高斯函數(shù)是正態(tài)分布的密度函數(shù),根據(jù)中心極限定理它是復(fù)雜總和的有限概率分布摧扇;
若隨機(jī)變量X服從一個數(shù)學(xué)期望為μ圣贸、方差為σ^2的正態(tài)分布,記為N(μ扛稽,σ^2)吁峻。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度庇绽。當(dāng)μ = 0,σ = 1時的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布锡搜。
定理:
由于一般的正態(tài)總體其圖像不一定關(guān)于y軸對稱,對于任一正態(tài)總體瞧掺,其取值小于x的概率。只要會用它求正態(tài)總體在某個特定區(qū)間的概率即可凡傅。
為了便于描述和應(yīng)用辟狈,常將正態(tài)變量作數(shù)據(jù)轉(zhuǎn)換。將一般正態(tài)分布轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)分布。
若
服從標(biāo)準(zhǔn)正態(tài)分布哼转,通過查標(biāo)準(zhǔn)正態(tài)分布表就可以直接計算出原正態(tài)分布的概率值明未。故該變換被稱為標(biāo)準(zhǔn)化變換。(標(biāo)準(zhǔn)正態(tài)分布表:標(biāo)準(zhǔn)正態(tài)分布表中列出了標(biāo)準(zhǔn)正態(tài)曲線下從-∞到X(當(dāng)前值)范圍內(nèi)的面積比例壹蔓。)
定義:
服從一個位置參數(shù)為
趟妥、尺度參數(shù)為
的概率分布,且其概率密度函數(shù)為
佣蓉,則這個隨機(jī)變量就稱為正態(tài)隨機(jī)變量披摄,正態(tài)隨機(jī)變量服從的分布就稱為正態(tài)分布,記作
勇凭,讀作
服從
疚膊,或
服從正態(tài)分布。
μ維隨機(jī)向量具有類似的概率規(guī)律時虾标,稱此隨機(jī)向量遵從多維正態(tài)分布寓盗。多元正態(tài)分布有很好的性質(zhì),例如璧函,多元正態(tài)分布的邊緣分布仍為正態(tài)分布傀蚌,它經(jīng)任何線性變換得到的隨機(jī)向量仍為多維正態(tài)分布,特別它的線性組合為一元正態(tài)分布蘸吓。
多維正態(tài)分布參見“二維正態(tài)分布”善炫。
標(biāo)準(zhǔn)正態(tài)分布:當(dāng)
時,正態(tài)分布就成為標(biāo)準(zhǔn)正態(tài)分布