統(tǒng)計學(xué)基礎(chǔ)理論

第一章變量和圖形

統(tǒng)計學(xué)：科學(xué)方法收集焊切、整理影晓、匯總、描述和分析數(shù)據(jù)資料暖呕，并在此基礎(chǔ)上進(jìn)行推斷和決策的科學(xué)；

歸納統(tǒng)計學(xué)/統(tǒng)計推斷：通過樣本分析來給總體下結(jié)論

描述性統(tǒng)計學(xué)/演繹統(tǒng)計學(xué)：值描述和分析特定對象而不下結(jié)論或推斷

變量苞氮、常量湾揽、連續(xù)變量、離散變量笼吟、連續(xù)數(shù)據(jù)库物、離散數(shù)據(jù)

自變量、因變量贷帮、函數(shù)戚揭、單值函數(shù)、多值函數(shù)

第二章頻數(shù)分布

數(shù)組陣列：原始數(shù)據(jù)按照數(shù)量大小升序或者降序排列撵枢，最大值與最小值的差為全距民晒；

組距、組限锄禽、組界潜必、組中值、直方圖與頻率多邊形

頻率分布=某一組頻數(shù)/總頻數(shù)

累計頻數(shù)分布/累計頻數(shù)表沃但，累計頻數(shù)多邊形/卵形線

累計頻率分布/百分率累計頻數(shù)=累計頻數(shù)/總頻數(shù)

第三章均值磁滚、中位數(shù)、眾數(shù)及其他表示集中趨勢的度量

一宵晚、中位數(shù)

定義/解釋：按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)垂攘，即在這組數(shù)據(jù)中，有一半的數(shù)據(jù)比他大淤刃，有一半的數(shù)據(jù)比他小

　　#?如果觀察值有偶數(shù)個晒他，通常取最中間的兩個數(shù)值的平均數(shù)作為中位數(shù)。

二钝凶、方差

參考百科：方差

　1）定義

　　　方差（variance)：是在概率論和統(tǒng)計方差衡量隨機(jī)變量或一組數(shù)據(jù)時離散程度的度量

　2）應(yīng)用

　　1仪芒、在統(tǒng)計描述中

方差用來計算每一個變量（觀察值）與總體均數(shù)之間的差異

在許多實際問題中，研究方差即偏離程度有著重要意義

為避免出現(xiàn)離均差（X -?

）總和為零耕陷，離均差平方和受樣本含量的影響掂名，統(tǒng)計學(xué)采用平均離均差平方和來描述變量的變異程度

總體方差計算公式：

：總體方差

：變量

：總體均值

：總體例數(shù)

實際工作中，總體均數(shù)難以得到時哟沫，應(yīng)用樣本統(tǒng)計量代替總體參數(shù)饺蔑，經(jīng)校正后，樣本方差計算公式：S2?= ∑(X -

)2/ (n - 1)?

S2：樣本方差

X：變量

：為樣本均值

n：樣本例數(shù)嗜诀。

　　2猾警、在概率分布中

用來度量隨機(jī)變量和其數(shù)學(xué)期望（即均值）之間的偏離程度孔祸。

在概率分布中鲤脏，設(shè)X是一個離散型隨機(jī)變量卡骂，若E{[X - E(X)]2}存在，則稱E{[X - E(X)]2}為X的方差可缚，記為D(X)穴墅，Var(X)或DX惶室，其中E(X)是X的期望值，X是變量值玄货，公式中的E是期望值expected value的縮寫皇钞，意為“變量值與其期望值之差的平方和”的期望值。

離散型隨機(jī)變量方差計算公式：D(X)=E{[X - E(X)]2} = E(X2) - [E(X)]2

當(dāng)D(X) = E{[X-E(X)]2}稱為變量X的方差松捉，而

稱為標(biāo)準(zhǔn)差（或均方差）夹界。它與X有相同的量綱。標(biāo)準(zhǔn)差是用來衡量一組數(shù)據(jù)的離散程度的統(tǒng)計量?

對于連續(xù)型隨機(jī)變量X隘世，若其定義域為(a, b)可柿，概率密度函數(shù)為f(x)，連續(xù)型隨機(jī)變量X方差計算公式：D(X) =

(x - μ)2* f(x)dx以舒，方差刻畫了隨機(jī)變量的取值對于其數(shù)學(xué)期望的離散程度趾痘。（標(biāo)準(zhǔn)差慢哈、方差越大蔓钟，離散程度越大)，若X的取值比較集中卵贱，則方差D(X)較小滥沫，若X的取值比較分散，則方差D(X)較大键俱。因此兰绣，D(X)是刻畫X取值分散程度的一個量，它是衡量取值分散程度的一個尺度编振。

三缀辩、標(biāo)準(zhǔn)差

# 參考百科：標(biāo)準(zhǔn)差

　1）定義

標(biāo)準(zhǔn)差（Standard Deviation）又常稱均方差，是方差的算術(shù)平方根踪央，反映一個數(shù)據(jù)集的離散程度

　2）應(yīng)用

在概率統(tǒng)計中：最常使用作為統(tǒng)計分布程度（statistical dispersion）上的測量臀玄。

標(biāo)準(zhǔn)差定義是總體各單位標(biāo)準(zhǔn)值與其平均數(shù)離差平方的算術(shù)平均數(shù)的平方根。它反映組內(nèi)個體間的離散程度

測量到分布程度的結(jié)果畅蹂，原則上具有兩種性質(zhì)：

為非負(fù)數(shù)值健无，與測量資料具有相同單位

一個總量的標(biāo)準(zhǔn)差或一個隨機(jī)變量的標(biāo)準(zhǔn)差，及一個子集合樣品數(shù)的標(biāo)準(zhǔn)差之間液斜，有所差別累贤。

公式：

假設(shè)有一組數(shù)值X?,X?,X?,......Xn（皆為實數(shù)）叠穆，其平均值（算術(shù)平均值）為μ

標(biāo)準(zhǔn)差也被稱為標(biāo)準(zhǔn)偏差，或者實驗標(biāo)準(zhǔn)差臼膏，公式：

　3）其它

簡單來說硼被，標(biāo)準(zhǔn)差是一組數(shù)據(jù)平均值分散程度的一種度量。一個較大的標(biāo)準(zhǔn)差渗磅，代表大部分?jǐn)?shù)值和其平均值之間差異較大祷嘶；一個較小的標(biāo)準(zhǔn)差，代表這些數(shù)值較接近平均值

四夺溢、均方誤差

　1）定義

均方誤差（mean-square error, MSE）是反映估計量與被估計量之間差異程度的一種度量论巍。

設(shè)t是根據(jù)子樣確定的總體參數(shù)θ的一個估計量，(θ-t)2的數(shù)學(xué)期望风响，稱為估計量t的均方誤差嘉汰。它等于σ2+b2，其中σ2與b分別是t的方差與偏倚状勤。

　2）名詞介紹

相合估計（或一致估計）是在大樣本下評價估計量的標(biāo)準(zhǔn)鞋怀，在樣本量不是很多時，人們更加傾向于基于小樣本的評價標(biāo)準(zhǔn)持搜，此時密似，對無偏估計使用方差，對有偏估計使用均方誤差葫盼。

一般地残腌，在樣本量一定時，評價一個點估計的好壞標(biāo)準(zhǔn)使用的指標(biāo)總是點估計

與參數(shù)真值

的距離的函數(shù)贫导，最常用的函數(shù)是距離的平方抛猫，由于估計量

具有隨機(jī)性，可以對該函數(shù)求期望孩灯，這就是下式給出的均方誤差：

均方誤差是評價點估計的最一般的標(biāo)準(zhǔn)闺金，自然，我們希望估計的均方誤差越小越好峰档，注意到

上式說明败匹，均方誤差

由點估計的方差

與偏差

的平方兩部分組成。

如果?

是 θ 的無偏估計讥巡，則

掀亩，此時用均方誤差評價點估計與用方差是完全一致的，這也說明了用方差考察無偏估計是合理的尚卫。

當(dāng)

不是 θ 的無偏估計归榕，就要看其均方誤差

，即不僅看方差大小吱涉，還要看其偏差大小刹泄，下面的例子說明在均方誤差的含義下外里，有些有偏估計優(yōu)于無偏估計。

　3）一致性最小的均方誤差估計

定義1：

設(shè)有樣本

對待估參數(shù) θ特石，有一個估計類盅蝗，稱

是該類中θ的一致最小均方誤差估計，如果對該類估計中另外任意一個θ的估計

姆蘸，在參數(shù)空間

上都有

使用情況：

一致最小均方誤差估計通常是在一個確定的估計類中進(jìn)行的墩莫，一致最小均方誤差估計一般是不存在的。

既然一致最小均方誤差估計一般是不存在的逞敷，人們通常就對估計提出一些合理性要求狂秦，如無偏性就是一個常見的合理性要求。?

一致最小方差無偏估計前面曾指出推捐，均方誤差

由點估計的方差

與偏差

的平方兩部分組成裂问，當(dāng)

是 θ 的無偏估計時，均方誤差就簡化為方差牛柒，此時一致最小均方誤差估計就是一致最小方差無偏估計堪簿。

定義2 ：

設(shè)

是 θ 的無偏估計，如果對于任意一個θ的無偏估計

皮壁，在參數(shù)空間

上都有

則稱

是 θ 的一致最小方差無偏估計椭更，簡記為UMVUE。?

五蛾魄、估計量

　1）定義

用來估計總體未知參數(shù)用的統(tǒng)計量虑瀑。

在統(tǒng)計學(xué)中，估計量是基于觀測數(shù)據(jù)計算一個已知量的估計值的法則：于是估計量（estimator）畏腕、被估量（estimand）和估計值（estimate）是有區(qū)別的缴川。

估計值：當(dāng)經(jīng)測定的具體數(shù)值代入估計量時，它就是一個具體的數(shù)值描馅，稱為估計值，英文是estimator而线。

　2）舉例

設(shè)(X1,……,Xn)為來自總體X的樣本铭污，(X1,……,Xn)為相應(yīng)的樣本值，θ是總體分布的未知參數(shù)膀篮，θ∈Θ嘹狞。

Θ?表示 θ 的取值范圍，稱 Θ 為參數(shù)空間誓竿。盡管 θ 是未知的磅网，但它的參數(shù)空間 Θ 是事先知道的，為了估計未知參數(shù)θ筷屡，我們構(gòu)造一個統(tǒng)計量 h(X1,……,Xn)涧偷，然后用 h(X1,……,Xn) 的值 h(X1,……,Xn) 來估計θ的真值簸喂，稱h(X1,……,Xn)為θ的估計量。

假設(shè)存在一個固定的待估參數(shù)燎潮。那么"估計量"是樣本空間映射到樣本估計值的一個函數(shù)喻鳄。

的一個估計量記為

。很容易用隨機(jī)變量的代數(shù)來闡述這個理論：因而如果用X來標(biāo)記對應(yīng)觀測數(shù)據(jù)的隨機(jī)變量确封，估計量（本身視為隨機(jī)變量）的符號表示為該隨機(jī)變量的函數(shù)除呵，

。對特定觀測數(shù)據(jù)集（即對于X=x）的估計值為一固定值

爪喘。通常使用簡化標(biāo)記颜曾，用

表示隨機(jī)變量，不過這會造成誤解秉剑。

個人理解：

目的：估計總體數(shù)據(jù)集 X 的分布情況泛啸，即?θ；

方法：從總體數(shù)據(jù)集 X 中抽取一組樣本 h秃症，根據(jù) h 的分布以及θ?的取值范圍Θ?來估計總體數(shù)據(jù)集 X 的分布情況?θ候址。

　3）誤差

對于一個給定樣本x，估計量

的"誤差"定義為

其中

是待估參數(shù)种柑。

注意誤差e不僅取決于估計量（估計公式或過程）岗仑，還取決于樣本。

　4）均方誤差

估計量

的均方誤差被定義為誤差的平方的期望值聚请，即為：

荠雕。

它用來顯示估計值的集合與被估計單個參數(shù)的平均差異。試想下面的類比：假設(shè)“參數(shù)”是靶子的靶心驶赏，“估計量”是向靶子射箭的過程炸卑，而每一支箭則是“估計值”（樣本）。那么煤傍，高均方誤差就意味著每一支箭離靶心的平均距離較大盖文，低均方誤差則意味著每一支箭離靶心的平均距離較小。箭支可能集聚蚯姆，也可能不五续。比如說，即使所有箭支都射中了同一個點龄恋，同時卻嚴(yán)重偏離了靶子疙驾，均方誤差相對來說依然很大。然而要注意的是郭毕，如果均方誤差相對較小它碎，箭支則更有可能集聚（而不是離散）。

　5）一致性

一致估計量序列是一列隨著序號（通常是樣本容量）無限增大時依概率收斂于被估量的估計量序列。換句話說扳肛，增加樣本容量增大了估計量接近總體參數(shù)的概率傻挂。

在數(shù)學(xué)上，一個估計量序列 {tn;n≥ 0} 是參數(shù)θ?的一致估計量當(dāng)且僅當(dāng)對于所有??> 0敞峭，不管多小踊谋，我們都有

；

就如旋讹，一個人不斷地拋硬幣殖蚕，隨著次數(shù)的增多，任何一面出現(xiàn)的概率（機(jī)率）就會趨于0.5沉迹。那么這個0.5就是這個拋硬幣事件中任何一面出現(xiàn)概率的一致估計量睦疫，或者說一致估計值。

六鞭呕、高斯函數(shù)蛤育、正態(tài)分布

　1）定義

格式：

a、b與c為實數(shù)常數(shù)葫松，且a> 0瓦糕；

c= 2的高斯函數(shù)是傅立葉變換的特征函數(shù)。這就意味著高斯函數(shù)的傅立葉變換不僅僅是另一個高斯函數(shù)腋么，而且是進(jìn)行傅立葉變換的函數(shù)的標(biāo)量倍咕娄。

　2）積分

任意高斯函數(shù)的積分是：

另一種形式是：

其中f?必須是嚴(yán)格積分的積分收斂；

　3）正態(tài)分布

參見百科：https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83

公式：

正態(tài)分布（Normal distribution）珊擂，也稱“常態(tài)分布”圣勒，又名高斯分布（Gaussian distribution）

高斯函數(shù)是正態(tài)分布的密度函數(shù)，根據(jù)中心極限定理它是復(fù)雜總和的有限概率分布摧扇；

若隨機(jī)變量X服從一個數(shù)學(xué)期望為μ圣贸、方差為σ^2的正態(tài)分布，記為N(μ扛稽，σ^2)吁峻。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置，其標(biāo)準(zhǔn)差σ決定了分布的幅度庇绽。當(dāng)μ = 0,σ = 1時的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布锡搜。

定理：

由于一般的正態(tài)總體其圖像不一定關(guān)于y軸對稱，對于任一正態(tài)總體瞧掺，其取值小于x的概率。只要會用它求正態(tài)總體在某個特定區(qū)間的概率即可凡傅。

為了便于描述和應(yīng)用辟狈，常將正態(tài)變量作數(shù)據(jù)轉(zhuǎn)換。將一般正態(tài)分布轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)分布。

若

服從標(biāo)準(zhǔn)正態(tài)分布哼转，通過查標(biāo)準(zhǔn)正態(tài)分布表就可以直接計算出原正態(tài)分布的概率值明未。故該變換被稱為標(biāo)準(zhǔn)化變換。（標(biāo)準(zhǔn)正態(tài)分布表：標(biāo)準(zhǔn)正態(tài)分布表中列出了標(biāo)準(zhǔn)正態(tài)曲線下從-∞到X（當(dāng)前值）范圍內(nèi)的面積比例壹蔓。）

定義：

若隨機(jī)變量

服從一個位置參數(shù)為

趟妥、尺度參數(shù)為

的概率分布，且其概率密度函數(shù)為

佣蓉，則這個隨機(jī)變量就稱為正態(tài)隨機(jī)變量披摄，正態(tài)隨機(jī)變量服從的分布就稱為正態(tài)分布，記作

勇凭，讀作

服從

疚膊，或

服從正態(tài)分布。

μ維隨機(jī)向量具有類似的概率規(guī)律時虾标，稱此隨機(jī)向量遵從多維正態(tài)分布寓盗。多元正態(tài)分布有很好的性質(zhì)，例如璧函，多元正態(tài)分布的邊緣分布仍為正態(tài)分布傀蚌，它經(jīng)任何線性變換得到的隨機(jī)向量仍為多維正態(tài)分布，特別它的線性組合為一元正態(tài)分布蘸吓。

多維正態(tài)分布參見“二維正態(tài)分布”善炫。

標(biāo)準(zhǔn)正態(tài)分布：當(dāng)

時，正態(tài)分布就成為標(biāo)準(zhǔn)正態(tài)分布

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末美澳，一起剝皮案震驚了整個濱河市销部，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌制跟，老刑警劉巖舅桩，帶你破解...
沈念sama閱讀 211,561評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異雨膨，居然都是意外死亡擂涛，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,218評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門聊记，熙熙樓的掌柜王于貴愁眉苦臉地迎上來撒妈，“玉大人，你說我怎么就攤上這事排监≌遥” “怎么了？”我有些...
開封第一講書人閱讀 157,162評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵舆床，是天一觀的道長棋蚌。經(jīng)常有香客問我嫁佳，道長，這世上最難降的妖魔是什么谷暮？我笑而不...
開封第一講書人閱讀 56,470評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任蒿往，我火速辦了婚禮，結(jié)果婚禮上湿弦，老公的妹妹穿的比我還像新娘瓤漏。我一直安慰自己，他們只是感情好颊埃，可當(dāng)我...
茶點故事閱讀 65,550評論 6贊 385
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布蔬充。她就那樣靜靜地躺著，像睡著了一般竟秫。火紅的嫁衣襯著肌膚如雪娃惯。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,806評論 1贊 290
城市分裂傳說
那天肥败，我揣著相機(jī)與錄音趾浅，去河邊找鬼。笑死馒稍，一個胖子當(dāng)著我的面吹牛皿哨，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播纽谒，決...
沈念sama閱讀 38,951評論 3贊 407
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼证膨，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了鼓黔？” 一聲冷哼從身側(cè)響起央勒，我...
開封第一講書人閱讀 37,712評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎澳化，沒想到半個月后崔步，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,166評論 1贊 303
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡缎谷，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,510評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年井濒，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片列林。...
茶點故事閱讀 38,643評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡瑞你，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出希痴，到底是詐尸還是另有隱情者甲，我是刑警寧澤，帶...
沈念sama閱讀 34,306評論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布砌创，位于F島的核電站过牙，受9級特大地震影響甥厦，放射性物質(zhì)發(fā)生泄漏纺铭。R本人自食惡果不足惜寇钉，卻給世界環(huán)境...
茶點故事閱讀 39,930評論 3贊 313
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望舶赔。院中可真熱鬧扫倡，春花似錦、人聲如沸竟纳。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,745評論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽锥累。三九已至缘挑，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間桶略，已是汗流浹背语淘。一陣腳步聲響...
開封第一講書人閱讀 31,983評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留际歼，地道東北人惶翻。一個月前我還...
沈念sama閱讀 46,351評論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像鹅心，于是被迫代替她去往敵國和親吕粗。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,509評論 2贊 348

統(tǒng)計學(xué)基礎(chǔ)理論

第一章 變量和圖形

第二章 頻數(shù)分布

第三章 均值磁滚、中位數(shù)、眾數(shù)及其他表示集中趨勢的度量

推薦閱讀更多精彩內(nèi)容

第一章變量和圖形

第二章頻數(shù)分布

第三章均值磁滚、中位數(shù)、眾數(shù)及其他表示集中趨勢的度量