什么是統(tǒng)計(jì)推斷
對(duì)于要做統(tǒng)計(jì)推斷的人來(lái)講绿满,這個(gè)問(wèn)題似乎顯得多余内地,他們往往關(guān)心怎樣做統(tǒng)計(jì)推斷。這也許可以窺得發(fā)展中國(guó)家在經(jīng)濟(jì)增長(zhǎng)中的一個(gè)弊端:知其然碰缔,不知其所以然账劲。因?yàn)閯e人已經(jīng)做出來(lái)了嘛,我管那么多干嘛手负,先做出來(lái)再講涤垫!然而,核心科技我們還是要掌握的竟终。
我們經(jīng)常講概率統(tǒng)計(jì)蝠猬,概率統(tǒng)計(jì),這并不是一個(gè)詞而是一個(gè)有著繼承關(guān)系的短語(yǔ)统捶∮苈可以說(shuō)一個(gè)是理論基礎(chǔ)一個(gè)是應(yīng)用科學(xué)柄粹,當(dāng)然這里我們主要關(guān)注的是這個(gè)應(yīng)用科學(xué):統(tǒng)計(jì)學(xué)。
概率論是推理性的匆绣,由概率分布推斷樣本性質(zhì)驻右,如大數(shù)定律、中心極限定理崎淳。統(tǒng)計(jì)是歸納性的堪夭,由樣本信息反推概率分布,如概率分布參數(shù)的點(diǎn)估計(jì)拣凹、區(qū)間估計(jì)森爽,以及線性回歸。一張圖很好地區(qū)別了概率與統(tǒng)計(jì):
在數(shù)據(jù)分析中使用了兩種主要的統(tǒng)計(jì)方法:描述性統(tǒng)計(jì)嚣镜,使用諸如均值或標(biāo)準(zhǔn)偏差等指標(biāo)對(duì)樣本中的數(shù)據(jù)進(jìn)行匯總爬迟,以及推論統(tǒng)計(jì),從隨機(jī)變化的數(shù)據(jù)中得出結(jié)論(例如菊匿,觀察誤差付呕,抽樣變異)。其中描述性統(tǒng)計(jì)一般用來(lái)做探索性數(shù)據(jù)分析跌捆,所謂的推論統(tǒng)計(jì)徽职,就是今天我們主要講的統(tǒng)計(jì)推斷,其意思就是用統(tǒng)計(jì)學(xué)的方法來(lái)推斷疹蛉。統(tǒng)計(jì)推斷(區(qū)別于貝葉斯推斷活箕,這里主要基于頻率推斷)主要可以分為兩大類:一類是參數(shù)估計(jì)問(wèn)題;另一類是假設(shè)檢驗(yàn)問(wèn)題可款。其中假設(shè)檢驗(yàn)又可分為參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn)育韩。
至于怎么推斷的:
在講述統(tǒng)計(jì)的時(shí)候離不開(kāi)概率,而在講述這兩者的時(shí)候闺鲸,就離不開(kāi)幾個(gè)基本的概念:
- 總體(population):包含所研究的全部個(gè)體(數(shù)據(jù))的集合筋讨。
- 樣本(sample):從總體中抽取的一部分元素的集合。
- 參數(shù)(parameter):用來(lái)描述總體特征的概括性數(shù)字度量摸恍。
- 統(tǒng)計(jì)量(statistic):用來(lái)描述樣本的概括性數(shù)字度量悉罕。
- 置信區(qū)間(Confidence interval)以統(tǒng)計(jì)量的置信上限和置信下限為上下界構(gòu)成的區(qū)間
在做統(tǒng)計(jì)的時(shí)候,我們手里有的就是樣本信息立镶,在這里要注意樣本的兩重性: 樣本既可看成具體的數(shù), 又可以看成隨機(jī)變量 (或隨機(jī)向量). 在完成抽樣后壁袄,它是具體的數(shù);在實(shí)施抽樣前媚媒,它被看成隨機(jī)變量. 因?yàn)樵趯?shí)施具體抽樣之前無(wú)法預(yù)料抽樣的結(jié)果, 只能預(yù)料它可能取值的范圍, 故可把它看成一個(gè)隨機(jī)變量嗜逻,因此才有概率分布可言。
對(duì)理論工作者, 更重視樣本是隨機(jī)變量這一點(diǎn)缭召,而對(duì)應(yīng)用工作者雖則將樣本看成具體的數(shù)字栈顷, 但仍不可忽視樣本是隨機(jī)變量 (或隨機(jī)向量) 這一背景逆日。否則,樣本就是一堆雜亂無(wú)章毫無(wú)規(guī)律可言的數(shù)字萄凤,無(wú)法進(jìn)行任何統(tǒng)計(jì)處理室抽。 樣本既然是隨機(jī)變量 (或隨機(jī)向量),就有分布而言靡努,就可以應(yīng)用概率論的知識(shí)坪圾, 這樣才存在統(tǒng)計(jì)推斷問(wèn)題。
統(tǒng)計(jì)學(xué)的目的是試圖找到可能產(chǎn)生我們所觀測(cè)到的數(shù)據(jù)背后的概率分布惑朦,而統(tǒng)計(jì)推斷是建立在這個(gè)分布之上的神年。尋找一個(gè)模型一般有兩步:對(duì)一個(gè)模型(分布)的初步猜想以及對(duì)未知模型參數(shù)的估計(jì)⌒朽停可見(jiàn)統(tǒng)計(jì)學(xué)的三大要素:模型、策略垛耳、算法栅屏。
為什么要做統(tǒng)計(jì)推斷
為了那些未被觀察到的樣本總體,為了抉擇堂鲜。
怎樣做統(tǒng)計(jì)推斷
獲得有效數(shù)據(jù)后, 統(tǒng)計(jì)推斷問(wèn)題可以按照如下的步驟進(jìn)行:
- 確定用于統(tǒng)計(jì)推斷的合適統(tǒng)計(jì)量;
- 尋求統(tǒng)計(jì)量的精確分布; 在統(tǒng)計(jì)量的精確分布難以求出的情形,
可考慮利用中心極限定理或其它極限定理找出統(tǒng)計(jì)量的極限分
布. - 基于該統(tǒng)計(jì)量的精確分布或極限分布, 求出統(tǒng)計(jì)推斷問(wèn)題的精
確解或近似解. - 根據(jù)統(tǒng)計(jì)推斷結(jié)果對(duì)問(wèn)題作出解釋.
假設(shè)檢驗(yàn)的一般步驟:
- 將實(shí)際問(wèn)題提煉為統(tǒng)計(jì)問(wèn)題
- 建立假設(shè)
- 確定顯著性水平α
- 驗(yàn)證前提條件
- 確定檢驗(yàn)統(tǒng)計(jì)量
- 確定拒絕域
- 根據(jù)樣本計(jì)算檢驗(yàn)統(tǒng)計(jì)量的值并進(jìn)行判斷
求最大似然函數(shù)估計(jì)值的一般步驟
(1)寫出似然函數(shù)栈雳;
(2)對(duì)似然函數(shù)取對(duì)數(shù),并整理缔莲;
(3)求導(dǎo)數(shù)哥纫,令導(dǎo)數(shù)為0,得到似然方程痴奏;
(4)解似然方程蛀骇,得到的參數(shù)即為所求
參考:
統(tǒng)計(jì)推斷概述
概率論與統(tǒng)計(jì)學(xué)的關(guān)系是什么?
“魯棒性”的出現(xiàn)與譯者的偷懶
第五章: 數(shù)理統(tǒng)計(jì)的基本概念與抽樣分布
「統(tǒng)計(jì)學(xué)」「統(tǒng)計(jì)推斷」「統(tǒng)計(jì)學(xué)習(xí)」有什么區(qū)別读拆?
統(tǒng)計(jì)學(xué)的現(xiàn)實(shí)意義是什么?
統(tǒng)計(jì)學(xué)(三):簡(jiǎn)單統(tǒng)計(jì)推斷
假設(shè)檢驗(yàn)之三:假設(shè)檢驗(yàn)的基本步驟
用簡(jiǎn)單方法學(xué)會(huì)----參數(shù)估計(jì)