參考書(shū)目為安德森的《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)》,以下為個(gè)人的學(xué)習(xí)總結(jié)努释,如果有錯(cuò)誤歡迎指正碘梢。有需要本書(shū)pdf的,鏈接在本文末尾伐蒂。(僅限個(gè)人學(xué)習(xí)使用煞躬,請(qǐng)勿牟利)
第十二章 多個(gè)比率的比較、獨(dú)立性及擬合優(yōu)度檢驗(yàn)
前面介紹了一個(gè)或兩個(gè)總體的總體均值饿自、比率和方差的假設(shè)檢驗(yàn)的統(tǒng)計(jì)推斷汰翠。接下來(lái)介紹另外三種假設(shè)檢驗(yàn)的方法龄坪。幫助我們對(duì)總體進(jìn)行統(tǒng)計(jì)推斷。
12.1 三個(gè)或多個(gè)總體比率的相等性的檢驗(yàn)
針對(duì)多個(gè)總體比率
假設(shè):
如果根據(jù)樣本數(shù)據(jù)和檢驗(yàn)計(jì)算結(jié)果表明不能拒絕
則我們認(rèn)為k個(gè)總體比率有差異。
舉例:調(diào)查不同汽車的汽車品牌忠誠(chéng)度(再次購(gòu)買的比率)佛纫。
- 假設(shè):
- 已知:
另外在500人有312人對(duì)自己的品牌有忠誠(chéng)度妓局,312/500=0.624;那么我們可以算出每個(gè)汽車車主還會(huì)再次購(gòu)買該品牌的期望頻數(shù)呈宇,即好爬,從而得到下面的表。
檢驗(yàn)統(tǒng)計(jì)量:
式子中甥啄,為第
行第
列的單元格的觀察頻數(shù)存炮;
代表在假定
為真時(shí)的第
行和第
列的單元格的期望頻數(shù)。
涉及k個(gè)總體比率相等性的檢驗(yàn)中蜈漓,上述檢驗(yàn)統(tǒng)計(jì)量服從自由度為k-1的
分布穆桂,并且要求每個(gè)
都大于等于5。
根據(jù)公式融虽,我們進(jìn)行計(jì)算享完,如下圖所示。得到
由于我們假定的時(shí)有额,所以觀察頻數(shù)
與期望頻數(shù)
應(yīng)該是一致的般又,那么在檢驗(yàn)統(tǒng)計(jì)量
計(jì)算中
應(yīng)該較小,且此時(shí)
不能被拒絕巍佑;另一方面茴迁,如果
較大,則
可能會(huì)被拒絕句狼。所以說(shuō)總體比率相等性的
檢驗(yàn)永遠(yuǎn)是一個(gè)上側(cè)檢驗(yàn)笋熬。
通過(guò)excel的計(jì)算,我們知道當(dāng)腻菇,自由度為2時(shí)的上側(cè)面積即p-值=0.0194<0.05胳螟,所以我們拒絕
認(rèn)為三車的車主品牌忠誠(chéng)度不完全相同。
當(dāng)然也可以用臨界值法:對(duì)于筹吐,自由度為2的檢驗(yàn)統(tǒng)計(jì)量的臨界值
糖耸,如果
則拒絕
總結(jié):對(duì)于個(gè)總體,總體比率相等性的
檢驗(yàn)的一般步驟如下:
多重比較方法:
- 首先丘薛,我們?nèi)∶恳粚?duì)總體的樣本比率之差的絕對(duì)值嘉竟。即
、
和
。
- k個(gè)總體比率的Marascuilo成對(duì)比較方法的臨界值:
其中為顯著水平為
且自由度為k-1的
值舍扰;
和
總體為i和j的樣本比率倦蚪,
和
為樣本容量。
將三個(gè)樣本比率代入得到边苹、
和
- 進(jìn)行比較陵且,任何成對(duì)樣本比率之差的絕對(duì)值
超過(guò)其對(duì)應(yīng)的臨界值
,則在顯著水平0.05之下个束,成對(duì)的差是顯著的慕购,此時(shí)我們得出相應(yīng)的兩個(gè)總體比率不同。
image
從上圖所示茬底,我們只能得到沪悲,明顯大于
。而
的值分別和
以及
都沒(méi)有顯著差異阱表。
總結(jié):
- 在前面介紹的使用標(biāo)準(zhǔn)正態(tài)分布和檢驗(yàn)統(tǒng)計(jì)量z來(lái)比較兩個(gè)總體比率的假設(shè)檢驗(yàn)殿如,本節(jié)使用
檢驗(yàn)也可用于兩總體比率相等的假設(shè)檢驗(yàn)。兩種方法結(jié)果相同捶枢,且
的數(shù)值時(shí)
的數(shù)值的平方握截。區(qū)別在于
檢驗(yàn)只能用于相等性檢驗(yàn),但總體可以來(lái)源于3個(gè)及以上烂叔。
- 在k個(gè)總體中,每個(gè)車主有兩種結(jié)果:“是”固歪、“否”蒜鸡。每個(gè)總體服從二項(xiàng)分布。當(dāng)k個(gè)總體中每一個(gè)有三個(gè)或更多種回答時(shí)牢裳,
方法有拓展應(yīng)用逢防,此時(shí)每一個(gè)總體服從多項(xiàng)分布。
計(jì)算的期望頻數(shù)
以及檢驗(yàn)統(tǒng)計(jì)量
的計(jì)算與上述相同蒲讯,不同的是原假設(shè)為對(duì)于所有總體回答變量的多項(xiàng)分布是相同的忘朝。k個(gè)總體中每一個(gè)都有r種回答,則檢驗(yàn)統(tǒng)計(jì)量
的自由度為
12.2 獨(dú)立性檢驗(yàn)
檢驗(yàn)的一個(gè)重要應(yīng)用是利用樣本數(shù)據(jù)檢驗(yàn)兩個(gè)分類變量的獨(dú)立性判帮,稱作獨(dú)立性檢驗(yàn)(test of independence)局嘁。
舉例:抽取200名飲酒者組成樣本,看他們對(duì)三種類型的啤酒偏好程度晦墙。研究問(wèn)題是:啤酒的偏好是否與飲酒者性別獨(dú)立悦昵。
-
獨(dú)立性檢驗(yàn)的假設(shè):
:啤酒偏好與飲酒者性別獨(dú)立
:啤酒偏好與飲酒者性別不獨(dú)立。數(shù)據(jù)如下圖所示:
image 將性別作為解釋變量晌畅,(因?yàn)橄胩骄啃詣e對(duì)啤酒偏好的影響)但指。
-
三種類型啤酒的樣本比率或百分比如下:
image -
首先計(jì)算
得到下表
image
按照公式計(jì)算:
對(duì)于r行c列的表,的自由度為
,且期望頻數(shù)都大于等于5棋凳。
下面是計(jì)算過(guò)程:
使用臨界值法的話,可以計(jì)算 且自由度為2時(shí)
的臨界值為5.991剩岳,如果
大于5.991則拒絕
對(duì)于不同性別對(duì)啤酒的偏愛(ài)如圖所示:
總結(jié):
12.3 擬合優(yōu)度檢驗(yàn)
本節(jié)贪婉,我們使用來(lái)確定被抽樣的總體是否符合某個(gè)特殊的概率分布。首先考慮總體服從一個(gè)歷史的多項(xiàng)概率分布情形卢肃,并使用擬合優(yōu)度檢驗(yàn)來(lái)確定樣本數(shù)據(jù)的總體分布在與歷史的分布相比較中疲迂,是否存在改變。然后考慮假設(shè)總體服從正態(tài)概率分布的情形莫湘,我們利用分布擬合檢驗(yàn)來(lái)確定樣本數(shù)據(jù)是否顯示與正態(tài)概率分布的假設(shè)是適當(dāng)還是不適當(dāng)尤蒿。這兩個(gè)檢驗(yàn)都稱作擬合優(yōu)度檢驗(yàn)。
12.3.1 多項(xiàng)概率分布
多項(xiàng)概率分布幅垮,總體中每個(gè)個(gè)體都被分到三個(gè)或多個(gè)類別中的一個(gè)腰池。
舉例:市場(chǎng)調(diào)研公司調(diào)查三個(gè)公司的市場(chǎng)份額,在過(guò)去一年中份額為:忙芒、
和
示弓;C公司有了新產(chǎn)品,想知道新產(chǎn)品上線是否對(duì)市場(chǎng)份額產(chǎn)生影響呵萨。
假設(shè)c公司新產(chǎn)品上市后的市場(chǎng)占有率::
,
,
:總體比率不是
,
,
現(xiàn)取樣本n=200得到觀察頻數(shù)如圖所示:
再計(jì)算期望頻數(shù):
計(jì)算擬合優(yōu)度的檢驗(yàn)統(tǒng)計(jì)量:
注意:當(dāng)所有類別的期望頻數(shù)都大于等于5時(shí)潮峦,檢驗(yàn)統(tǒng)計(jì)量服從自由度為
我們令顯著水平,經(jīng)過(guò)下面的計(jì)算過(guò)程得到
再利用excel計(jì)算
或者用臨界值法忱嘹,計(jì)算自由度為2且上側(cè)面積為0.05的
兩種方法的結(jié)論都為拒絕
兩個(gè)市場(chǎng)份額對(duì)比如下:
看到C公司的新品對(duì)A公司的市場(chǎng)占有率影響更大拘悦。
總結(jié):對(duì)假設(shè)的多項(xiàng)總體分布進(jìn)行擬合優(yōu)度檢驗(yàn)的步驟:
12.3.2 正態(tài)分布
舉例:公司對(duì)員工進(jìn)行能力測(cè)驗(yàn)齿兔,如果服從正態(tài)分布,就好判斷誰(shuí)是后20%的人础米。
- 現(xiàn)取樣本容量為
- 點(diǎn)估計(jì)值:
- 假設(shè):
:測(cè)驗(yàn)分?jǐn)?shù)總體服從均值為68.42和標(biāo)準(zhǔn)差為10.41的正態(tài)分布
:測(cè)驗(yàn)分?jǐn)?shù)總體不服從均值為68.42和標(biāo)準(zhǔn)差為10.41的正態(tài)分布
-
將正態(tài)分布劃分10個(gè)等概率區(qū)間分苇,計(jì)算每個(gè)區(qū)間的邊界z值(需要滿足每個(gè)區(qū)間的期望頻數(shù)大于等于5),這樣做是因?yàn)檎龖B(tài)分布是連續(xù)型的椭盏,我們需要用區(qū)間來(lái)定義類別组砚。
image -
計(jì)算出每個(gè)區(qū)間的邊界的z值和對(duì)應(yīng)的測(cè)驗(yàn)分?jǐn)?shù)
image - 統(tǒng)計(jì)每個(gè)區(qū)間的觀察頻數(shù)(
)和期望頻數(shù)(
)
image - 根據(jù)觀察頻數(shù)(
)和期望頻數(shù)(
)計(jì)算
,其中自由度為
這里的p指是有樣本估計(jì)的分布參數(shù)的個(gè)數(shù)(這里指的樣本均值和樣本標(biāo)準(zhǔn)差掏颊,使用的樣本估計(jì)值)糟红。
image
假設(shè)顯著水平為0.1艾帐,通過(guò)計(jì)算自由度為7,的上側(cè)面積即p-值為0.4084>0.1盆偿。因此不能拒絕
總結(jié):正態(tài)分布的擬合優(yōu)度檢驗(yàn)步驟如下
鏈接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取碼: 333c 復(fù)制這段內(nèi)容后打開(kāi)百度網(wǎng)盤手機(jī)App柒爸,操作更方便哦