本文來源于網(wǎng)絡(luò),我整理了一下臭猜,這篇文章很值得學(xué)習(xí)躺酒!
在高中數(shù)學(xué)課綱之機(jī)率統(tǒng)計(jì)新教材中, 其課程設(shè)計(jì)和教材編寫不但忽視學(xué)生的認(rèn)知, 甚至在教科書上仍然存在一些錯(cuò)誤的概念。 例如, 在介紹二項(xiàng)分配前對(duì)超幾何分配只字不提, 導(dǎo)致優(yōu)秀學(xué)生把簡(jiǎn)單的超幾何分配問題利用二項(xiàng)分配來處理, 教師在課堂教學(xué)時(shí)如何改進(jìn)這項(xiàng)缺失? 其次, 在提到中央極限定理的時(shí)候, 每本教科書都指出它是非常重要的定理, 但卻又認(rèn)為超出高中范圍不宜多作說明, 難道就沒有通俗簡(jiǎn)單的方式讓學(xué)生理解嗎? 至于錯(cuò)誤的觀念部分, 有些教科書將信心水準(zhǔn)定義為母體百分比 p 會(huì)落在信賴區(qū)間的機(jī)率蔑歌。這種錯(cuò)誤之統(tǒng)計(jì)概念竟然會(huì)出現(xiàn)在經(jīng)過審核的教科書上, 也難怪在學(xué)測(cè)中一道有關(guān)信心水準(zhǔn)的試題,不但學(xué)生看了以后感到一頭霧水, 甚至連老師都不知道要如何選擇正確答案羹应。雖然到目前為止數(shù)學(xué)教育研究還沒有建立一套標(biāo)準(zhǔn), 但經(jīng)過各方討論初步有一點(diǎn)已達(dá)成共識(shí), 那就是: 數(shù)學(xué)教育研究必須走進(jìn)課堂解決教與學(xué)的實(shí)際問題。本文將透過臺(tái)北市一所高中在課堂中進(jìn)行實(shí)際教學(xué), 針對(duì)以上的缺失與錯(cuò)誤盡量用通俗易懂的方式提出解決之道, 以提供給有興趣的學(xué)生與教師作為參考與改進(jìn)的依據(jù), 以嘉惠于廣大青年學(xué)子為幸丐膝。
筆者翻遍高中教科書的機(jī)率統(tǒng)計(jì)內(nèi)容, 發(fā)現(xiàn)每一本都只提到二項(xiàng)分配, 而對(duì)于更簡(jiǎn)單的超幾何分配卻只字不提量愧。 或許有學(xué)者會(huì)認(rèn)為在實(shí)務(wù)上所面臨超幾何分配可被二項(xiàng)分配作極佳的逼近, 但站在基礎(chǔ)數(shù)學(xué)教育的觀點(diǎn)是不能這樣處理的, 就像常態(tài)分配可以很好的近似于二項(xiàng)分配, 難道我們也不需要學(xué)習(xí)二項(xiàng)分配了嗎? 為了暸解新教材的這種內(nèi)容安排對(duì)學(xué)生有什么影向, 筆者曾經(jīng)對(duì)學(xué)過高三機(jī)率統(tǒng)計(jì)的自然組學(xué)生提出下列問題:
年終為了替孤兒院的孩子募集壓歲錢, 百貨公司印制了100張彩券義賣, 已知彩券中50% 是有獎(jiǎng)品的。今某人購買了3張彩券, 問恰有2張中獎(jiǎng)之機(jī)率?==?
在全班48人的答案中, 有39人之答案為, 有6人答案為?
有2人計(jì)算出其他答案, 有1人空白未予以作答帅矗。 本題從調(diào)查資料結(jié)果顯示, 竟然有高達(dá) 81% 學(xué)生直觀的將之視為二項(xiàng)分配問題, 研究中為了進(jìn)一步追蹤比較不同程度的學(xué)生反應(yīng), 又再度對(duì)已學(xué)過高三機(jī)率統(tǒng)計(jì)的社會(huì)組學(xué)生, 在一份問卷中同時(shí)提出下列兩個(gè)問題:
1.????年終為了替孤兒院的孩子募集壓歲錢, 百貨公司印制了一批彩券義賣。己知彩券中50%是有獎(jiǎng)品的煞烫。今某人購買了3張彩券, 問恰有2張中獎(jiǎng)之機(jī)率?==?
2.????年終為了替孤兒院的孩子募集壓歲錢, 百貨公司印制了100張彩券義賣, 已知彩券中 50% 是有獎(jiǎng)品的浑此。今某人購買了3張彩券, 問恰有2張中獎(jiǎng)之 機(jī)率 =?
班上32人答案中, 第一題有31人答案為,
?有1人之答案為
第二題有19人的答案為, 有12人的答案為
, 有1人空白未予以作答。從這兩次的問卷結(jié)果可以看出, 把兩個(gè)不同問題同時(shí)并列提出讓學(xué)生作答, 對(duì)于一般平均數(shù)學(xué)程度較差的社會(huì)組, 有大約 38% 學(xué)生意識(shí)到兩個(gè)問題的差異性, 轉(zhuǎn)而更仔細(xì)的去思考問題的意義, 因而做出了較高比率的正確答案, 使得藉由直觀所產(chǎn)生的錯(cuò)誤降為 59%滞详。 由此可以證實(shí)教學(xué)過程中之問題經(jīng)由適當(dāng)?shù)脑O(shè)計(jì), 確實(shí)可以降低學(xué)生在學(xué)習(xí)機(jī)率概念的一些直觀錯(cuò)誤凛俱。
上述所提兩個(gè)問題其實(shí)就是二項(xiàng)分配 (Binomial distribution) 與超幾何分配 (Hypergeometic distribution) 的概念, 從問卷結(jié)果中顯示它們是學(xué)生極易產(chǎn)生混淆的兩個(gè)觀念。 為了厘清這兩種分配所呈現(xiàn)問題的差異, 教學(xué)時(shí)筆者采取了鷹架教學(xué) (Scaffolding instruction) 的方法, 讓學(xué)生透過師生對(duì)話討論出正確的想法料饥。 課堂上提出下列問題與學(xué)生作對(duì)話式討論:
百貨公司年終印制彩券義賣, 已知彩券中有一半是有獎(jiǎng)品的, 請(qǐng)問購買3張有2張中獎(jiǎng)之機(jī)率?==?
學(xué)生A: 買3張有2張中獎(jiǎng)之機(jī)率蒲犬。
學(xué)生B: 我認(rèn)為不能確定其機(jī)率, 因?yàn)槲覀兏静恢拦居×藥讖埐嗜?
學(xué)生C: 憑直覺我認(rèn)為不管印幾張都沒關(guān)系, 每種情況中獎(jiǎng)機(jī)率應(yīng)該都是 。
學(xué)生D: 若印4張彩券時(shí), 買3張恰中2張之機(jī)率 , 若印6張彩券時(shí), 買3張恰中2張之機(jī)率
, 所以我贊成B同學(xué)的想法岸啡。
筆者: 既然我們不知道彩券印幾張, 那同學(xué)不妨假設(shè)印了? 張, 再計(jì)算取3張恰中2張的機(jī)率看看嘛!
學(xué)生D: 照老師的講法從? 張中取 3 張恰中 2 張之機(jī)率
, 會(huì)隨著?
不同而得到不同答案原叮。
筆者: 同學(xué)想一想當(dāng)?nn?趨近于無限大時(shí), 你們有沒有發(fā)現(xiàn)? 的值會(huì)趨近于多少呢?
學(xué)生A: 好奇怪喔!, 答案竟然跟我利用
一樣耶!
至此, 學(xué)生已經(jīng)開始慢慢體會(huì)出本題已不是單純的二項(xiàng)分配問題巡蘸。 由于考慮學(xué)生相關(guān)先備知識(shí) (Preknowledge)之不足, 在證明超幾何分配與二項(xiàng)分配關(guān)系前, 筆者先提出下面基本問題讓學(xué)生作為比較其差異性的鷹架:
袋中有紅球6個(gè)和白球3個(gè), 今由袋中每次任取一球, 請(qǐng)問 (1) 在取后不放回的情況下, 連取 5 次得 3 紅球之機(jī)率?==? (2)在取后又放回的情況下, 連取 5 次得 3 紅球之機(jī)率?==?
這時(shí)有學(xué)生求出情形(1)的機(jī)率奋隶,筆者告訴學(xué)生取后不放回,使得每次取到紅球或白球之機(jī)率不恒相同, 這種機(jī)率模型稱為超幾何分配 (Hypergeometic distribution), 超幾何分配之每次試驗(yàn)并非獨(dú)立悦荒。也有學(xué)生求出情形(2)的機(jī)率
?, 筆者此時(shí)特別強(qiáng)調(diào)取后再放回可視為袋中有無限多個(gè)球, 使得每次取到紅球之機(jī)率恒
為? 而取到白球之機(jī)率恒為
, 這種機(jī)率模型為二項(xiàng)分配 (Binomial distribution), 二項(xiàng)分配之每次試驗(yàn)都是獨(dú)立的唯欣。
經(jīng)過上面一連串的討論與說明之后, 才正式提出兩種機(jī)率分配的定義, 并證明超幾何分配之極限是二項(xiàng)分配的事實(shí)(丁村成, 1997)。
1. 若?N件產(chǎn)品中有 M?件不良品, 在取后不放回的情形下, 則取?
?件恰有
件不良品之機(jī)率
, 此為超幾何分配 (Hypergeometic distribution)搬味。
2.若?N 件產(chǎn)品中有 M?件不良品, 在取后又放回的情形下, 則取
件恰有?
件不良品之機(jī)率
境氢,此為二項(xiàng)分配 (Binomial distribution)蟀拷。
底下進(jìn)一步向?qū)W生證明 : 當(dāng)? 時(shí)
當(dāng) ,?
固定時(shí)因?yàn)?/p>
而且
因此得到當(dāng)時(shí)
最后, 筆者舉了一道生活中的應(yīng)用問題, 讓學(xué)生瞭解上述結(jié)論在實(shí)際上的應(yīng)用: 工廠之 1000個(gè)產(chǎn)品中的不良品比率為0.1, 從其中任意抽取 3 個(gè)產(chǎn)品出來,請(qǐng)問恰有一個(gè)不良品之機(jī)率?==?
由超幾何分配得其機(jī)率, 但產(chǎn)品的樣本數(shù)量頗大而不易
計(jì)算, 若用二項(xiàng)分配近似于超幾何分配, 可得其機(jī)率萍聊。因此, 可以看出在?NN?很大的情況下, 利用二項(xiàng)分配算出的機(jī)率與超幾何分配非常接近匹厘。
二. 二項(xiàng)分配近似于常態(tài)分配之教學(xué)
自然界有許多事物的分布情形都有一個(gè)特征, 就是數(shù)值資料大多集中于其平均數(shù)附近, 而位在兩個(gè)極端的資料數(shù)量并不多, 且它們都會(huì)均勻分布在平均數(shù)的左右兩邊。 例如: 某一地區(qū)居民的總收入, 某一學(xué)校學(xué)生之?dāng)?shù)學(xué)成績(jī)? 等等, 其分布曲線都是呈現(xiàn)單一高峰的左右對(duì)稱曲線, 這種曲線稱為常態(tài)曲線 (Normal curve)脐区。常態(tài)曲線有一個(gè)最高點(diǎn), 此點(diǎn)的橫座標(biāo)就是資料的平均數(shù)
, 曲線的左右兩端會(huì)對(duì)稱于
, 而資料的離散程度可以用標(biāo)準(zhǔn)差
描述愈诚。一般只要我們知道了平均數(shù)與標(biāo)準(zhǔn)差, 整個(gè)資料的常態(tài)曲線就完全被確定了, 其中的平均數(shù)決定了曲線的中心, 而標(biāo)準(zhǔn)差確定了曲線的形狀。在統(tǒng)計(jì)上只要樣本資料符合常態(tài)曲線, 這些樣本分布在范圍
牛隅,
炕柔,
之比率大約為 68.3%、 95.4%媒佣、 99.7%, 我們稱之為常態(tài)分配的經(jīng)驗(yàn)法則 (Empirical rule), 亦即約有 68.3% 的資料會(huì)落在距平均數(shù)一個(gè)標(biāo)準(zhǔn)差內(nèi); 約有 95.4% 的資料會(huì)落在距離平均數(shù)兩個(gè)標(biāo)準(zhǔn)差內(nèi); 約有99.7% 的資料會(huì)落在距平均數(shù)三個(gè)標(biāo)準(zhǔn)差內(nèi), 如下圖匕累。
在 1733 年棣美弗 (De Moivre) 首先由二項(xiàng)分配 (Bionomial distribution) 的逼近推出了常態(tài)分配 (Normal distribution) 之表達(dá)式?(王幼軍, 2007)。
但他當(dāng)時(shí)二項(xiàng)逼近的工作并未引起人們的重視, 使得常態(tài)分配也僅停留于數(shù)學(xué)表達(dá)的層面, 在實(shí)際應(yīng)用中也沒有找到適合存活的土壤默伍。陳希孺認(rèn)為,?棣美弗本人并不是一位統(tǒng)計(jì)學(xué)家, 他并未從統(tǒng)計(jì)學(xué)的觀點(diǎn)去考慮這項(xiàng)逼近工作的意義, 其出發(fā)點(diǎn)僅把?pp?作為已知數(shù)去研究如何用二項(xiàng)分配逼近常態(tài)分配, 而不是將?pp?看作未知數(shù)并通過觀察結(jié)果對(duì)它進(jìn)行推論 (陳希孺, 2005)欢嘿。 因此, 在?棣美弗時(shí)代要使常態(tài)分配成為一種機(jī)率模型的時(shí)機(jī)尚不成熟, 但他對(duì)二項(xiàng)分配與常態(tài)分配的研究成果讓中央極限定理之發(fā)展有著承先啟后的作用。 正是在此基礎(chǔ)上拉普拉斯?(Laplace)于1780年對(duì)棣美弗的結(jié)果進(jìn)行推廣, 并建立了棣美弗??拉普拉斯極限定理 (De Moivre-Laplace Limit Theorem)(Hald, 1998)也糊。 進(jìn)入十八世紀(jì)數(shù)學(xué)出現(xiàn)一個(gè)很重要的特征, 那就是數(shù)學(xué)研究的目標(biāo)在于處理人類碰到之實(shí)際問題, 生活中無論對(duì)自然現(xiàn)象或社會(huì)現(xiàn)象進(jìn)行觀測(cè), 總會(huì)產(chǎn)生誤差這一點(diǎn)在很早以前人們就注意到了, 但是對(duì)于其觀測(cè)值所呈現(xiàn)的隨機(jī)性人們卻認(rèn)識(shí)模糊炼蹦。 雖然歷史上有很多天文學(xué)家和數(shù)學(xué)家曾對(duì)誤差理論作過研究, 但都沒有從棣美弗的著作中得到任何有關(guān)常態(tài)分配的啟發(fā)。 直到1809年高斯(Gauss)在研究測(cè)量誤差之機(jī)率分配時(shí), 才讓棣美弗所發(fā)表的常態(tài)分配表達(dá)式得到了機(jī)率分配的身份, 又因高斯對(duì)常態(tài)分配所作的研究對(duì)后世的影向極大, 使得后人對(duì)于常態(tài)分配又有高斯分配的稱呼 (Hald, 1998)狸剃。?德國(guó)10馬克的紙鈔上曾印有高斯肖像與常態(tài)分配的圖案, 這表示數(shù)學(xué)王子高斯一生中在科學(xué)上, 對(duì)于全人類最大的貢獻(xiàn)就是常態(tài)分配掐隐。
在二項(xiàng)分配近似于常態(tài)分配的高中教材中, 有教科書是利用投均勻硬幣20次中會(huì)出現(xiàn)幾次正面, 然后讓全班每位同學(xué)投一硬幣20次, 可能有人會(huì)擲出 8次正面也有人可能擲出12次正面, 如果將每人所擲出的正面次數(shù)記錄下來, 那么這些次數(shù)之平均數(shù)就相當(dāng)接近10次, 最后就直接得出結(jié)論: 機(jī)率里的期望值就是統(tǒng)計(jì)試驗(yàn)中大量數(shù)據(jù)的平均值。也有教科書先利用EXCEL計(jì)算二項(xiàng)分配再寫一些連老師都看不下去的計(jì)算式子, 然后利用二項(xiàng)分配的期望值與標(biāo)準(zhǔn)差求比率? 的 95% 信賴區(qū)間, 我真不知道編者有沒有考慮到教與學(xué)之問題钞馁。 至于在教導(dǎo)高中學(xué)生的時(shí)候要如何來表達(dá)這個(gè)概念呢? 以下是個(gè)人在課堂中之教學(xué)片斷, 首先介紹二項(xiàng)分配的期望值與標(biāo)準(zhǔn)差虑省。
對(duì)于每次只有成功與失敗兩種結(jié)果的試驗(yàn)中, 若繼續(xù)重復(fù)作 次試驗(yàn)且每次試驗(yàn)是獨(dú)立的, 則在?
次中恰有
次成功的機(jī)率為
, 這種機(jī)率分配我們稱之為具有參數(shù)?
的二項(xiàng)分配。在具有參數(shù)
的二項(xiàng)分配中若令?
表示其成功次數(shù), 則有下列結(jié)論:
1.? X?的期望值 ,
2.? X?的標(biāo)準(zhǔn)差僧凰。
證明如下:
因此我們得到
關(guān)于常態(tài)分配是二項(xiàng)分配的近似, 為了讓學(xué)生很快的瞭解這個(gè)重要的概念, 筆者在上課中簡(jiǎn)單提出了一個(gè) 與?
的例子說明如下:
一. 投擲一公正硬幣 4 次, 令?X表示在 4 次試驗(yàn)出現(xiàn)的正面次數(shù), 求P(X=k)=?
并作其二項(xiàng)分配機(jī)率圖形如右:
由上面例題我們可以告訴學(xué)生, 當(dāng)具有參數(shù) (n,p)?之二項(xiàng)分配中的 n?足夠大時(shí)?(n≥30)(n≥30), 它會(huì)近似于平均數(shù) , 標(biāo)準(zhǔn)差
之常態(tài)分配, 課堂上只要對(duì)?
逐漸增大加以說明或配合計(jì)算機(jī)模擬實(shí)驗(yàn), 根據(jù)我的經(jīng)驗(yàn)學(xué)生很容易接受這個(gè)事實(shí)探颈。 此一觀念是機(jī)率中計(jì)算繁瑣二項(xiàng)機(jī)率的重要依據(jù), 但由于其機(jī)率牽涉到近似的概念, 所以在評(píng)量學(xué)生問題的時(shí)候, 最好采選擇型式并配合近似的觀念來命題。例如: 投擲一枚不公正銅板72次, 其出現(xiàn)正面的機(jī)率為
, 則此硬幣出現(xiàn)正面次數(shù)介于 16 次與 32 次之間的機(jī)率最接近下列何者? (A) 0.64 (B) 0.68 (C) 0.80 (D) 0.95 (E) 0.99
解:?令??表示出現(xiàn)正面之次數(shù), 則出現(xiàn)正面次數(shù)介于 16~~32 次之機(jī)率為
這是一個(gè)非常繁瑣的式子, 我們必須另謀其他方法求機(jī)率值训措。但當(dāng)試驗(yàn)次數(shù)?n 足夠大時(shí)二項(xiàng)分配會(huì)近似于常態(tài)分配, 本題出現(xiàn)正面的次數(shù)?X近似于 ,
之常態(tài)分配, 因此可以得到其機(jī)率
有關(guān)二項(xiàng)分配近似于常態(tài)分配就是歷史上的棣美弗??拉普拉斯極限定理, 它告訴我們當(dāng)二項(xiàng)分配的參數(shù)? 足夠大時(shí), 可利用常態(tài)分配來求其近似值伪节。此定理首先由棣美弗在1733年證明出
的情形, 后來才由拉普拉斯將其結(jié)果推廣到一般的
, 其中
。 此定理敘述如下(丁村成, 1997):
De Moivre-Laplace Limit Theorem設(shè)
表示進(jìn)行 n?次獨(dú)立試驗(yàn)的成功次數(shù), 且每次試驗(yàn)成功的機(jī)率為
, 則當(dāng)
可得到
? ?
中央極限定理(Central Limit Theorem)是連接機(jī)率與統(tǒng)計(jì)之重要橋梁, 它指出: 從具有平均數(shù)?μ 與標(biāo)準(zhǔn)差 σ?的母體 (Population) 中隨機(jī)取出?nn?個(gè)樣本 , 當(dāng) n?足夠大時(shí)
的抽樣分配會(huì)近似于平均數(shù) μ?而標(biāo)準(zhǔn)差?
之常態(tài)分配隙弛。 至于樣本數(shù)?n 要多大才能使得常態(tài)分配給
之抽樣分配提供更良好的近似呢? 其答案依賴于被抽樣的母體而定, 但一般對(duì)于大多數(shù)母體取樣本數(shù)?
是足夠的 (Mc Clave et al. 2008)架馋。 目前的高中教科書介紹這個(gè)定理大都采取了計(jì)算機(jī)摸擬加以說明, 但這并無助于學(xué)生對(duì)此一重要定理的瞭解, 因?yàn)閷W(xué)生從計(jì)算機(jī)模擬中無法親自體會(huì)?
抽樣分配之隨機(jī)性。上課中為加深同學(xué)對(duì)
這個(gè)分配之個(gè)數(shù)及變化, 我特別設(shè)計(jì)了下面問題來說明全闷。
從母體 0, 3, 6, 9, 12 中任意抽取三個(gè)樣本, 求出所有可能樣本平均數(shù)?
之抽樣分配并繪出其抽樣分配機(jī)率圖形為何?
首先可由 得知我們共可抽出十組不同的樣本, 因此也會(huì)得到十種
的不同情形, 將之列表并計(jì)算每一組之
如下:
若將? 按大小順序排列可得到其對(duì)應(yīng)的機(jī)率分配如下表:
因此, 可以繪出? 抽樣分配之機(jī)率圖形于下:
此抽樣分配 之平均數(shù)
若利用除以? 的公式得?
的標(biāo)準(zhǔn)差
這個(gè)例子不但可讓學(xué)生瞭解? 抽樣分配的平均數(shù)與標(biāo)準(zhǔn)差不易求得, 亦可使他們體會(huì)到
抽樣分配對(duì)于?n=3的情形已具有常態(tài)分配之趨向, 這就是給予中央極限定理很直觀的視覺化 (Visualization) 表達(dá)方式
要證明?的平均數(shù)
與標(biāo)準(zhǔn)差
?并不難, 因?yàn)?/p>
最后再提出中央極限定理的結(jié)論: 從具有平均數(shù)?μ及標(biāo)準(zhǔn)差?σ 之母體中隨機(jī)取出 n?個(gè)樣本, 當(dāng) n?足夠大時(shí)樣本平均數(shù) 的抽樣分配會(huì)近似于平均數(shù) μ?及標(biāo)準(zhǔn)差
之常態(tài)分配叉寂。 個(gè)人透過實(shí)際教學(xué)大部分學(xué)生都能清楚此定理的意義, 此一教法更有助于讓學(xué)生正確掌握信心水準(zhǔn)的觀念。 至于比較一般的中央極限定理之形式如下(Ross, 2006):
The Central Limit TheoremLet?be a sequence of independent and identically distributed random variables each having mean?μμ?and variance
. Then the disrtibution of?
?tends to the standard normal as
. That is, for?
,
這是拉普拉斯最早所提出的一般形式, 但他本人對(duì)此定理的證明并不十分嚴(yán)格总珠。 真正嚴(yán)格的證明是李雅普諾夫(Lyapunov)在1901~~1902年之間所完成, 并在證明中首創(chuàng)利用了嶄新的特征函數(shù) (Characteristic function), 透過特征函數(shù)方法實(shí)現(xiàn)了機(jī)率分析的革新, 才使得機(jī)率中有關(guān)極限定理的證明得到更大的發(fā)展(Adams, 2009)屏鳍。 中央極限定理早期的應(yīng)用顯示測(cè)量誤差近似于常態(tài)分配, 這在科學(xué)上發(fā)展出很多非常重要的貢獻(xiàn), 所以十七世紀(jì)至十八世紀(jì)它通常被稱為誤差頻率定律 (Law of frequency of errors)勘纯。 至于「The Central Limit Theorem」這個(gè)名稱, 是由波利亞(Polya)于 1920 年在其博士論文中所提出的。
在選舉前有民調(diào)中心想要調(diào)查某位候選人的支持度, 最準(zhǔn)確的方法當(dāng)然是調(diào)查所有合格選民, 若在?N個(gè)會(huì)去投票者中有?M 個(gè)支持該候選人, 則其真正的支持度? 即為母體支持率钓瞭。 但是這樣的調(diào)查方法往往耗費(fèi)太多的人力與物力, 根據(jù)統(tǒng)計(jì)學(xué)一般會(huì)采取隨機(jī)的方式進(jìn)行抽樣調(diào)查驳遵。 為估計(jì)未知的母體支持度 p, 民調(diào)中心隨機(jī)抽取了一份 n?個(gè)人的樣本, 若調(diào)查結(jié)果有 m?個(gè)人支持這位候選人, 則其樣本之支持率?
, 這只是對(duì)該候選人支持率的一個(gè)估計(jì)。如果重新隨機(jī)再抽取 n?個(gè)人的樣本, 由于組成另一個(gè)樣本的人不一定與上次相同, 使得對(duì)該候選人的支持率
也可能隨之改變山涡。因此, 在抽取?nn?個(gè)樣本的抽樣中可產(chǎn)生
?組不同的樣本, 則對(duì)該候選人的樣本支持率?
?就可能有
?不同變化, 其發(fā)生的機(jī)率分別列表如下:
因此可得到
根據(jù)中央極限定理當(dāng)?nn?足夠大時(shí), 產(chǎn)生的分配會(huì)趨近于平均數(shù)?p 與標(biāo)準(zhǔn)差?
之常態(tài)分配, 再由常態(tài)分配的經(jīng)驗(yàn)法則可得知?
?值有大約95% 的比例會(huì)落在
堤结。 一般在抽樣時(shí)我們并不知道母體真正值 p, 但當(dāng)抽取樣本數(shù) n?足夠大時(shí), 每一組樣本所產(chǎn)生的?
?都會(huì)近似于 p, 所以也可以利用
來估計(jì) p, 我們稱?
為 p?的 95% 信賴區(qū)間 (Confidence interval)鸭丛。 因?yàn)榻y(tǒng)計(jì)學(xué)家有某種程度的信心認(rèn)為該區(qū)間會(huì)包含 p, 所以給它取名為信賴區(qū)間, 其理由是當(dāng)我們收集了許多不同的樣本, 并對(duì)每個(gè)樣本都得到了一個(gè)信賴區(qū)間, 這些信賴區(qū)間有足夠的信心使其中的 95% 包含了母體之真正值, 則 95% 這個(gè)值就被稱為信心水準(zhǔn) (Confidence level)(Iversen, et al.~1997)竞穷。 95% 這個(gè)值在統(tǒng)計(jì)是比較常用的, 當(dāng)然你也可以使用其他值 90% 或 99% 來作信心水準(zhǔn)。
在大多數(shù)情況下, 調(diào)查人員收集數(shù)據(jù)時(shí)都只取一組樣本, 可是沒有人能夠知道這組樣本所產(chǎn)生的信賴區(qū)間是否包含 p鳞溉。 至于這個(gè)區(qū)間是否包含 p?呢? 注意! 它只有兩種答案, 即它包含 p?或不包含 p, 采用機(jī)率的觀點(diǎn)來看就是或 0, 亦即信心水準(zhǔn) 95% 并不是一個(gè)機(jī)率值, 所以不可以將之解讀為真正?p 值會(huì)落在此信賴區(qū)間的機(jī)率是 0.95瘾带。 因此, 統(tǒng)計(jì)學(xué)上才假設(shè)做了足夠多次抽樣后, 借助其近似于常態(tài)分配的經(jīng)驗(yàn)法則來探討信心水準(zhǔn), 并創(chuàng)造出信賴區(qū)間這樣的名詞來描述它。我們之所以用這種拐彎抹角的表達(dá)方式, 其原因在于母體真正值是未知的固定數(shù), 而抽樣比率?
?所得到的信賴區(qū)間卻是變動(dòng)的, 若重復(fù)這個(gè)作法會(huì)得到一些不同的信賴區(qū)間, 在這個(gè)意義下信賴區(qū)間是一個(gè)隨機(jī)區(qū)間, 此區(qū)間會(huì)隨著所取樣本的不同而不同熟菲。 一個(gè)區(qū)間就像為了捕獲未知的 p?而撒出去的網(wǎng), 并非每一次撒網(wǎng)的地點(diǎn)都能捕獲真正值p看政。 因此, 信心水準(zhǔn) 95% 的意義是多次抽樣中大約有 95% 的信賴區(qū)間會(huì)包含未知的母體真正值 p, 或通俗的解讀為我們大約有 95% 的「信心」 確定這次調(diào)查得到的信賴區(qū)間會(huì)包未知的母體真正值 p。在98年學(xué)測(cè)考試有一道題目:
某廠商委托民調(diào)機(jī)構(gòu)在甲乙兩地調(diào)查聽過某項(xiàng)產(chǎn)品的居民占當(dāng)?shù)鼐用裰俜直?(以下簡(jiǎn)稱為「知名度」), 結(jié)果如下: 在 95% 信心水準(zhǔn)之下, 該產(chǎn)品在甲抄罕、乙兩地的知名度之信賴區(qū)間分別為?
允蚣、
。試問下列哪些選項(xiàng)是正確的? (1) 甲地本次的參訪者中有54%的人聽過該產(chǎn)品 (2) 此次民調(diào)在乙地的參訪人數(shù)少于在甲地的參訪人數(shù) (3) 此次調(diào)查結(jié)果可解讀為: 甲地全體居民中有一半以上的人聽過該產(chǎn)品的機(jī)率大于 95% (4) 若在乙地以同樣方式進(jìn)行多次民調(diào), 所得知名度有 95% 的機(jī)會(huì)落在區(qū)間
? (5) 經(jīng)密集廣告宣傳后在乙地再次進(jìn)行民調(diào), 并增加參訪人數(shù)達(dá)原人數(shù)的四倍, 則在 95% 信心水準(zhǔn)之下該產(chǎn)品的知名度之信賴區(qū)間寬度會(huì)減半贞绵。
本題大考中心公布的正確答案為選項(xiàng)(1)(2), 并統(tǒng)計(jì)全體考生答對(duì)率只有 7% 而鑒別度為 ?0.01厉萝。 雖然題目在敘述上之用字遣詞不是非常完美, 但個(gè)人對(duì)于這題的命題委員之用心表示欽佩, 因?yàn)樗谶x項(xiàng)(4)中點(diǎn)到了未知?dú)⑹?p, 也在選項(xiàng) (5) 中考慮到了?的隨機(jī)性。 如果學(xué)生未能瞭解?p 的未知性與
?之隨機(jī)性, 那就無法對(duì)這兩個(gè)選項(xiàng)作出是否正確的判斷, 這也是個(gè)人一再強(qiáng)調(diào)教師在使用中央極限定理之前, 必須對(duì)抽樣分配?
?的隨機(jī)性作一番解說, 才能讓學(xué)生對(duì)于理解
?的隨機(jī)性有所幫助榨崩。 在目前各版本教科書對(duì)此觀念都語焉不詳?shù)那闆r下, 我實(shí)在不敢指望學(xué)生能夠瞭解選項(xiàng)(4)與(5)的意義。 筆者建議教師在課堂中將本題改成下面題目, 對(duì)于學(xué)生在理解此一概念會(huì)有更好的效果:
某廠商委托民調(diào)機(jī)構(gòu)在甲地調(diào)查聽過某項(xiàng)產(chǎn)品的居民占當(dāng)?shù)鼐用裰俜直?以下簡(jiǎn)稱為「知名度」), 其結(jié)果如下: 在 95%信心水準(zhǔn)下該產(chǎn)品在甲地的知名度之信賴區(qū)間為?[0.50,0.58][0.50,0.58]章母。 試問下列哪些選項(xiàng)是正確的? (1) 此次調(diào)查在甲地參訪者中有 54% 的人聽過該產(chǎn)品, 且其抽樣誤差為正負(fù) 4 個(gè)百分點(diǎn) (2) 此次調(diào)查有 95% 信心可確定甲地全體居民中, 聽過該項(xiàng)產(chǎn)品的比率為會(huì)落在 0.50~~0.58 (3) 若在甲地再次進(jìn)行民調(diào)并增加參訪人數(shù)達(dá)原人數(shù)的四倍, 得到在 95% 信心水準(zhǔn)下該產(chǎn)品知名度之信賴區(qū)間寬度會(huì)減半 (4) 若在甲地以同樣方式進(jìn)行多次民調(diào), 所得到信賴區(qū)間中大約有 95% 會(huì)包含其真正的知名度 (5) 若在甲地以同樣方式進(jìn)行多次民調(diào), 所得的知名度會(huì)落在其信賴區(qū)間之機(jī)會(huì)大約為 95%母蛛。
本題筆者設(shè)計(jì)其正確選項(xiàng)為(1)(2)(4)。切記! 計(jì)算機(jī)在數(shù)學(xué)教學(xué)上只是一種幫助瞭解與計(jì)算的輔助工具, 如果在教學(xué)的過程中處處依賴計(jì)算機(jī)而不深入思考, 根據(jù)數(shù)學(xué)教育一些相關(guān)研究結(jié)果已經(jīng)表明, 這對(duì)于學(xué)習(xí)抽象與推理能力將是有害無益的, 這也是為什么有教科書趕時(shí)髦附上隨機(jī)區(qū)間計(jì)算機(jī)模擬實(shí)驗(yàn), 卻又在書上寫出「p?落在信賴區(qū)間的機(jī)率稱為信心水準(zhǔn)」這種不合理的定義了乳怎。在這次修訂版的定義下雖加注了「信心水準(zhǔn)與機(jī)率兩者有不同涵義」, 卻于同書241頁又作了一些和此定義自相矛盾的說明, 令人不解與遺憾彩郊。)