1 語言測試標(biāo)準(zhǔn)項(xiàng)回顧
談到語言測試的標(biāo)準(zhǔn)伞插,大凡都不能不談到效度(validity)、信度(reliability)盾碗、難度(difficulty level)與區(qū)分度(differentiation)媚污。各種語言測試,無論是在語言試題設(shè)計(jì)的前期的控制廷雅,或者是對其設(shè)計(jì)產(chǎn)品的評估耗美,再或者是對后期測試工作流程結(jié)束后的評估分析京髓,都有一個(gè)傾向,既要考慮主要影響前期操作的三大標(biāo)準(zhǔn)項(xiàng)商架,又需考慮考慮主要影響后期操作的兩大標(biāo)準(zhǔn)項(xiàng)堰怨。即便是對于效度(語言測試的目的性)和信度(語言測試的可信程度)之間的關(guān)系的處理上,也經(jīng)常呈現(xiàn)出一種必須以語言的真實(shí)使用來犧牲語言測試的客觀量化的結(jié)果蛇摸,具體體現(xiàn)在各類語言測試主觀題量的增加和客觀題量的降低方面备图。
究其原因,主要在于對各個(gè)語言測試標(biāo)準(zhǔn)項(xiàng)關(guān)系的不同理解赶袄。對于效度和信度的關(guān)系揽涮,一般的觀點(diǎn)都認(rèn)為他們是一對矛盾,即是一種蹺蹺板(seesaw)的關(guān)系:提高信度便意味著損失效度饿肺,反之亦然蒋困。李筱菊從影響因素以及構(gòu)成因素的角度具體討論了效度和信度,并在包括效度-信度關(guān)系在內(nèi)的七大關(guān)系方面進(jìn)行了深入的討論(見李延林2005)敬辣,并列舉了常見的四大關(guān)系處理方案家破,然而,似乎并沒有從根本上解決效度和信度的矛盾關(guān)系問題购岗。中國大學(xué)英語四汰聋、六級英語考試和英語專業(yè)四、八級的改革似乎也主要停留在主觀試題的增加喊积、口語的增加和對測試結(jié)果的所謂解釋方面(有借鑒IELTS考試的傾向)烹困。語言測試并不只針對高校學(xué)生,從覆蓋面上講乾吻,中學(xué)乃至小學(xué)和幼兒語言教育在語言測試方面髓梅,尤其是測試標(biāo)準(zhǔn)方面的討論在當(dāng)前更應(yīng)當(dāng)受到重視。而對于測試效度和信度的普遍性處理方法和對難度與區(qū)分度的簡單偏執(zhí)顯然不利于基礎(chǔ)語言教育的改革绎签,只能使考教越發(fā)分離枯饿,使教學(xué)與考試脫離的現(xiàn)象愈加嚴(yán)重。毫無疑問诡必,如果難度和區(qū)分度對于高考而言還有一定意義奢方,選拔研究生考試和出國考試應(yīng)當(dāng)考慮加大一些試題的難度,以造成一定的區(qū)分度爸舒,達(dá)到選拔人才的目的的話蟋字,那么,在任何考試中都必須讓考生分出來個(gè)一二三的主觀想法顯然是幼稚的扭勉;僅僅認(rèn)為主觀題是高效度而客觀題是低效度的看法也是偏激不合實(shí)際情況的鹊奖。
2 效度和信度的關(guān)系
語言測試的效度必須首先考慮。因?yàn)樗鼪Q定語言測試是否達(dá)到其目的涂炎。簡單地說忠聚,聽說技能的測試效度必須由聽說試題來反映设哗;讀寫試題的效度也必須由讀寫來實(shí)施。從這個(gè)道理上講两蟀,它和我們漢語里的‘效果’雖然不存在對等關(guān)系网梢,但還是有著不可分的內(nèi)在關(guān)系。另外垫竞,期中考試作為一種提供信息的考試(informative)澎粟,和主要目的在于總結(jié)語言學(xué)習(xí)的期末測試應(yīng)當(dāng)有相同點(diǎn)和不同點(diǎn)共存的特點(diǎn)蛀序,也會對語言測試的效度有影響欢瞪。如果期中考試僅僅是以一篇作文甚至是一次作業(yè)作為考察的手段,那么期末考試?yán)響?yīng)在作文方面占據(jù)相當(dāng)?shù)谋壤炻恪W非蟾咝哦仁墙y(tǒng)計(jì)學(xué)的一大特點(diǎn)遣鼓。把語言分解成若干單元從語言使用的角度看似
乎不可思議,但語言學(xué)習(xí)不可能是一蹴而就的重贺,對于語境(這里指使用語言的情景而非語言學(xué)語境或上下文)也不可能是空中樓閣骑祟,它需要我們對語言的單句上下文掌握的前提下再進(jìn)一步考慮,對于語言測試而言更是如此气笙。一般認(rèn)為次企,沒有信度的測試是無用的;沒有效度的測試談不上信度潜圃。我們以為缸棵,這種理論上的關(guān)系討論對于語言測試實(shí)踐沒有任何的意義。沒有信度是零的語言測試谭期,除非是大面積的作弊堵第。也沒有完全缺少效度的測試,除非出題人完全不懂語言教學(xué)規(guī)律和語言測試技術(shù)隧出。因此踏志,單個(gè)看待語言的效度和信度要比這種武斷的矛盾一元論理論觀點(diǎn)更加實(shí)在一些。李筱菊對于效度和信度的關(guān)系處理給我們提供了一個(gè)視角胀瞪,即不僅僅從這兩個(gè)詞的定義入手针余,而是從其構(gòu)成和影響因素著手。從她的討論不難看出凄诞,影響信度的因素遠(yuǎn)比影響效度的因素要多涵紊。這樣,從追求雙高幔摸,即高效度和高信度的角度看摸柄,我們似乎看到了一絲希望。對于某些影響因素的改善如果可以提高效度或者信度而不至于影響到整體平衡(語言測試畢竟不同于蹺蹺板既忆,不會稍有差異就會出現(xiàn)天壤之別的現(xiàn)象)驱负,那么語言測試實(shí)踐就會減輕很多壓力嗦玖。解決這一對看似矛盾的另外一個(gè)辦法在于從上一層系統(tǒng)來看待他們的關(guān)系,也就是需我們從一個(gè)系統(tǒng)角度而不是從對抗角度(trade-off)來關(guān)注這種關(guān)系跃脊。如果語言學(xué)習(xí)輸入和輸入強(qiáng)化對于初學(xué)者起到很大作用的話宇挫,如果學(xué)習(xí)者輸入(learner input)在學(xué)習(xí)初期根本沒有可能或者不現(xiàn)實(shí)的話,那么酪术,語言測試的首要標(biāo)準(zhǔn)項(xiàng)就不應(yīng)當(dāng)以所謂的語言輸出(或者稱作語言生產(chǎn))為主器瘪,而應(yīng)當(dāng)考慮以聯(lián)想和激發(fā)回憶為主的語言識別的能力。這樣绘雁,我們就可以借鑒應(yīng)用語言學(xué)家給我們提供的連續(xù)體(continuum)的模式(見Bachman:1990)來考慮語言測試中效度和信度的關(guān)系(見表1)橡疼。在連續(xù)體的一端是高效度,在另外一端是高信度庐舟。對其不同的需要決定試題是高信度或者高效度欣除,或者居中,但不存在好與不好的問題挪略,或者历帚,確切地說,它的好壞完全由測試的目的(不同于效度)和種類決定杠娱。
A 語言輸入 語言識別 B
高信度―――――┼―――――――高效度
C 語言輸出 語言生產(chǎn) D
以上圖表顯示挽牢,比較理想的試題應(yīng)當(dāng)在D區(qū)和A區(qū)。雖然語言學(xué)習(xí)者終身都離不開語言輸入摊求,但對于初學(xué)者和低年級學(xué)習(xí)者而言禽拔,語言的識讀能力的培養(yǎng)應(yīng)當(dāng)重于組織能力;體現(xiàn)在語言測試中睹簇,其高信度應(yīng)當(dāng)重于高效度奏赘。而對于語言水平較高的學(xué)習(xí)者而言,其語言組織能力的培養(yǎng)應(yīng)當(dāng)是重中之重太惠,應(yīng)當(dāng)體現(xiàn)在語言生產(chǎn)的試題之中磨淌。當(dāng)然,這里面還牽扯一個(gè)語言測試種類的問題和與教學(xué)課本相關(guān)的教學(xué)內(nèi)容以及測試內(nèi)容效度的問題凿渊,鑒于不是本文討論的焦點(diǎn)梁只,在此不再贅述。
3 難度與區(qū)分度的關(guān)系
語言測試在設(shè)計(jì)方面有一個(gè)常規(guī)埃脏,即試題在內(nèi)容及試題題型方面應(yīng)遵從從‘易’到‘適合’再到‘難’的規(guī)則搪锣。這在理想測試結(jié)果圖上也有體現(xiàn):兩頭小,中間大的弧形模式彩掐。這樣做的目的在于讓參加測試的語言學(xué)生能夠熟悉构舟、適應(yīng)測試過程并最終形成所謂的理想弧度。
語言測試技術(shù)有一個(gè)原則堵幽,即不給考生設(shè)定陷阱狗超。難度作為一個(gè)相對的概念弹澎,不應(yīng)體現(xiàn)在試題的題型上,而更應(yīng)體現(xiàn)在學(xué)生的所學(xué)內(nèi)容方面努咐。為了降低難度而將主觀題變更為客觀題的做法如果還算可以理解的話苦蒿,那么,通過這種辦法增加難度的做法就不可思議了渗稍;而為了增加難度將很少出現(xiàn)或使用的語言項(xiàng)目大量納入試題的做法就更顯得荒唐(除非是語言稟賦測試佩迟,即aptitude測試)。對于普通語言測試而言竿屹,應(yīng)當(dāng)和所學(xué)掛起鉤來报强。只要課本選擇合適,只要教學(xué)內(nèi)容與方法合適羔沙,平時(shí)的小測驗(yàn)也好躺涝,期中考試也好厨钻,或者期末考試也好扼雏,都應(yīng)當(dāng)反映平時(shí)所學(xué),以檢測學(xué)生在該門課程方面的學(xué)習(xí)情況夯膀,更多地反映學(xué)習(xí)者的進(jìn)步程度(progress或achievement)诗充,而不完全是其語言水平(proficiency test),更不是通過語言測試在學(xué)習(xí)者之間進(jìn)行比較诱建,形成競爭壓力甚致于引起負(fù)面學(xué)習(xí)焦慮情緒蝴蜓。增加難度的目的在于區(qū)分,而區(qū)分度的本質(zhì)在于把學(xué)習(xí)者分為不同等級俺猿,如果因此而進(jìn)行動(dòng)態(tài)班級調(diào)整施行分班或者分級教學(xué)的話還有一定的道理茎匠,但僅僅為了區(qū)分而忽略語言學(xué)習(xí)中競爭帶來的負(fù)面影響,強(qiáng)化常模測試(norm-based testing)的作用押袍,忽略語言標(biāo)準(zhǔn)測試(criteria-based testing)的存在诵冒,則對于語言教學(xué)與測試實(shí)踐都不會帶來很大的益處。對于語言試題難度和區(qū)分度谊惭,對于分?jǐn)?shù)分布曲線的考慮或者對于偏態(tài)值和峰值的考慮在分班/級測試和常模測試的情況下必須涉及外汽馋,僅從標(biāo)準(zhǔn)測試角度看沒有必要一定要考慮。另外圈盔,為了區(qū)分而影響到語言測試的反撥效度(wash-back effect)豹芯,則在很大程度上會影響到語言學(xué)習(xí)這一主要矛盾,會損失語言學(xué)習(xí)和語言測試的主要方面驱敲。
語言測試的標(biāo)準(zhǔn)一致是應(yīng)用語言學(xué)家關(guān)注的事情铁蹈。對效度和信度之間的關(guān)系研究長期以來一直在語言教學(xué)與實(shí)踐中徘徊,不是偏左就是偏右众眨,再就是折中握牧。我們認(rèn)為便锨,除了在平衡方面想辦法,如可以考慮提高信度的完型填空題我碟,還可以考慮從不同的角度分別考慮放案。本文在這個(gè)基礎(chǔ)上提出了與測試種類相關(guān)的測試目的的老概念,試圖從語言測試需求的角度矫俺,從Bachman提出的系統(tǒng)連續(xù)體的角度重新審視效度和信度之間的關(guān)系吱殉。至于語言的難度和區(qū)分度,本文以為厘托,應(yīng)當(dāng)視需求而實(shí)施友雳,而不應(yīng)當(dāng)盲目地甚至是無限制地推廣,使之成為‘放之四海而皆準(zhǔn)’的準(zhǔn)繩铅匹。
語言教育教學(xué)和語言測試?yán)碚摷皩?shí)踐的研究不會停止押赊,對于語言測試的標(biāo)準(zhǔn)也會繼續(xù)。如果我們在語言教學(xué)和測試方面能夠找到一個(gè)好的契合點(diǎn)包斑,如果我們能夠逐步解決高考英語測試指揮棒和四/六級或四/八級指揮棒的問題流礁,那么我們所倡導(dǎo)的減負(fù)和減壓等措施便能真正落到實(shí)處,培養(yǎng)創(chuàng)新人才罗丰,而不是應(yīng)試能手神帅。無論對于語言教學(xué)或者對于語言測試實(shí)踐而言,Leech在2001年第三屆中國英語教學(xué)國際研討會上所提交的主題報(bào)告Teach the Frequent before the Rare(教授常用語言項(xiàng)先于罕見語言項(xiàng))無疑都具有一定的啟發(fā)意義萌抵,而這也是包括中國在內(nèi)的英語教學(xué)的一大癥結(jié)所在找御。
分類
測試的效度一般可分為以下幾類:
1)表面效度(face validity)
指測試應(yīng)達(dá)到的卷面標(biāo)準(zhǔn),即一套測試題從表面看來是否是合適的绍填。例如霎桅,若一次閱讀理解力的測試包括許多受試者沒有學(xué)過的方言詞匯,則可認(rèn)為這次測試缺乏表面效度讨永。表面效度是測試出受試者正常水平的一種保證因素滔驶。
2)內(nèi)容效度(content validity)
指一套測試題是否測試了應(yīng)該測試的內(nèi)容或者說所測試的內(nèi)容是否反映了測試的要求,即測試的代表性和覆蓋面的程度住闯。例如瓜浸,如果某一套發(fā)音技能測試題僅僅考查發(fā)音所必須具備的某些技能,如只考單一音素的發(fā)音比原,而不考查重讀插佛、語調(diào)或音素在詞語中的發(fā)音,那么量窘,該測試的內(nèi)容效度就很低雇寇。
3)編制效度(construct validity)
指一套測試題的諸項(xiàng)目對編制該測試所依據(jù)的理論的各個(gè)基本方面的反映程度。例如,以結(jié)構(gòu)主義語言理論為基礎(chǔ)锨侯,認(rèn)為系統(tǒng)的語言習(xí)慣是通過句型而獲得的嫩海,那么,強(qiáng)調(diào)詞匯和語法環(huán)境的測試題目就失去了編制效度囚痴。
4)經(jīng)驗(yàn)效度(empirical validity)
經(jīng)驗(yàn)效度是一種衡量測試有效性的量度叁怪,通過把一次測試與一個(gè)或多個(gè)標(biāo)準(zhǔn)尺度相對照而得出。經(jīng)驗(yàn)效度可分為兩種:一是共時(shí)效度(concurrent validity)深滚,即將一次測試的結(jié)果同另一次時(shí)間相近的有效測試的結(jié)果相比較奕谭,或同教師的鑒定相比較而得出的系數(shù);二是預(yù)測效度(predictive validity)痴荐,即將一次測試的結(jié)果同后來的語言能力相比較血柳,或是同教師后來對學(xué)生的鑒定相比較而得出的系數(shù)。
一般來說生兆,對某次測試的效度進(jìn)行檢驗(yàn)時(shí)难捌,除了要根據(jù)教學(xué)大綱的要求和觀念有效性的理論對試卷的內(nèi)容進(jìn)行考查以外,還須采用計(jì)算相關(guān)系數(shù)的定量方法鸦难,即計(jì)算出本次試卷與另一份已被確定能正確反映受試者水平的試卷之間的相關(guān)系數(shù)根吁。系數(shù)高則有效性大。課堂測試的效度應(yīng)在0.4-0.7之間明刷,規(guī)模較大的測試其效度應(yīng)在0.7以上婴栽。
影響因素
測量的效度就是指測量的有效性满粗,即能測量到所要測量目標(biāo)的程度辈末。一般來說,效度的作用比信度的作用更為重要映皆。如果一個(gè)測驗(yàn)效度很低挤聘,無論它的信度有多高,這項(xiàng)測驗(yàn)都沒有應(yīng)用價(jià)值捅彻。較高的效度是一個(gè)良好的測驗(yàn)最重要的特性组去,是必要條件,也是選擇和評鑒測驗(yàn)的重要依據(jù)步淹。但是很多方面都在影響測量的效度从隆,下面主要從測驗(yàn)本身、樣本團(tuán)體缭裆、效標(biāo)因素進(jìn)行具體分析键闺。
測驗(yàn)的因素
由測驗(yàn)本身帶來的影響因素有測驗(yàn)題目的質(zhì)量、測驗(yàn)實(shí)施中的干擾澈驼、測驗(yàn)的長度辛燥、被試的因素等。
測驗(yàn)題目的質(zhì)量
題目的指導(dǎo)語不明確、試題的表達(dá)不清晰挎塌、試題太難或太容易徘六、題目中出現(xiàn)額外的線索、誘答設(shè)計(jì)不合理榴都、題目過少待锈、試題的安排和組織不恰當(dāng)、試題不符合測驗(yàn)?zāi)康牡纫蛩刈旄撸紩绊憸y驗(yàn)的效度炉擅,使效度降低。
實(shí)施測驗(yàn)時(shí)的干擾因素
測驗(yàn)的環(huán)境太差阳惹、被試不遵從指導(dǎo)語谍失、記分錯(cuò)誤,都會使測驗(yàn)的效度降低莹汤。
測驗(yàn)的長度
一般來說快鱼,增加測驗(yàn)的長度通常可以提高測驗(yàn)的信度纲岭,而效度系數(shù)能否達(dá)到最大值也受信度的影響抹竹,因此,增加測驗(yàn)的題目往往也能提高測驗(yàn)的效度止潮。不過窃判,效度增加的前提是這些增加的題目必須與測量的目標(biāo)相關(guān)。
被試的影響因素
被試的反應(yīng)定勢喇闸、測驗(yàn)動(dòng)機(jī)袄琳、情緒和身心狀態(tài)都會對測量效度的影響。
樣本團(tuán)體性質(zhì)
對效度的計(jì)算往往是通過對樣本團(tuán)體的分?jǐn)?shù)進(jìn)行各種分析而得到的燃乍,所以樣本團(tuán)體的性質(zhì)也會對測驗(yàn)的效度產(chǎn)生影響唆樊。這些影響體現(xiàn)在三個(gè)方面。
(1) 同一測驗(yàn)對不同的團(tuán)體所測量的功能可能是不同的刻蟹;
(2) 對于同一個(gè)測驗(yàn)逗旁,樣本團(tuán)體的性質(zhì)不同,效度也會有較大的差別舆瘪;
(3) 樣本團(tuán)體的異質(zhì)性對效度也會有影響片效。
效標(biāo)性質(zhì)
在采用效標(biāo)關(guān)聯(lián)效度時(shí),效標(biāo)的性質(zhì)如何英古,會影響對測驗(yàn)效度的評價(jià)淀衣。一般來說,如果其他條件相同哺呜,所測量的行為或心理特質(zhì)與效標(biāo)行為或特質(zhì)越相似舌缤,效度系數(shù)就越高箕戳。另外,效標(biāo)與測驗(yàn)分?jǐn)?shù)之間的關(guān)系是否線性也是一個(gè)很重要的影響因素国撵。
測試信度(test reliability)也叫測試的可靠性陵吸,指的是測試結(jié)果是否穩(wěn)定可靠。
也就是說介牙,測試的成績是不是反映了受試者的實(shí)際語言水平壮虫。例如,如果同一套測試在對同一測試對象(即受試者本身沒有變化)進(jìn)行的數(shù)次測試中环础,受試者的分?jǐn)?shù)忽高忽低的話囚似,則說明該測試缺乏信度。測試的信度與測試的效度有著密切的關(guān)系线得。
一般說來饶唤,只有信度較高的測試才能有較高的效度,但效度較高不能保證信度也一定較高贯钩。測試的信度主要涉及到試題本身的可靠性和評分的可靠性這兩個(gè)方面募狂。試題本身是否可靠主要取決于試題的范圍、數(shù)量角雷、試題的區(qū)分度等因素祸穷;評分是否可靠則要看評分標(biāo)準(zhǔn)是否客觀和準(zhǔn)確。
應(yīng)用實(shí)例
測試的信度通常用一種相關(guān)系數(shù)(即兩個(gè)數(shù)之間的比例關(guān)系)來表示勺三,相關(guān)系數(shù)越大雷滚,信度則越高。當(dāng)系數(shù)為1.00時(shí)吗坚,說明測試的可靠性達(dá)到最高程度祈远;而系數(shù)是0.00時(shí),則測試的可靠性降到最低程度刻蚯。在一般情況下绊含,系數(shù)不會高到1.00,也不會降到0.00炊汹,而是在兩者之間。對信度指數(shù)的要求因測試類別的不同而不同逃顶,人們通常對標(biāo)準(zhǔn)化測試的信度系數(shù)要求在0.90以上讨便,例如“托福”的信度大致為0.95以政,而課堂測試的信度系數(shù)則以0.70-0.80之間為可接受性系數(shù)霸褒。測試信度的計(jì)算方法有很多種,以下僅介紹三種易于操作的方法:
1)重測法
(the retesting method)盈蛮。用同一套試卷在兩個(gè)不同時(shí)間內(nèi)來測試同一批受試者废菱,這樣便獲得兩組分?jǐn)?shù),然后計(jì)算出兩組分?jǐn)?shù)的相關(guān)系數(shù)。當(dāng)然殊轴,在兩次測試中衰倦,學(xué)生第二次的測試成績理應(yīng)比第一次的要高,因?yàn)樵诘诙螠y試時(shí)學(xué)生已經(jīng)有了進(jìn)步而且臨場經(jīng)驗(yàn)也更豐富了旁理。但是若該試題是比較可靠的樊零,每個(gè)學(xué)生在兩次測試中的排名次序應(yīng)該是基本不變的。
2)交替形式法
(the alternative method)孽文。對同一批受試者使用試題類型完全相同驻襟,難易程度相當(dāng),但具體題目不同的兩套對等試卷先后進(jìn)行兩次測試芋哭,然后計(jì)算出兩次得分的相關(guān)系數(shù)沉衣。
3)對半法
(the split-h(huán)alf method)。測試只進(jìn)行一次减牺,但將整份試卷的題目按單厢蒜、雙數(shù)分成兩組來分別計(jì)分,算出兩組分?jǐn)?shù)的相關(guān)系數(shù)烹植,然后再用Spearman-Brown的公式計(jì)算整份試卷的信度系數(shù)斑鸦。具體計(jì)算步驟是:將兩組分?jǐn)?shù)的相關(guān)系數(shù)乘以2,再除以1加兩組分?jǐn)?shù)的相關(guān)系數(shù)草雕。
試題難度(item difficulty)衡量試題質(zhì)量高低的指標(biāo)之一測驗(yàn)(試卷)中試題(項(xiàng)目)的難度,是衡量該試題對被試者全體的適合程度.用d表示難度水平巷屿,0<=d<=1. d=1表示難度水平最高,即該試題沒有一個(gè)被試者做對;d=0墩虹,表示該試題全體被試者都做對嘱巾,即難度水平最低.。
試題難度(item difficulty)衡量試題質(zhì)量高低的指標(biāo)之一測驗(yàn)(試卷)中試題(項(xiàng)目)的難度是衡量該試題對被試者全體的適合程度.用d表示難度水平诫钓,0鎮(zhèn)d<1. d=1表示難度水平最高旬昭,該試題沒有一個(gè)被試者做對;d=。表示該試題全體被試者都做對菌湃,即難度水平最低.
試題的難度水平d值的大小必然會影響到區(qū)分度问拘、信度、效度的大小.計(jì)算d值的主要方法是平均數(shù)法:用a表示試題的滿分惧所,厲表示全體被試者得分的平均值骤坐,則
若對某試題,答對得a分下愈,答錯(cuò)得0分(無中間分?jǐn)?shù)纽绍,例如,對選擇題或是非題等)势似,則x/a為全體被試者在該試題的答對率拌夏,記p^}/a僧著,則d一1-p.若被試者人數(shù)為N,該試題答對的被試者人數(shù)為R,
區(qū)分度是指試題對被試者情況的分辨能力的大小障簿,主要用于評價(jià)以選拔為目的的選題盹愚。
試卷區(qū)分度反映試題區(qū)分不同水平受試者的程度,即考出學(xué)生的不同水平卷谈,把優(yōu)秀杯拐、一般、差三個(gè)層次的學(xué)生真正分別開世蔗。區(qū)分度高的考試端逼,優(yōu)秀、一般污淋、差三個(gè)層次的學(xué)生都有一定比例顶滩,如果某一分?jǐn)?shù)區(qū)間學(xué)生相對集中,高分太多或不及格太多的考試寸爆,區(qū)分度則低礁鲁。
計(jì)算
如果把成績從高往低排序,前50%的考生為高分組赁豆,后50%為低分組仅醇。其計(jì)算公式為:D=2(XH—XL)/W,其中魔种,D為區(qū)分度析二,XH為高分組平均分,XL為低分組平均分节预,W為試卷總分(一般為100分或150分)叶摄。
為了簡單計(jì)算, 教師可以使用下面的一種方法進(jìn)行計(jì)算區(qū)分度:
先將分?jǐn)?shù)排序安拟,P1=27%高分組的難度蛤吓,P2=27%低分組的難度,區(qū)分度D=(27%高分組的平均分-27%低分組的平均分)÷滿分值糠赦。
區(qū)分度一般在-1~+1之間会傲,值越大區(qū)分度越好。試題的區(qū)分度在0.4以上表明此題的區(qū)分度很好愉棱,0.3~0.39表明此題的區(qū)分度較好唆铐,0.2~0.29表明此題的區(qū)分度不太好需修改,0.19以下表明此題的區(qū)分度不好應(yīng)淘汰奔滑。
計(jì)算區(qū)分度的方法很多,需要特別注意的是對同一個(gè)試題的考試成績采用不同的方法所得到的區(qū)分度的值是不同的顺少。