課堂評(píng)估有許多不同的形式---單元測(cè)驗(yàn)绵咱、小論文碘饼、檔案袋、完成項(xiàng)目悲伶、動(dòng)手操作艾恼、口頭報(bào)告等。由于教學(xué)過(guò)程中需要做出各種決策麸锉,因此钠绍,評(píng)估是很重要的。
測(cè)量花沉,是量化的---用數(shù)字對(duì)一個(gè)事件或特征進(jìn)行描述柳爽。目前,測(cè)量專(zhuān)家更多地使用評(píng)估這一術(shù)語(yǔ)來(lái)描述收集學(xué)生學(xué)習(xí)信息的過(guò)程碱屁。評(píng)估的概念要比測(cè)量或測(cè)驗(yàn)廣泛的多磷脯。因?yàn)椋u(píng)估包含了取樣和觀察學(xué)生知識(shí)娩脾、技能和能力的所有方法赵誓。今天,評(píng)估超越了傳統(tǒng)的紙筆測(cè)試,主要基于學(xué)生的行為表現(xiàn)俩功、檔案袋幻枉、項(xiàng)目成果或手工作品對(duì)學(xué)生進(jìn)行評(píng)價(jià)。按照功能和用途诡蜓,評(píng)估分為形成性評(píng)估和終結(jié)性評(píng)估熬甫。形成性評(píng)估發(fā)生在教學(xué)前或教學(xué)過(guò)程中,形成性評(píng)估的目的是指導(dǎo)教師計(jì)劃和改善教學(xué)蔓罚,同時(shí)也幫助學(xué)生改善學(xué)習(xí)罗珍。形成性評(píng)估幫助形成“教學(xué)”,并提供“非評(píng)判的脚粟、支持的覆旱、及時(shí)的和具體的”反饋。通常核无,教師在教學(xué)前會(huì)給學(xué)生進(jìn)行形成性測(cè)驗(yàn)扣唱,這種前側(cè)能夠幫助教師了解學(xué)生已經(jīng)知道了什么。終結(jié)性評(píng)估發(fā)生在教學(xué)之后团南,目的是讓教師和學(xué)生知道任務(wù)達(dá)成的水平噪沙。任何測(cè)驗(yàn)本身是沒(méi)有意義的,為了解釋測(cè)驗(yàn)結(jié)果吐根,我們需要進(jìn)行一些比較正歼。有兩種基本的比較類(lèi)型:第一種是對(duì)參加了同樣測(cè)驗(yàn)的人的分?jǐn)?shù)進(jìn)行比較,被稱(chēng)作常模參照比較拷橘。第二種類(lèi)型就是標(biāo)準(zhǔn)參照局义,比較是基于一個(gè)固定的標(biāo)準(zhǔn)或最低的通過(guò)分?jǐn)?shù)。在常模參照測(cè)驗(yàn)中冗疮,所有參加過(guò)該測(cè)驗(yàn)的人的成績(jī)構(gòu)成了常模萄唇,并以此來(lái)確定某一個(gè)題分?jǐn)?shù)的含義。教育領(lǐng)域至少有三個(gè)不同類(lèi)型的常模團(tuán)體术幔,或稱(chēng)比較團(tuán)體---班級(jí)或?qū)W校內(nèi)部另萤、學(xué)區(qū)、全國(guó)樣本诅挑。常模參照測(cè)驗(yàn)的分?jǐn)?shù)四敞,應(yīng)用非常廣泛,特別對(duì)于只有少數(shù)頂尖選手才能進(jìn)入的項(xiàng)目拔妥,采用常模參照測(cè)驗(yàn)很合適忿危。然而,常模參照測(cè)驗(yàn)也有一些局限性毒嫡,常模參照測(cè)驗(yàn)的結(jié)果并沒(méi)有提供學(xué)生是否可以學(xué)習(xí)更高級(jí)內(nèi)容的信息癌蚁;也不太適合測(cè)量情感目標(biāo)或動(dòng)作技能目標(biāo)幻梯;常模參照測(cè)驗(yàn)是對(duì)競(jìng)爭(zhēng)和分?jǐn)?shù)的鼓勵(lì)。標(biāo)準(zhǔn)參照測(cè)驗(yàn)測(cè)量的是對(duì)某些特定目標(biāo)的掌握程度努释。其結(jié)果應(yīng)該精確的告訴教師學(xué)生能夠做什么碘梢,不能夠做什么。在教授基本技巧的時(shí)候伐蒂,很多例子表明煞躬,把個(gè)人成績(jī)與事前確立的某項(xiàng)標(biāo)準(zhǔn)進(jìn)行比較比與他人比較更為重要。標(biāo)準(zhǔn)參照測(cè)驗(yàn)也并非對(duì)所有情境都適用逸邦,許多學(xué)科內(nèi)容無(wú)法被分解成一系列具體的目標(biāo)恩沛。
在形成測(cè)驗(yàn)和解釋結(jié)果時(shí),信度缕减、效度雷客、無(wú)偏性是必須考慮的三個(gè)重要因素。
信度桥狡,假設(shè)一個(gè)人的能力是保持不變的搅裙,如果一個(gè)測(cè)驗(yàn)在兩種情境下對(duì)個(gè)人能力的解讀具有一致性和穩(wěn)定性,就說(shuō)明測(cè)驗(yàn)分?jǐn)?shù)是可信的裹芝。所有的信度值都在0.0---1.0之間部逮,超過(guò)0.9就認(rèn)為是非常可信的嫂易,0.8---0.9之間是良好兄朋。
分?jǐn)?shù)誤差,所有的測(cè)驗(yàn)對(duì)于他們希望測(cè)量的品質(zhì)或技能而言怜械,都不可能做到完美的估計(jì)颅和。在每一個(gè)測(cè)量情境中都存在誤差,這些誤差的產(chǎn)生與學(xué)生的情緒宫盔、動(dòng)機(jī)融虽、考試技巧甚至考試作弊都有關(guān)系享完。測(cè)驗(yàn)分?jǐn)?shù)越可信灼芭,分?jǐn)?shù)中所包含的誤差就越小。不要基于學(xué)生獲得的某個(gè)確切的分?jǐn)?shù)來(lái)估計(jì)學(xué)生的能力或成就般又。對(duì)于標(biāo)準(zhǔn)化測(cè)驗(yàn)彼绷,一般用置信區(qū)間或標(biāo)準(zhǔn)誤帶來(lái)報(bào)告分?jǐn)?shù),這個(gè)區(qū)間包含了學(xué)生的實(shí)際得分茴迁。
如果測(cè)驗(yàn)分?jǐn)?shù)是可信的寄悯,這些分?jǐn)?shù)是否有效?基于這些分?jǐn)?shù)得出的判斷或決策是不是有效的堕义?為了實(shí)現(xiàn)有效性猜旬,基于測(cè)驗(yàn)進(jìn)行的決策和推論應(yīng)該有證據(jù)支持,這就意味著效度與某個(gè)特殊的用途或目的相關(guān)。一個(gè)特定的測(cè)驗(yàn)對(duì)于某個(gè)目的可能是有效的洒擦,而對(duì)于另外一個(gè)目的可能就無(wú)效椿争。我們有不同的證據(jù)來(lái)檢驗(yàn)一下具體的判斷。如果測(cè)驗(yàn)?zāi)康氖菫榱藴y(cè)量一門(mén)課程或一個(gè)單元的技能熟嫩,我們希望看到的試卷覆蓋了這些章節(jié)的重要主題秦踪,這樣,我們就有了內(nèi)容效度的證據(jù)掸茅。有些測(cè)驗(yàn)是為了預(yù)測(cè)結(jié)果椅邓,比如SAT就是預(yù)測(cè)學(xué)生在大學(xué)的表現(xiàn)。
評(píng)估一個(gè)測(cè)驗(yàn)好壞的第三個(gè)標(biāo)準(zhǔn)就是無(wú)偏性昧狮,評(píng)估偏見(jiàn)是指:評(píng)估工具因?qū)W生的性別景馁、種族、社會(huì)經(jīng)濟(jì)地位逗鸣、宗教和一些其他的群體特征而造成冒犯學(xué)生或不公平對(duì)待學(xué)生的性質(zhì)裁僧。偏見(jiàn)是指測(cè)驗(yàn)的某些方面可能扭曲了群體的反應(yīng)---無(wú)論是好還是壞。評(píng)估偏見(jiàn)包含兩種形式---不公平性慕购、冒犯性聊疲。包含大量體育內(nèi)容的閱讀評(píng)估就是不公平性的例子。一個(gè)特殊的群體如果因?yàn)樵u(píng)估內(nèi)容而感到被侮辱沪悲,就表現(xiàn)為冒犯性获洲。
真實(shí)性評(píng)估:考察學(xué)生在真實(shí)情景中的技能和能力的評(píng)估方法。不是要求學(xué)生去尋找那些假設(shè)情境中“真實(shí)性”問(wèn)題的答案殿如,而是去解決真實(shí)世界的問(wèn)題贡珊。在真實(shí)的應(yīng)用過(guò)程中,事實(shí)是屬于情境中的涉馁。比如门岔,買(mǎi)玩具要花60美分,給營(yíng)業(yè)員1美元烤送,會(huì)找回零錢(qián)多少寒随?直接用真實(shí)的錢(qián)來(lái)成對(duì)進(jìn)行角色扮演,互相購(gòu)買(mǎi)帮坚;或者設(shè)立一個(gè)模擬商店妻往,由學(xué)生來(lái)購(gòu)買(mǎi)找零等。
表現(xiàn)性評(píng)估:為了展現(xiàn)學(xué)習(xí)效果试和,要求學(xué)生開(kāi)展一項(xiàng)活動(dòng)或制作一個(gè)物品的評(píng)估方式讯泣。檔案袋和成果展示是兩種需要學(xué)生在一定情境中進(jìn)行表現(xiàn)的評(píng)估方式。檔案袋就是一個(gè)收集作品的系統(tǒng)阅悍,常常包含表現(xiàn)工作進(jìn)步好渠、修改的作品昨稼、也包含學(xué)生的自我分析以及對(duì)所學(xué)知識(shí)的反思。