一发侵、信度
? ? ? ?假設(shè)一個人的能力是保持不變的交掏,如果一個測驗在兩種情境下對個人能力的“解讀”具有一致性和穩(wěn)定性,就說明測驗分數(shù)是可信的刃鳄。一個測量精準(zhǔn)的溫度計的工作原理也是一樣的,當(dāng)把溫度計置于沸水中叔锐,每次顯示的溫度都會是100C挪鹏。因此,在兩個不同情境下施測同一測驗愉烙,測量信度意味著穩(wěn)定性或者叫重測信度。如果讓一組人參加同一測試的兩個不同版本測驗步责,這兩個測驗上的分數(shù)是可以相互比較的返顺,這被稱作復(fù)本信度。信度也可以表示一個測驗的內(nèi)部一致性或一個測驗的精確性蔓肯。這種類型的信度遂鹊,比如分半信度,通常需要比較一半測驗和另一半測驗之間的相關(guān)蔗包。比如秉扑,如果一個人在所有的奇數(shù)題上做得很好,而偶數(shù)題做得不好调限,我們就可以認為測驗題目在測量他們想要測量的東西上不具有一-致性或者不精確舟陆。
? ? ? ? 信度計算有多種方式误澳,但是所有的信度值都在0.0和1.0之間,就像相關(guān)系數(shù)樣吨娜。超過0.9就認為測驗是非撑洌可信的;0.8 至0.9之間是良好宦赠;低于0.8的信度對于一些標(biāo)準(zhǔn)化測試而言就不是很好了陪毡。一般而言,題目多的測驗比題目少的測驗信度更高勾扭。
二毡琉、效度
? ? ? 如果測驗分數(shù)是可信的,下一個問題就是這些分數(shù)是否有效或者是否正確妙色,基于這些測驗分數(shù)所得出的判斷或決策是不是有效的桅滋。為了實現(xiàn)有效性,基于測驗進行的決策和推論應(yīng)該有證據(jù)支持身辨。這就意味著效度與某個特殊的用途或目的有關(guān)丐谋,即跟實際做出的決定或該決定的證據(jù)有關(guān)。一個特定的測驗對于某個目的可能是有效的煌珊,而對于另一個目的可能就沒有效了号俐。
? ? ? 我們有不同的證據(jù)來檢驗一個具體的判斷。如果測驗?zāi)康氖菫榱藴y量一門課程或者一個單元的技能定庵,那么我們希望看到試卷覆蓋了這些章節(jié)重要的主題吏饿。這樣的話,我們就有了內(nèi)容效度的證據(jù)蔬浙。在你所參加的測驗中猪落,是否遇到過有的試卷上只包含了課程的少部分內(nèi)容的情況?如果是這樣的話,基于那次測驗所做的決策當(dāng)然就缺乏內(nèi)容效度的證據(jù)了畴博。
? ? ? ? 更多的標(biāo)準(zhǔn)化測驗一些心理特征或“構(gòu)念”笨忌,比如推理能力,閱讀理解俱病、成就動機蜜唾、智力、創(chuàng)造力等庶艾。雖然收集構(gòu)念效度的證據(jù)比較困難袁余,但是構(gòu)念效度非常重要——也許是最重要的。構(gòu)念效度證據(jù)的收集需要幾年的時間咱揍,它往往通過一些分數(shù)模式進行說明颖榜。比如歲數(shù)較大的孩子比歲數(shù)較小的孩子在智力測驗上能夠回答更多的問題。這這與我們的智力結(jié)構(gòu)是一致的。如果5歲的孩子和13歲的孩子在一個測驗上回答正確的問題同樣多掩完,我們就應(yīng)該懷疑這個測驗是否真的測量了智力噪漾。如果一個測驗的結(jié)果與另一個已被人們接受的同樣結(jié)構(gòu)的測驗結(jié)果相關(guān),也證明該測驗具有構(gòu)念效度且蓬。
? ? ? ? 一個測驗要有效欣硼,首先必須是可信的。比如恶阴,在幾個月中對同一個小孩進行兩次智力測試诈胜,兩次測量的結(jié)果不同,那么這個測量結(jié)果就是不可信的冯事。當(dāng)然了焦匈,這也肯定不會是有效的智力測量方式,因為智力被假設(shè)是很穩(wěn)定的昵仅,至少在一小段時間內(nèi)具有穩(wěn)定性缓熟。然而,信度高并不能保證效度高摔笤。如果對于一一個特殊的孩子够滑,這個智力測驗每次都給出了同樣的分數(shù),但是這個分數(shù)不能預(yù)測學(xué)校的成績吕世、學(xué)習(xí)速度或其他些與智力相關(guān)的特征彰触,那么這個測驗結(jié)果就不是智力的真實表現(xiàn)。所以說寞冯,這個測驗是可信的,但不是有效的晚伙。信度和效度是所有評估過程都需要考慮的問題吮龄,而不僅僅限于標(biāo)準(zhǔn)化測驗。課堂測驗也應(yīng)該有可信的結(jié)果咆疗,需要盡可能地減少誤差漓帚,同時也應(yīng)該有效度,即準(zhǔn)確地測量到了需要測量的內(nèi)容午磁。