此前文獻以討論讀后續(xù)寫功效為主依鸥,2013年這篇論文指向的是“讀后續(xù)寫”進入語言測試的可能性。
這讓我想起上周金老師的導(dǎo)師Professor David Coniam做的講座,介紹香港英語測試30年過程變化。本論文引言部分有句話:語言測試的歷史可以說是一部題型變更發(fā)展史。某時期某一題型的使用總有時髦理論的影子亲铡,反映人們對語言、語言學(xué)習(xí)、心理測量、教育心理等理論的當下認識知允,認識的深化通常帶來題型的更替。
全文基于一項測試虫溜,對其展開效度敦姻、信度取證分析犬绒。
測評項目:評分信度咐鹤、評分量表捧请、題型難度和共時效度 concurrent validity
測試對象:四個班高中學(xué)生 完成一個閱讀+寫作的英語測試,寫作包括兩項:讀后續(xù)寫+命題作文末盔。讀后續(xù)寫分兩種ab卷,a卷無段首句,b卷有段首句。
為檢驗有效性欣范,該試驗請其中一個班的英語老師為學(xué)生英語水平排名妨蛹,當作參考數(shù)據(jù)表窘。
數(shù)據(jù)分析工具:Rasch 模型+ SPSS (這一部分已經(jīng)開始看不懂了甜滨。既琴。甫恩。)
數(shù)據(jù)一:總體評分信度
sass 兩位評分員打分內(nèi)部一致性較高松靡,評分顯著相關(guān)
Rasch 兩位評分員打分內(nèi)部一致性較好
數(shù)據(jù)二:讀后續(xù)寫評分信度
Rasch模型?
評分員信度 與模擬的擬和度較好
數(shù)據(jù)三:評分量表
量表各檔次對續(xù)寫要求有具體描述屠列,涵蓋四方面:內(nèi)容、結(jié)構(gòu)枫吧、語言準確性和語言豐富性镰禾。
Rasch模型結(jié)果。檢驗評分量表的一個指標:平均能力度量值唱逢。能力強的考生得高分吴侦,能力弱的考生得低分。本研究數(shù)據(jù)結(jié)果坞古,總體趨勢能力度量值從低到高遞增备韧,只有在得11分、15分的考生痪枫,能力度量值低于前面的值织堂。
從結(jié)果來看,15個等級的評分量表听怕,劃分過細偏多捧挺,多個等級之間區(qū)分不明顯,影響評分質(zhì)量
數(shù)據(jù)四:讀后續(xù)寫的難度
讀后續(xù)學(xué)有段首句的最難尿瞭,無段首句的其次闽烙,命題作文最低。
數(shù)據(jù)五:讀后續(xù)寫的共時效度
與英語老師給出的英語水平排名表做相關(guān)分析声搁,有顯著意義黑竞,共時效度良好。
結(jié)論:
效度疏旨、信度都ok
個人感悟:
本研究要求對數(shù)據(jù)統(tǒng)計工具非常熟悉很魂,看完這篇意識到自己這方面還是最大的缺陷,最大的問題是檐涝,我還沒明白這些統(tǒng)計的目的遏匆、意義法挨。但其中有關(guān)評分角度的分項,值得借鑒幅聘。我正在準備的讀后續(xù)寫寫作策略研究凡纳,正處在不知道如何分析語料的分叉口,亟待找到一個分析方向帝蒿,著手操作荐糜。