大規(guī)模開放在線學(xué)習(xí)學(xué)生互評效果實證研究
2017-03-08 MOOC
本文由《開放教育研究》雜志授權(quán)發(fā)布
作者:羅恒界睁、左明章、安東尼?魯賓遜
摘要
學(xué)生互評能夠有效彌補教師評閱和機器評分的局限耕陷,是適用于大規(guī)模開放在線學(xué)習(xí)情境的重要評價模式。然而,現(xiàn)階段對在線互評模式的準確性和有效性尚缺少基于實證的系統(tǒng)研究】窘福基于此讼积,本文通過對一門大規(guī)模開放在線課程(MOOC)的學(xué)生互評、自評和教師評分等數(shù)據(jù)的比較鸽凶,得出在線互評模式的信度币砂、效度、影響因素和學(xué)生認可度等初步結(jié)論玻侥。研究結(jié)果表明,盡管互評模式的評分者間信度并不理想亿蒸,但綜合考量多個評分結(jié)果的前提下凑兰,該模式能夠為在線學(xué)習(xí)者提供較為一致可靠的最終得分。學(xué)生互評結(jié)果和教師評分結(jié)果的相關(guān)性系數(shù)高達0.619表明边锁,該模式同時具有較好的聚合效度姑食。此外,對課后問卷的統(tǒng)計分析表明茅坛,在線學(xué)習(xí)者對互評模式總體持積極態(tài)度音半,認可互評活動對反饋獲得、課程投入和高階思維培養(yǎng)等的有益影響贡蓖。這些發(fā)現(xiàn)和結(jié)論對完善和改進面向大規(guī)模開放在線學(xué)習(xí)的評價模式有一定的指導(dǎo)意義曹鸠。
關(guān)鍵詞:學(xué)生互評;評分者間信度斥铺;聚合效度彻桃;大規(guī)模開放在線學(xué)習(xí)
一、引言
《2015年中國互聯(lián)網(wǎng)年度熱點洞察報告》顯示晾蜘,我國在線教育市場規(guī)模2015年達到1192億元邻眷,用戶達到7227萬人,涵蓋高等教育剔交、中小學(xué)教育肆饶、職業(yè)培訓(xùn)及學(xué)前教育等領(lǐng)域。然而岖常,在線教育迅速發(fā)展的背后亦伴隨著對其教學(xué)質(zhì)量的質(zhì)疑驯镊。其中比較突出的一個問題是其“教-學(xué)-評”體系的不完善:現(xiàn)階段尚缺少針對大規(guī)模在線學(xué)習(xí)活動的合理有效的評價模式和機制(Kauza,2014腥椒;Piech et al.阿宅,2013)。以大規(guī)模開放在線課程為例笼蛛,龐大的學(xué)生規(guī)模使授課教師沒有足夠時間和精力批改每份作業(yè)洒放,而機器評分又不適用于評估復(fù)雜的學(xué)習(xí)成果,如項目設(shè)計滨砍、藝術(shù)作品及論文報告等(高地往湿,2014妖异;熊瑤等,2016)领追。在線評價機制的局限性導(dǎo)致大量在線課堂重教學(xué)內(nèi)容而輕測評他膳,學(xué)習(xí)活動被簡化為單向的信息接收而缺乏雙向?qū)崟r的反饋與評價,嚴重影響了在線教育的教學(xué)效果和社會認可度(顧小清等绒窑,2013棕孙;康葉欽,2014些膨;Mehaffy蟀俊,2012)。
為解決在線教學(xué)規(guī)亩┪恚化所帶來的評價難問題肢预,Coursera平臺于2012年推出定標同伴評估(Calibrated Peer Review,簡寫為CPR)模式洼哎。該模式將傳統(tǒng)課堂內(nèi)教師負責(zé)的評價活動眾包給廣大在線學(xué)習(xí)者烫映,引導(dǎo)學(xué)生使用預(yù)先設(shè)定的評分標準為彼此的作業(yè)進行打分和提供反饋,旨在盡可能減少教師參與的同時最大程度地提高在線評價的準確性噩峦、有效性和及時性锭沟。然而,當(dāng)前針對這一互評模式的實證研究還比較匱乏壕探,對開放在線教學(xué)環(huán)境中學(xué)生互評活動的信度冈钦、效度和優(yōu)缺點尚缺少系統(tǒng)論證。因此李请,本研究依據(jù)在Coursera平臺上的MOOC的教學(xué)經(jīng)驗和收集的學(xué)習(xí)數(shù)據(jù)瞧筛,考察學(xué)生從設(shè)計到實施互評活動的全過程,并分析他們的評分數(shù)據(jù)和反饋結(jié)果导盅,系統(tǒng)檢驗學(xué)生互評在大規(guī)模開放在線學(xué)習(xí)中的實際效果以及相關(guān)影響因素较幌。具體來說,本研究旨在回答以下三個問題:
1)學(xué)生互評能否為大規(guī)模開放在線學(xué)習(xí)情境提供可靠有效的評價手段白翻?
2)哪些潛在因素影響該情境下學(xué)生互評的信度與效度乍炉?
3)學(xué)生互評為大規(guī)模開放在線學(xué)習(xí)帶來哪些潛在的益處和問題?
二滤馍、相關(guān)文獻研究
(一)學(xué)生互評概述
學(xué)生互評筷畦,也稱同伴互評考赛,其核心是組織學(xué)習(xí)者對能力相當(dāng)?shù)钠渌麑W(xué)習(xí)者的學(xué)習(xí)作品或表現(xiàn)進行水平嘉裤、價值或質(zhì)量的考量和判定(Topping犹芹,2009)「蟀互評結(jié)果通常是量化的評定得分困檩,有時也以文字評價的形式呈現(xiàn)祠挫。在很多情況下,互評結(jié)果包括上述兩種形式悼沿,是它們的有機結(jié)合(Lu & Law等舔,2012;Strijbos et al.糟趾,2010)慌植。學(xué)生互評作為一種學(xué)習(xí)評價方式有著悠久的歷史,被廣泛應(yīng)用于自然科學(xué)(Bilington拉讯,1997涤浇;Butcher et al.,1995)魔慷、社會科學(xué)(Falchikov,1994著恩;Orpen院尔,1982)、醫(yī)學(xué)(Hammond & Kern喉誊,1959邀摆;Magin,1993)伍茄、商學(xué)(Freeman栋盹,1995;Kaimann敷矫,1974)例获、二語習(xí)得(鄧酈鳴等,2010曹仗;韓冰榨汤,2009)和工程技術(shù)學(xué)科(Fry,1990怎茫;Oldfield & Macclpine收壕,1995)等多個學(xué)科領(lǐng)域。
學(xué)生互評將教師從繁重的審閱任務(wù)中解放出來轨蛤,極大地減輕了教學(xué)工作量蜜宪。此外,文獻研究表明互評活動本身也能促進學(xué)習(xí)的發(fā)生祥山,為學(xué)生帶來許多潛在的益處圃验,如學(xué)習(xí)的主人翁精神和自治精神(Brown et al.,1995枪蘑;Race损谦,1998)岖免,更高的學(xué)習(xí)動機(Vu & Dall'Alba,2007)照捡,更強的社交存在感(Strijbos & Sluijsmans颅湘,2010)以及高階思維和兀認知能力的發(fā)展等(Mok,2011栗精;Topping闯参,2009;Wen et al.悲立,2006)鹿寨。然而,這些潛在益處不能完全說服師生在教學(xué)過程中將互評作為主要評價方式(Cho et al.薪夕,2006脚草;Magin,2001原献;Stefani馏慨,1994),對學(xué)生能力的不自信而導(dǎo)致的對互評結(jié)果信效度的質(zhì)疑是該模式受阻的主要原因(Falchikov & Goldfinch姑隅,2000写隶;McGarr & Clifford,2013)讲仰。
(二)學(xué)生互評的信度與效度
學(xué)生互評模式的信度與效度文獻研究主要集中在傳統(tǒng)面授課堂教學(xué)慕趴,鮮有針對自主在線學(xué)習(xí)情境的探索(Cho et al.,2006鄙陡;Falchikov & Goldfinch冕房,2000;Zhang et al.柔吼,2008)毒费。互評結(jié)果的信度一般由不同評分者對同一作業(yè)的評分一致性判定愈魏∶俨#互評結(jié)果的效度通常通過計算學(xué)生打分結(jié)果和專家打分結(jié)果的相關(guān)性系數(shù)得來,相關(guān)系數(shù)越高培漏,證明互評結(jié)果的效度越高溪厘。一般認為,任課教師對授課內(nèi)容有著深入了解牌柄,能夠?qū)W(xué)生的表現(xiàn)或作業(yè)給出準確畸悬、公正的分數(shù)和評價,因而文獻中專家角色幾乎都由任課老師擔(dān)任珊佣。換言之蹋宦,文獻中討論的學(xué)生互評信度和效度也可以看成學(xué)生評分者間信度以及“教師-學(xué)生”評分結(jié)果的聚合效度披粟。
很多研究揭示了學(xué)生評分結(jié)果和教師評分結(jié)果之間具有較強的正相關(guān)性,由此可以證明學(xué)生的專業(yè)知識水平雖然不如教師冷冗,但是基于多個學(xué)生互評的最終分數(shù)具有較高的效度守屉,因而有相當(dāng)?shù)膮⒖純r值。例如蒿辙,法契科夫和戈德芬奇(Falchikov & Goldfinch拇泛,2000)曾對1959年至1999年間發(fā)表的56項關(guān)于學(xué)生互評的量化研究進行薈萃分析,發(fā)現(xiàn)學(xué)生評分結(jié)果和教師評分結(jié)果顯著強相關(guān)(r=0.69)思灌。也有學(xué)者針對在線教學(xué)(Bouzidi & Jaillet俺叭,2009)和中學(xué)教育(Sadler & Good,2006)情境下的學(xué)生互評效度進行研究并得出了相同結(jié)論:學(xué)生互評在以上兩種教學(xué)情境中都有極高的效度泰偿,與教師評分的相關(guān)系數(shù)分別介于r=0.88-0.91和r=0.91-0.94之間熄守。當(dāng)然,我們也注意到少數(shù)文獻報告了學(xué)生互評模式低效度的證據(jù)耗跛,在一些教學(xué)事件中學(xué)生評分結(jié)果和教師評分結(jié)果分歧較大(Cheng & Warren柠横,1999;Korman & Stubblefield课兄,1971;Mowl & Pain晨继,1995)烟阐。
與互評效度方面已有大量文獻不同,互評信度方面的研究相對匱乏紊扬,研究者很少關(guān)注互評結(jié)果背后學(xué)生打分一致性問題蜒茄。對互評信度的忽視將直接影響對其效度的判定,因為一個高效度的評測方法也應(yīng)該是穩(wěn)定餐屎、一致與可靠的檀葛,必須同時滿足較高的聚合效度和評分者間信度兩個條件(Gay & Airasian,2003)腹缩。值得注意的是屿聋,一些研究混淆了信度和效度概念,對統(tǒng)計分析結(jié)果做出了錯誤解讀(Topping藏鹊,2009)润讥。根據(jù)學(xué)生互評模式中評分者數(shù)目、評分者選擇方式不同等盘寡,文獻中給出了不同的計算互評信度的統(tǒng)計分析方法楚殿,如采用皮爾遜相關(guān)系數(shù)(Haaga,1993)竿痰、比例方差(Marcoulides & Simkin脆粥,1995)和組間相關(guān)系數(shù)(Cho et al.砌溺,2006;Miller变隔,2003)等规伐。相關(guān)統(tǒng)計結(jié)果總體表明學(xué)生評分者在互評任務(wù)中能夠給出較為一致和可靠的分數(shù)。但如果要對學(xué)生互評的信度做出更肯定和普遍的推論還需要更多來自不同教學(xué)情境的實證研究證據(jù)弟胀。
一些學(xué)者著重考察了影響學(xué)生互評信效度的因素楷力。例如,法契科夫和戈德芬奇(2000)研究發(fā)現(xiàn)孵户,學(xué)生使用復(fù)合分數(shù)按照預(yù)先指定標準對學(xué)術(shù)作品進行互評得到的評分結(jié)果更接近教師的評分結(jié)果萧朝,進而將“分數(shù)結(jié)構(gòu)”“作業(yè)類型”“評分標準”確定為影響互評信度的重要因素。此外夏哭,“評分者的數(shù)目”也是影響互評分數(shù)信效度的重要因素检柬。趙光洙等(Cho et al.,2006)發(fā)現(xiàn)竖配,每增加一個學(xué)生參與作業(yè)評分都將顯著提升評分結(jié)果的信效度何址。另一方面,一些通常被認為會影響學(xué)習(xí)評價的因素进胯,如學(xué)科領(lǐng)域用爪、課程難度和學(xué)生態(tài)度,則被證實對互評信效度的影響十分有限(Falchikov & Goldfinch胁镐,2000偎血;McGarr & Clifford,2013)盯漂。
綜上所述颇玷,相關(guān)文獻研究從總體上支持學(xué)生互評的有效性和合理性,并指出一系列可能影響互評結(jié)果信效度的潛在因素就缆。然而帖渠,我們應(yīng)該看到這些研究大多基于大學(xué)面授學(xué)分制課程的教學(xué)情境,這種情境具有學(xué)生人數(shù)少竭宰、構(gòu)成相對同質(zhì)空郊、教師能夠全程監(jiān)控指導(dǎo)等特征。相關(guān)研究發(fā)現(xiàn)是否適用于學(xué)生人數(shù)規(guī)男哐樱化渣淳、組成成分多元化的大規(guī)模開放在線學(xué)習(xí)情境尚不可知,亟待進一步檢驗與探索伴箩。
(三)來自MOOC的證據(jù)
基于眾包概念的定標同伴評估(Calibrated Peer Review)在Coursera平臺上一經(jīng)推出入愧,就吸引了不少教師、學(xué)生、學(xué)者和媒體的注意:不少人從教師或?qū)W生角度描述了MOOC課堂中使用學(xué)生互評的教學(xué)體驗棺蛛;在熱門媒體網(wǎng)站和個人博客上關(guān)于學(xué)生互評的有效性怔蚌、優(yōu)越性和局限性的討論也是持續(xù)不斷、逐步升溫(McEwen旁赊,2013桦踊;Morrison,2013终畅;Neidlinger籍胯,2013;Rees离福,2013杖狼;Watters,2012)妖爷〉總之,關(guān)于學(xué)生互評這種評價模式絮识,人們的看法分歧較大绿聘。例如,里斯(Rees次舌,2013)描述了她在一門世界歷史MOOC的學(xué)習(xí)體驗熄攘,認可為自己作業(yè)評分同學(xué)的專業(yè)與客觀,并承認自己認真努力完成的作業(yè)往往能夠獲得更高分數(shù)彼念。奈德林格(Neidlinger鲜屏,2013)則道出了很多MOOC學(xué)生對互評結(jié)果的不滿,認為有相當(dāng)一部分上課的學(xué)生并不具備評判作業(yè)質(zhì)量的資格国拇,且很多人評分只憑個人喜好而沒有參考教師給出的評分標準。麥克尤恩(McEwen惯殊,2013)和沃特斯(Watters酱吝,2012)進一步指出在MOOC中使用學(xué)生互評的一些潛在問題,如反饋質(zhì)量參差不齊土思、缺少互惠感和社區(qū)存在感务热,以及質(zhì)量監(jiān)控與調(diào)控的缺失等。當(dāng)然己儒,這些關(guān)于MOOC環(huán)境中學(xué)生互評效果的論斷很多都是主觀感受崎岂,沒有經(jīng)過實證研究驗證。同時闪湾,基于實際MOOC評測數(shù)據(jù)而得出學(xué)生互評效果的研究十分匱乏冲甘。
三、研究方法
(一)研究情境
本研究收集和分析的數(shù)據(jù)來自于Coursera平臺上的MOOC“地圖與地理空間革命”(www.coursera.org/course/maps)。該課程是美國賓夕法尼亞州立大學(xué)2013年開設(shè)的一門為期五周的地圖繪制和地理空間分析入門課程江醇。本文第三作者安東尼?魯賓遜是該課程的主講老師濒憋,第一作者羅恒參與了課程設(shè)計和實施過程。48984名學(xué)生注冊這門課程陶夜,但最后一周仍活躍的學(xué)生只有8707人凛驮。根據(jù)7551名學(xué)生在課程結(jié)束之后填報的人口特征數(shù)據(jù)顯示:選修該課程的大部分是男生,女生只占30%左右条辟;約61%的學(xué)生是全職工作時間之余學(xué)習(xí)課程黔夭;學(xué)生平均年齡是36.5歲;超過80%的學(xué)生有本科或以上學(xué)歷羽嫡,其中最高學(xué)歷為本科的占33.8%本姥,研究生占39.1%,博士生占8%厂僧;30%左右的學(xué)生來自美國扣草,其余學(xué)生來自世界各國,以歐洲和東南亞地區(qū)居多颜屠。3064名學(xué)生通過了該課程考核辰妙,其中1211人獲優(yōu)秀。
課程教師只在最后一周布置一次開放性作業(yè)甫窟,相應(yīng)只有一次學(xué)生互評活動密浑。期末作業(yè)要求每個學(xué)生自選一種地圖繪制的工具或平臺(如ArcGIS Online、QGIS粗井、和GRASS)尔破,任選一個話題并設(shè)計和繪制一幅地圖講訴一個和生活切身相關(guān)的故事。主題可以是最近的一次旅行路線浇衬、家鄉(xiāng)最棒餐館的分布圖或者某區(qū)域數(shù)年來經(jīng)濟文化的演變等懒构。作業(yè)成績占課程總分的20%,學(xué)生將根據(jù)教師撰寫的評價量規(guī)從四個維度對上交的地圖作品進行評分耘擂,包括展示清晰度胆剧、故事可信度、制圖水平(如顏色醉冤、符號的使用和布局等)和設(shè)計美觀度秩霍,每個維度得分從低到高為0分到3分∫涎簦互評作業(yè)的總分為四個維度得分的總合铃绒,即在0分和12分之間。課程要求每位學(xué)生至少評價三份其他同學(xué)上交的作業(yè)螺捐。這些作業(yè)由Coursera平臺隨機分配給不同學(xué)生評分者颠悬。同時矮燎,每位學(xué)生也需對自己上交的作業(yè)進行自評。值得注意的是椿疗,Coursera平臺為了應(yīng)對極值分數(shù)漏峰,選擇使用學(xué)生評分結(jié)果的中值(median)而不是平均值(mean)作為最終的互評分數(shù)。
(二)數(shù)據(jù)收集
本研究共收集了三類數(shù)據(jù)届榄。第一類數(shù)據(jù)是MOOC學(xué)生針對開放性作業(yè)的互評和自評數(shù)據(jù)浅乔。該數(shù)據(jù)儲存在Coursera平臺后臺數(shù)據(jù)庫的submission_metadata部分:作業(yè)編號和最終互評分數(shù)存儲在overall_evaluation_metadata中,單個學(xué)生評分者的評分結(jié)果儲存在evaluation_metadata中铝条,學(xué)生的自評分數(shù)存儲在self_grading_metadata中靖苇。Coursera平臺設(shè)置最多的評分者人數(shù)是5人。本研究中共1825份作業(yè)獲得了5位評分者的評分班缰,從而被選中進行后續(xù)的信效度分析贤壁。缺失評分數(shù)據(jù)的作業(yè)共有919份,這些作業(yè)被排除在數(shù)據(jù)分析之外埠忘。關(guān)于作業(yè)的最終互評分數(shù)脾拆,除了使用Coursera平臺提供的基于中值的判定,本研究同時將各個學(xué)生評分的平均值作為最終結(jié)果莹妒。
第二類數(shù)據(jù)是教師對開放性作業(yè)的評分數(shù)據(jù)名船。考慮到教師評分工作量旨怠,本研究從1825份作業(yè)中隨機選擇了5%(N=93)并請課程主講教師進行批改渠驼。通過作業(yè)的編號,教師可以在后臺數(shù)據(jù)庫中訪問學(xué)生提交的作業(yè)原件鉴腻,并按照相同的評價量規(guī)進行評分迷扇,包括作業(yè)的總分和四項標準的得分。因此爽哎,每份作業(yè)包含以下評價數(shù)據(jù):5位學(xué)生評分者的評分結(jié)果蜓席、基于中值的最終互評分數(shù)、基于平均值的最終互評分數(shù)课锌、教師評分結(jié)果和自評結(jié)果(見圖1)瓮床。
第三類數(shù)據(jù)是學(xué)生對互評活動的態(tài)度。學(xué)生在課程結(jié)束后填寫了MOOC學(xué)習(xí)體驗自我評價問卷产镐,其中有7道題是關(guān)于課程中的互評活動的,收集學(xué)生對互評活動的公正性踢步、有效性和潛在益處的看法癣亚。考慮到從Coursera后臺數(shù)據(jù)庫提取問卷數(shù)據(jù)的復(fù)雜性获印,本研究沒有采用平臺自帶的問卷工具述雾,而是使用第三方問卷收集工具——Qualtrics,通過學(xué)生編號將Coursera平臺上學(xué)生的學(xué)習(xí)數(shù)據(jù)和相應(yīng)的學(xué)生問卷數(shù)據(jù)聯(lián)結(jié)起來。
(三)數(shù)據(jù)分析
本研究中學(xué)生互評信度本質(zhì)上是評分者間信度玻孟,測量的是不同學(xué)生評分者對同一評價任務(wù)評分結(jié)果的總體一致性唆缴。因為作業(yè)是隨機分配給特定學(xué)生總體中的五位評分者,針對該評分機制黍翎,本研究選擇了第一類組內(nèi)相關(guān)系數(shù)(Case 1 Intraclass Correlation Coefficient面徽,簡稱ICC[1])作為評分者間信度的估算方法。在該估算方法中匣掸,學(xué)生評分的差異及其交互作用被判定為測量誤差趟紊。在SPSS統(tǒng)計分析軟件中,ICC[1]的計算通過可靠性分析模塊中的單項隨機組內(nèi)相關(guān)系數(shù)計算功能實現(xiàn)碰酝。
學(xué)生互評效度的測量采用的是聚合效度霎匈,由學(xué)生互評得分和教師評分的相似度來判定,在統(tǒng)計分析中通過皮爾遜積矩相關(guān)系數(shù)(Pearson product-moment correlation coefficient)估算送爸,通過SPSS統(tǒng)計分析軟件中的皮爾遜雙側(cè)檢驗相關(guān)系數(shù)計算功能實現(xiàn)铛嘱。本研究同時計算了基于中值和平均值的兩種互評分數(shù)結(jié)果與教師評分結(jié)果的相關(guān)系數(shù),由此比較不同互評分數(shù)統(tǒng)分計算方法的優(yōu)劣袭厂。
本研究將學(xué)生的問卷數(shù)據(jù)從Qualtrics問卷平臺下載后輸入SPSS軟件進行描述性分析墨吓,通過對7道問題得分的均值、頻率和百分比的統(tǒng)計分析嵌器,可以從總體上把握學(xué)生對大規(guī)模開放在線學(xué)習(xí)環(huán)境中互評活動的態(tài)度肛真,檢驗他們對互評活動潛在益處,如學(xué)習(xí)動機爽航、社交存在感和高階思維培養(yǎng)的認可度蚓让。
四、研究結(jié)果
(一)在線互評總分具備較高信度
本研究通過計算學(xué)生評分的第一類組內(nèi)相關(guān)系數(shù)(ICC[1])測定在線互評得分的評分者間信度讥珍,相應(yīng)的統(tǒng)計分析結(jié)果如表一所示历极。單個測量的ICC[1]系數(shù)反映了五個隨機選擇學(xué)生評分者對同一作業(yè)的評分一致性。該系數(shù)值為0.262衷佃,表明單個學(xué)生對同一作業(yè)評分結(jié)果波動較大趟卸,評分者間信度較低,評分不可靠氏义。但相對于單個測量锄列,平均測量的ICC[1]系數(shù)達到了0.64,具備了較高的評測信度惯悠。該結(jié)果表明邻邮,如果互評分數(shù)不使用單個學(xué)生評分而是綜合考量五個評分數(shù)據(jù),如采用五個學(xué)生評分的均值克婶,互評結(jié)果的可靠性將得到顯著提升筒严。通過針對5位評分者和4個評分標準的嵌套交叉隨機情景分析丹泉,我們發(fā)現(xiàn)互評結(jié)果的概化系數(shù)(generalizability coefficient)維持0.64不變,測量標準誤差僅發(fā)生了細微改變(從0.272變到0.276)鸭蛙。該結(jié)果表明摹恨,互評誤差來源主要來自評分者本身,通過修改評價量表和評分標準并不能進一步提高評分的信度娶视。
本研究分別計算了使用2至5位學(xué)生評分者得到的互評結(jié)果的ICC[1]系數(shù)(見表二)晒哄,旨在探究評分者人數(shù)對互評分數(shù)信度的影響,并確定最佳評分者人數(shù)歇万。這一結(jié)果與趙光洙等(Cho et al.揩晴,2006)的研究發(fā)現(xiàn)一致,評分者人數(shù)對互評結(jié)果的平均測量ICC[1]系數(shù)有較大影響贪磺,評分者人數(shù)的增加能大幅提升互評結(jié)果的可靠性硫兰。ICC[1]系數(shù)在0.4-0.7之間通常被認為具備了中等評分者間信度(Dancey & Reidy,2002)寒锚,因此根據(jù)表二結(jié)果可以推斷出劫映,要使互評結(jié)果具備可接受的信度,至少需要三個學(xué)生評分者(ICC[1]>0.4)刹前,而僅僅基于兩個評分者判分的互評結(jié)果相對不可靠泳赋。
(二)在線互評效度令人滿意
Coursera平臺給出的基于中值的學(xué)生互評分數(shù)與教師評分有較強的正相關(guān)性(r=0.619)(見表三)。該數(shù)據(jù)證明喇喉,Coursera平臺的學(xué)生互評模式能夠提供接近于教師評閱準確度的評分結(jié)果祖今。同時我們發(fā)現(xiàn),如果不使用中值而使用平均值作為學(xué)生互評的最終得分拣技,學(xué)生互評得分與教師得分的相關(guān)性反而會得到小幅提高千诬,盡管提高的程度十分輕微(r=0.669)。事實上膏斤,基于中值和基于平均值的互評分數(shù)本身十分相似徐绑,具有極高的相關(guān)性(r=0.952)。
與學(xué)生互評相比莫辨,學(xué)生自評分數(shù)與教師評分的相關(guān)度較低(r=0.341)傲茄,表明學(xué)生對自己作業(yè)的評價與教師的專業(yè)評判出入較大。因此沮榜,我們認為學(xué)生自評結(jié)果聚合效度較低盘榨,不能成為合格的教師評分替代者。本研究同時考察了不同評分結(jié)果的均值蟆融,研究發(fā)現(xiàn)學(xué)生自評分數(shù)的均值最高(10.02)草巡,教師評分分數(shù)的均值最低(8.68),學(xué)生互評分數(shù)的均值居中(中值分為9.19振愿,平均值分為9.1)捷犹。該結(jié)果表明學(xué)生傾向給自己的作業(yè)更高分數(shù),而相比學(xué)生評分者冕末,教師的評分標準總體上更加嚴苛萍歉。
(三)參與互評活動能提升在線學(xué)習(xí)體驗
表四總結(jié)了學(xué)生參與MOOC課程互評活動的態(tài)度和看法〉堤遥總體來說枪孩,學(xué)生對于互評活動態(tài)度積極,63%的學(xué)生認為參加互評活動有助于實現(xiàn)課程教學(xué)目標藻肄,即對空間思維能力的培養(yǎng)蔑舞,70%的學(xué)生推薦后續(xù)課程繼續(xù)保留互評作業(yè)環(huán)節(jié)。學(xué)生總體上認可互評分數(shù)的公平性(占62%)和他人反饋的價值(占61%)嘹屯。大部分學(xué)生認為參與互評活動提升了自己對課程的投入度(占63%)攻询,并發(fā)展了自己的高階思維能力,如審視與反思(占72%)州弟,這一結(jié)果與已有研究發(fā)現(xiàn)一致钧栖。互評活動對社交存在感的影響在7個選項中得分最低婆翔,僅57%的學(xué)生認為參與互評活動增強了自己在線學(xué)習(xí)與其他同學(xué)的聯(lián)系拯杠。當(dāng)然,我們也注意到?jīng)]有任何一個關(guān)于互評的問卷項獲得了超過80%的積極評價啃奴,證明相當(dāng)比例的學(xué)生對在線互評的效果持保留或否定態(tài)度潭陪。
五、討論與反思
(一)學(xué)生互評能為大規(guī)模開放在線學(xué)習(xí)提供可靠有效的學(xué)習(xí)評價
盡管單個學(xué)生評分者的評分結(jié)果并不可靠最蕾,具有較低的評分者間信度(單個測量ICC[1]=0.262)依溯,然而如果一項作業(yè)的最終互評分數(shù)是多個評分者評分的復(fù)合計算結(jié)果(如中值或均值),學(xué)生互評模式的信度較令人滿意(平均測量ICC[1]=0.64)揖膜。因此誓沸,Coursera平臺使用學(xué)生互評分數(shù)中值的做法值得借鑒,能夠有效減少單個評分結(jié)果一致性低帶來的影響壹粟,大幅提升最終評分結(jié)果的可靠性拜隧。學(xué)生互評分數(shù)與教師評分超過0.6的相關(guān)性系數(shù)證明了互評模式能夠提供接近教師評閱準確度的評分結(jié)果,能為大規(guī)模開放在線學(xué)習(xí)活動提供相對準確有效的評價手段趁仙。相比之下洪添,學(xué)生自評結(jié)果的效度不能令人滿意,與教師評分的差別較大雀费,分數(shù)相對偏高干奢。考慮到學(xué)生在完成作業(yè)時往往已經(jīng)有意或無意的檢查過自己的作業(yè)盏袄,因此再次自評的環(huán)節(jié)并無必要忿峻。
當(dāng)然薄啥,本研究對于學(xué)生互評信效度的支持證據(jù)基于“地圖與地理空間革命”MOOC。該課程的學(xué)生受教育水平相對較高逛尚,80%以上的學(xué)生都具備本科以上學(xué)歷垄惧。考慮到互評作業(yè)在課程最后一周才發(fā)布绰寞,此時還活躍在課程學(xué)習(xí)中的學(xué)生已不到注冊人數(shù)的5%到逊,屬于學(xué)習(xí)投入度高、在線學(xué)習(xí)能力強的學(xué)習(xí)者(Waldrop滤钱,2013觉壶;袁松鶴等,2014)件缸,基于該學(xué)生人群得出的關(guān)于互評信效度的結(jié)論有一定的局限性铜靶。相關(guān)結(jié)論能否適用于知識水平、學(xué)習(xí)能力和學(xué)習(xí)動機差異較大的大規(guī)模在線學(xué)生群體有待進一步研究驗證停团。
(二)影響學(xué)生互評信效度的決定因素是評分者本身
和現(xiàn)有互評文獻的結(jié)論一致旷坦,本研究也揭示了評分者人數(shù)是影響互評信度的重要因素,通過增加評分者人數(shù)就能夠大幅提升互評結(jié)果的可靠性佑稠。而要使在線互評具備最基本的可靠性秒梅,至少要配備三名以上學(xué)生評分者。本研究同時也探索了統(tǒng)分方法對互評效度的影響舌胶,結(jié)果顯示使用個體評分的中值和平均值作為最終分數(shù)對互評效度的影響不大捆蜀。造成該現(xiàn)象的可能原因是學(xué)生評分的極值情況較少,即極少出現(xiàn)全部打最高分或最低分的評分者幔嫂。從統(tǒng)計分析角度辆它,可以使用中值的方法減少極值的不利影響,但更有效的方法可能還是從學(xué)生評分者本身入手履恩,教育他們認真完成互評任務(wù)锰茉,同時建立相應(yīng)的抽檢、追責(zé)和獎懲制度切心。
本研究通過隨機情景分析探索了評測誤差的成因飒筑,結(jié)果顯示誤差來源主要是評分者本身而不是評價量規(guī)或標準。因此绽昏,對學(xué)生評分者進行互評培訓(xùn)和評分校驗尤為重要协屡。Coursera平臺的定標同行評估模式為學(xué)生提供了一種培訓(xùn)和校驗的方式:學(xué)生在接受基本的培訓(xùn)后對數(shù)道樣題進行評分,系統(tǒng)根據(jù)樣題評分的準確性為每位學(xué)生設(shè)置權(quán)重全谤,該權(quán)重決定了該學(xué)生在后續(xù)評分結(jié)果中所占的價值比重肤晓。然而,出于對時間、精力和可操作性的考慮补憾,本研究沒有在MOOC中安排相應(yīng)的培訓(xùn)和校驗步驟漫萄,該步驟對互評信效度的影響有待后續(xù)研究。
(三)學(xué)生總體上認可在線互評的評價模式
盡管不少學(xué)習(xí)者在新聞媒體和社交網(wǎng)站上表達了對大規(guī)模開放在線學(xué)習(xí)情境中使用學(xué)生互評手段的不滿盈匾,并指出對其準確性卷胯、公平性和有效性的擔(dān)憂(McEwen,2013威酒;Morrison,2013挺峡;Neidlinger葵孤,2013;Watters橱赠,2012)尤仍,本研究提供了與媒體輿論相悖的證據(jù)。問卷結(jié)果顯示狭姨,60%以上的MOOC學(xué)習(xí)者認為他們獲得了公正的分數(shù)和有效的評價反饋宰啦,而持反對觀點的學(xué)生不到10%。事實上大部分學(xué)習(xí)者(70%)希望在后續(xù)課程中保留學(xué)生互評的任務(wù)饼拍,僅11%的學(xué)生希望將其移除赡模。對于該現(xiàn)象的一個可能解釋是獲得了糟糕互評體驗的學(xué)生更傾向在媒體上表達自己的不滿,而他們的觀點并不能代表整個在線學(xué)習(xí)者群體师抄。我們也發(fā)現(xiàn)互評模式最被廣泛認可的益處是對高階思維能力漓柑,如審視和反思能力的培養(yǎng)。這一發(fā)現(xiàn)印證了布魯姆(Bloom叨吮,1956)對認知領(lǐng)域?qū)W習(xí)目標的分類理論辆布。學(xué)生互評在認知目標分類中屬于較高層次的認知活動,能夠有效促進在線情境中有意義學(xué)習(xí)的發(fā)生茶鉴。
綜合來看锋玲,本研究基于一門MOOC中互評、自評和教師評分相關(guān)數(shù)據(jù)涵叮,對學(xué)生互評模式的信度惭蹂、效度和相關(guān)影響因素和學(xué)生認可度進行探索與分析。研究結(jié)果表明傳統(tǒng)面授課堂中廣泛使用的學(xué)生互評模式也適用于大規(guī)模開放在線學(xué)習(xí)情境:在綜合考量多名評分者評分結(jié)果的前提下围肥,學(xué)生互評模式能夠為學(xué)習(xí)者提供一個較為一致和可靠的最終得分剿干。學(xué)生互評和教師評分結(jié)果的較高相關(guān)性也表明在線互評模式具備類似教師評閱的準確性。另一方面穆刻,學(xué)習(xí)者對參與互評活動總體上也持積極的態(tài)度置尔,認可互評活動對獲得反饋、課程投入度和高階思維培養(yǎng)等方面的有益影響氢伟。值得注意的是榜轿,因為研究情境和評價數(shù)據(jù)的單一性幽歼,本研究對在線互評模式信效度的相關(guān)推論具有一定的局限性,對于影響互評效果因素的探索也不夠深入谬盐,這些有待進一步探索甸私。
基金項目:2016年度教育部人文社會科學(xué)青年基金項目“面向大規(guī)模在線教育的眾包評測模型研究”(16YJC880054)。
作者簡介:羅恒飞傀,博士皇型,講師,華中師范大學(xué)教育信息技術(shù)學(xué)院砸烦,研究方向:在線教育弃鸦、技術(shù)整合教學(xué)、學(xué)習(xí)評價幢痘;左明章唬格,博士,教授颜说,華中師范大學(xué)教育信息技術(shù)學(xué)院购岗,研究方向:教育數(shù)字媒體、教育技術(shù)理論门粪;安東尼?魯賓遜(Anthony Robinson)喊积,博士,助理教授玄妈,賓夕法尼亞州立大學(xué)主校區(qū)地理系注服,研究方向:地理信息系統(tǒng)、MOOC教學(xué)措近。
轉(zhuǎn)載自:《開放教育研究》第23卷第1期 2017年2月
排版溶弟、插圖來自公眾號:MOOC(微信號:openonline)
慕編組成員:大葉子
產(chǎn)權(quán)及免責(zé)聲明
本文系“MOOC”公號轉(zhuǎn)載、編輯的文章,編輯后增加的插圖均來自于互聯(lián)網(wǎng),對文中觀點保持中立蚀腿,對所包含內(nèi)容的準確性温鸽、可靠性或者完整性不提供任何明示或暗示的保證,不對文章觀點負責(zé),僅作分享之用,文章版權(quán)及插圖屬于原作者。如果分享內(nèi)容侵犯您的版權(quán)或者非授權(quán)發(fā)布碳抄,請及時與我們聯(lián)系,我們會及時內(nèi)審核處理场绿。
了解在線教育剖效,
把握MOOC國際發(fā)展前沿,請關(guān)注:
微信公號:openonline
公號昵稱:MOOC