數(shù)據(jù)集
RACE數(shù)據(jù)集
RACE: Large-scale ReAding Comprehension Dataset From Examinations阱驾,相關(guān)介紹可參考:http://www.reibang.com/p/7040a76d56a7
SciQ數(shù)據(jù)集
Crowdsourcing Multiple Choice Science Questions吉执,相關(guān)介紹可參考:http://www.reibang.com/p/2de4acd1cbf4
論文閱讀
1.Ranking Distractors for Multiple Choice Questions Using Multichannel Semantically Informed CNN-LSTM Networks
1.該文思想是將選項(xiàng)評估問題堪稱推薦系統(tǒng)中的排序問題涕蚤,默認(rèn)題目中正確答案和三個(gè)干擾選項(xiàng)排序應(yīng)在其他候選選項(xiàng)之前,使用排序算法的評估方式p@3乘寒、MAP望众、NDGG、MRR在數(shù)據(jù)集RACE和SciQ上進(jìn)行評估伞辛,兩個(gè)數(shù)據(jù)集P@3最高53%烂翰。
2.論文使用的模型是將問題、準(zhǔn)確答案蚤氏、問題相關(guān)的上下文甘耿、候選干擾選項(xiàng)分別通過CNN和BiLSTM編碼,另外竿滨,對上述四個(gè)元素的詞相似度矩陣使用CNN操作佳恬,得到相似語義模式編碼,并與CNN于游、BiLSTM編碼毁葱,共三個(gè)編碼向量進(jìn)行拼接,后接三個(gè)全連接層贰剥,最終得出各候選干擾項(xiàng)的分?jǐn)?shù)分布進(jìn)行排序倾剿。
2.Automatic Distractor Suggestion for Multiple-Choice Tests Using Concept Embeddings and Information Retrieval(2018 acl)
1.論文提出一種基于醫(yī)學(xué)領(lǐng)域本體UMLS,使用概念向量進(jìn)行語義相似度計(jì)算(候選概念與(正確答案+問題)的相似度)蚌成,獲取top n(文中500)個(gè)候選前痘;使用問題作為搜索詞,使用候選在搜索引擎Lucene中出現(xiàn)的第一篇文章的排序位置為候選進(jìn)行重排序担忧,得到最終top k個(gè)推薦干擾項(xiàng)芹缔。
2.論文通過計(jì)算推薦干擾項(xiàng)在最終真實(shí)干擾項(xiàng)中命中的情況進(jìn)行干擾項(xiàng)生成的自動評估。實(shí)驗(yàn)結(jié)果顯示瓶盛,當(dāng)推薦干擾項(xiàng)為top 20時(shí)乖菱,推薦的干擾項(xiàng)命中實(shí)際干擾項(xiàng)的概率為20%(此處分母為出現(xiàn)在UMLS中的干擾項(xiàng)數(shù))
3.論文提到了另一種干擾項(xiàng)評估思路:使用學(xué)生答題情況來評價(jià)干擾項(xiàng)的質(zhì)量坡锡,如果沒人選的干擾項(xiàng)蓬网,其質(zhì)量就較差
3.Semantic similarity of distractors in multiple-choice tests- extrinsic evaluation(2009 acl)
1.論文使用了幾種干擾項(xiàng)的生成策略(搭配模版窒所、基于wordnet的四種語義相似度計(jì)算方法、分布相似性帆锋、發(fā)音相似性吵取、綜合方法),生成后由老師進(jìn)行修改锯厢,通過學(xué)生的作答情況對題目難度皮官、干擾項(xiàng)的效果進(jìn)行評估。
2.將學(xué)生作答按照高低分分組实辑,高分一組(前三分之一)捺氢,低分一組(后三分之一),對比兩組數(shù)據(jù)的各項(xiàng)指標(biāo)(題目難度剪撬、題目區(qū)分能力摄乒、干擾項(xiàng)的有效性),進(jìn)行生成效果的評估残黑。
3.其中馍佑,干擾項(xiàng)的有效性評估:認(rèn)為好的干擾項(xiàng)應(yīng)該更吸引低分用戶選擇(相對于高分組);如果一個(gè)干擾項(xiàng)更吸引高分組用戶選擇梨水,則被認(rèn)為poor拭荤;如果一個(gè)干擾項(xiàng)無人選擇,則被認(rèn)為not-useful疫诽。實(shí)驗(yàn)結(jié)果表明舅世,混合方案可以達(dá)到最好的效果,有89%的干擾項(xiàng)可以滿足該特性奇徒。
《待擴(kuò)充》