下載地址
論文地址
Crowdsourcing multiple choice science questions
數(shù)據(jù)集說明
簡要介紹
該數(shù)據(jù)集是一個高質(zhì)量的、科學(xué)領(lǐng)域的多項(xiàng)選擇數(shù)據(jù)集停蕉,由人工構(gòu)造,共包含13,679 個多項(xiàng)選擇題。
構(gòu)建方式
1.選擇該領(lǐng)域的教材作為原始資源
2.使用基于規(guī)則的方法,從教材中選擇適合生成合理問題的片段
3.提供3個過濾出的片段供每個參與者選擇/全不選擇
4.定義期望的和不期望的問題示例供參考
5.一個參與者根據(jù)提供的片段問問題,并提供正確答案
6.訓(xùn)練模型從一個大集合中預(yù)測出的6個干擾選項(xiàng)
7.另一個參與者從6個干擾選項(xiàng)中最多選擇2個使用
8.自己再想一個構(gòu)成最終的3個干擾選項(xiàng)
數(shù)據(jù)示例
其中按灶,support為回答該問題所需的外部知識。
數(shù)據(jù)集使用方式
版本1:用作多項(xiàng)選擇題筐咧。(此時無需使用support鸯旁,因?yàn)槿羰褂胹upport噪矛,對于問題來說答案就顯而易見了。)
我們也可以看到铺罢,該數(shù)據(jù)集中數(shù)據(jù)基本都是常識類問題艇挨,若有背景知識,無需support也可回答問題韭赘。
另雷袋,也有使用該數(shù)據(jù)集進(jìn)行外部知識使用研究的,如論文 What Does My QA Model Know? Devising Controlled Probes using Expert Knowledge
版本2:用作問答題辞居。此時數(shù)據(jù)集僅包含support和question
數(shù)據(jù)質(zhì)量
論文中提出使用了盲測評估數(shù)據(jù)的質(zhì)量楷怒,隨機(jī)了100個人工問題和100個數(shù)據(jù)集中問題,人工區(qū)分瓦灶,發(fā)現(xiàn)55%的數(shù)據(jù)集中問題被識別出來鸠删,說明該數(shù)據(jù)集的質(zhì)量接近純?nèi)斯?shù)據(jù)質(zhì)量。
相關(guān)實(shí)驗(yàn)
1.使用該數(shù)據(jù)集進(jìn)行閱讀理解贼陶、問答題實(shí)驗(yàn)刃泡,說明了該數(shù)據(jù)集可用于進(jìn)行相關(guān)的研究。
2.使用SciQ進(jìn)行真實(shí)科學(xué)問題回答時碉怔,效果如下:
上述實(shí)驗(yàn)結(jié)論表明烘贴,SciQ的問題分布與真實(shí)科學(xué)問題是相似的。
有趣的結(jié)論
標(biāo)注數(shù)據(jù)中撮胧,干擾選項(xiàng)來自模型提供的6個候選的比例為36.1%(最高為66%桨踪,因?yàn)橄拗屏俗疃嘀荒苓x2個),在短答案上這個比例會更高芹啥、長答案上會更低一些锻离,說明該模型產(chǎn)生的候選干擾選項(xiàng)效果還不錯,后續(xù)進(jìn)行干擾選項(xiàng)生成或評估可以參考該方法墓怀。