SciQ數(shù)據(jù)集

下載地址

論文地址

Crowdsourcing multiple choice science questions

數(shù)據(jù)集說明

簡要介紹

該數(shù)據(jù)集是一個高質(zhì)量的、科學(xué)領(lǐng)域的多項(xiàng)選擇數(shù)據(jù)集停蕉，由人工構(gòu)造，共包含13,679 個多項(xiàng)選擇題。

構(gòu)建方式

1.選擇該領(lǐng)域的教材作為原始資源
2.使用基于規(guī)則的方法，從教材中選擇適合生成合理問題的片段
3.提供3個過濾出的片段供每個參與者選擇/全不選擇
4.定義期望的和不期望的問題示例供參考
5.一個參與者根據(jù)提供的片段問問題，并提供正確答案
6.訓(xùn)練模型從一個大集合中預(yù)測出的6個干擾選項(xiàng)
7.另一個參與者從6個干擾選項(xiàng)中最多選擇2個使用
8.自己再想一個構(gòu)成最終的3個干擾選項(xiàng)

數(shù)據(jù)示例

其中按灶，support為回答該問題所需的外部知識。

數(shù)據(jù)集使用方式

版本1：用作多項(xiàng)選擇題筐咧。（此時無需使用support鸯旁，因?yàn)槿羰褂胹upport噪矛，對于問題來說答案就顯而易見了。）
我們也可以看到铺罢，該數(shù)據(jù)集中數(shù)據(jù)基本都是常識類問題艇挨，若有背景知識，無需support也可回答問題韭赘。
另雷袋，也有使用該數(shù)據(jù)集進(jìn)行外部知識使用研究的，如論文 What Does My QA Model Know? Devising Controlled Probes using Expert Knowledge
版本2：用作問答題辞居。此時數(shù)據(jù)集僅包含support和question

數(shù)據(jù)質(zhì)量

論文中提出使用了盲測評估數(shù)據(jù)的質(zhì)量楷怒，隨機(jī)了100個人工問題和100個數(shù)據(jù)集中問題，人工區(qū)分瓦灶，發(fā)現(xiàn)55%的數(shù)據(jù)集中問題被識別出來鸠删，說明該數(shù)據(jù)集的質(zhì)量接近純?nèi)斯?shù)據(jù)質(zhì)量。

有趣的結(jié)論

標(biāo)注數(shù)據(jù)中撮胧，干擾選項(xiàng)來自模型提供的6個候選的比例為36.1%（最高為66%桨踪，因?yàn)橄拗屏俗疃嘀荒苓x2個），在短答案上這個比例會更高芹啥、長答案上會更低一些锻离，說明該模型產(chǎn)生的候選干擾選項(xiàng)效果還不錯，后續(xù)進(jìn)行干擾選項(xiàng)生成或評估可以參考該方法墓怀。

最后編輯于：2020.04.24 11:20:22

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末汽纠，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子傀履，更是在濱河造成了極大的恐慌虱朵，老刑警劉巖，帶你破解...
沈念sama閱讀 222,000評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件钓账，死亡現(xiàn)場離奇詭異碴犬，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)官扣，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,745評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門翅敌，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人惕蹄，你說我怎么就攤上這事蚯涮≈巫ǎ” “怎么了？”我有些...
開封第一講書人閱讀 168,561評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵遭顶，是天一觀的道長张峰。經(jīng)常有香客問我，道長棒旗，這世上最難降的妖魔是什么喘批？我笑而不...
開封第一講書人閱讀 59,782評論 1贊 298
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮铣揉，結(jié)果婚禮上饶深，老公的妹妹穿的比我還像新娘。我一直安慰自己逛拱，他們只是感情好敌厘，可當(dāng)我...
茶點(diǎn)故事閱讀 68,798評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著朽合，像睡著了一般俱两。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上曹步，一...
開封第一講書人閱讀 52,394評論 1贊 310
城市分裂傳說
那天宪彩，我揣著相機(jī)與錄音，去河邊找鬼讲婚。笑死尿孔，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的磺樱。我是一名探鬼主播纳猫，決...
沈念sama閱讀 40,952評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼竹捉！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起尚骄，我...
開封第一講書人閱讀 39,852評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤块差，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后倔丈，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體憨闰，經(jīng)...
沈念sama閱讀 46,409評論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,483評論 3贊 341
?白月光啟示錄
正文我和宋清朗相戀三年需五，在試婚紗的時候發(fā)現(xiàn)自己被綠了鹉动。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,615評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡宏邮，死狀恐怖泽示，靈堂內(nèi)的尸體忽然破棺而出缸血，到底是詐尸還是另有隱情，我是刑警寧澤械筛，帶...
沈念sama閱讀 36,303評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布捎泻，位于F島的核電站，受9級特大地震影響埋哟，放射性物質(zhì)發(fā)生泄漏笆豁。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,979評論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一赤赊、第九天我趴在偏房一處隱蔽的房頂上張望闯狱。院中可真熱鬧，春花似錦抛计、人聲如沸扩氢。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,470評論 0贊 24
一樁弒父案爷辱，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽录豺。三九已至，卻和暖如春饭弓，著一層夾襖步出監(jiān)牢的瞬間双饥，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,571評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工弟断，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留咏花，地道東北人。一個月前我還...
沈念sama閱讀 49,041評論 3贊 377
代替公主和親
正文我出身青樓阀趴，卻偏偏與公主長得像昏翰，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子刘急，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,630評論 2贊 359

SciQ數(shù)據(jù)集

SciQ數(shù)據(jù)集

下載地址

論文地址

數(shù)據(jù)集說明

簡要介紹

構(gòu)建方式

數(shù)據(jù)示例

數(shù)據(jù)集使用方式

數(shù)據(jù)質(zhì)量

相關(guān)實(shí)驗(yàn)

有趣的結(jié)論

推薦閱讀更多精彩內(nèi)容