前記
該論文是哈工大發(fā)表的一個(gè)中文問(wèn)答匹配數(shù)據(jù)集的論文,對(duì)于整個(gè)中文問(wèn)答匹配的知識(shí)背景驼修、方法宏所、數(shù)據(jù)集構(gòu)建方式等都有一些描述,該數(shù)據(jù)集被廣泛應(yīng)用在一些中文語(yǔ)義匹配的評(píng)測(cè)中壹堰,比如百度的simNet
鏈接LCQMC
摘要
LCQMC更多的關(guān)注在intent matching(意圖匹配)而不是paraphrase(短語(yǔ))方面拭卿。構(gòu)建的方式是先針對(duì)不同的領(lǐng)域從百度問(wèn)答中抽取高頻的相關(guān)問(wèn)題,然后通過(guò)Wasserstein distance進(jìn)行初步篩選贱纠,最后人工進(jìn)行標(biāo)注峻厚。數(shù)據(jù)集一共有260068對(duì)標(biāo)注結(jié)果,分為三部分并巍,238766訓(xùn)練集目木、8802驗(yàn)證集和12500測(cè)試集。
相關(guān)的工作
Quora 和Microsoft都有相關(guān)的英文的語(yǔ)義匹配基礎(chǔ)測(cè)試集懊渡,在它之上還構(gòu)建了一些更垂直的集合
數(shù)據(jù)構(gòu)建
- 召回:選取了百度問(wèn)答教育刽射、醫(yī)療等的不同領(lǐng)域,每個(gè)領(lǐng)域選擇50個(gè)詞作為初始剃执,去查詢top100頁(yè)的結(jié)果作為初選誓禁。拿回來(lái)的數(shù)據(jù)再進(jìn)行分詞,tf-idf的計(jì)算肾档,去查詢權(quán)重較高的詞的top50頁(yè)的數(shù)據(jù)摹恰,最后生成了500w的初始pair對(duì)。
- 粗排:使用word mover distance(WMD)來(lái)進(jìn)行初始的排查怒见,最終得分0-0.15的太相似了俗慈,0.45-1分的基本不相關(guān),所以從0.15-0.45分鐘選擇了10%來(lái)進(jìn)行人工標(biāo)注
-
標(biāo)注:A paraphrase is a restatement of a text, passage giving the meaning in another form. Though the definition of matching in LCQMC is to some extent similar, it takes the intent of questions into consideration.paraphrase的典型代表是MSRA的數(shù)據(jù)集遣耍,而LCQMC要解決意圖問(wèn)題闺阱。標(biāo)注者會(huì)標(biāo)注三個(gè)等級(jí),1舵变,0和0.5酣溃。一些標(biāo)注有歧義的會(huì)進(jìn)行二次標(biāo)注瘦穆,需要打到2/3的通過(guò)率才算標(biāo)注完。- - 校準(zhǔn):最終的人工標(biāo)注數(shù)據(jù)中赊豌,正樣本和負(fù)樣本的比例是7:3扛或,于是丟棄了一些質(zhì)量低的正樣本,同時(shí)采樣了一些負(fù)樣本基本上讓比例保持1:1
評(píng)估和實(shí)驗(yàn)
- 評(píng)測(cè)指標(biāo)選用了P碘饼、R熙兔、F1和Acc,評(píng)測(cè)方法選用了無(wú)監(jiān)督方法和有監(jiān)督方法派昧。分詞采用的jieba黔姜,計(jì)算距離用的是sklearn,
-
無(wú)監(jiān)督方法包括詞重疊蒂萎、ngram重疊(n=4)秆吵、編輯距離、余弦相似度(if-idf)
有監(jiān)督方法CBOW五慈、CNN纳寂、BiLSTM、BiMPM泻拦,結(jié)果如下毙芜。
討論
抽樣了1000條樣本來(lái)觀察,從關(guān)鍵詞匹配争拐、句子重疊和匹配類(lèi)型來(lái)進(jìn)行討論
- 獲取數(shù)據(jù)是用的關(guān)鍵詞匹配來(lái)的腋粥,對(duì)于真實(shí)意圖的分辨能力很差,所以只用來(lái)做初步的數(shù)據(jù)集構(gòu)建
- MSRP中平均lexical overlap是70%架曹,LCQMC是75%隘冲。因?yàn)樘烊幌嗤氖虑榫蜁?huì)是類(lèi)似的詞語(yǔ),但是經(jīng)過(guò)統(tǒng)計(jì)绑雄,LCQMC中低于50%重疊率的正樣本大概占2.5%展辞,對(duì)于重疊部分非常多但是意圖不一樣的問(wèn)句其實(shí)很難識(shí)別(比如買(mǎi)火車(chē)票,從長(zhǎng)沙到北京和從北京到長(zhǎng)沙)
-
匹配類(lèi)型有44%的比例是這五種:Intent-based(意圖識(shí)別)万牺、Elaboration(精煉)罗珍、Phrasal(習(xí)語(yǔ)轉(zhuǎn)換)、Synonymy(同義)脚粟、Reordering(重組)