LCQMC:A Large-scale Chinese Question Matching Corpus

前記

該論文是哈工大發(fā)表的一個(gè)中文問(wèn)答匹配數(shù)據(jù)集的論文,對(duì)于整個(gè)中文問(wèn)答匹配的知識(shí)背景驼修、方法宏所、數(shù)據(jù)集構(gòu)建方式等都有一些描述,該數(shù)據(jù)集被廣泛應(yīng)用在一些中文語(yǔ)義匹配的評(píng)測(cè)中壹堰,比如百度的simNet
鏈接LCQMC

摘要

LCQMC更多的關(guān)注在intent matching(意圖匹配)而不是paraphrase(短語(yǔ))方面拭卿。構(gòu)建的方式是先針對(duì)不同的領(lǐng)域從百度問(wèn)答中抽取高頻的相關(guān)問(wèn)題,然后通過(guò)Wasserstein distance進(jìn)行初步篩選贱纠,最后人工進(jìn)行標(biāo)注峻厚。數(shù)據(jù)集一共有260068對(duì)標(biāo)注結(jié)果,分為三部分并巍,238766訓(xùn)練集目木、8802驗(yàn)證集和12500測(cè)試集。

相關(guān)的工作

Quora 和Microsoft都有相關(guān)的英文的語(yǔ)義匹配基礎(chǔ)測(cè)試集懊渡,在它之上還構(gòu)建了一些更垂直的集合

數(shù)據(jù)構(gòu)建

  • 召回:選取了百度問(wèn)答教育刽射、醫(yī)療等的不同領(lǐng)域,每個(gè)領(lǐng)域選擇50個(gè)詞作為初始剃执,去查詢top100頁(yè)的結(jié)果作為初選誓禁。拿回來(lái)的數(shù)據(jù)再進(jìn)行分詞,tf-idf的計(jì)算肾档,去查詢權(quán)重較高的詞的top50頁(yè)的數(shù)據(jù)摹恰,最后生成了500w的初始pair對(duì)。
  • 粗排:使用word mover distance(WMD)來(lái)進(jìn)行初始的排查怒见,最終得分0-0.15的太相似了俗慈,0.45-1分的基本不相關(guān),所以從0.15-0.45分鐘選擇了10%來(lái)進(jìn)行人工標(biāo)注
  • 標(biāo)注:A paraphrase is a restatement of a text, passage giving the meaning in another form. Though the definition of matching in LCQMC is to some extent similar, it takes the intent of questions into consideration.paraphrase的典型代表是MSRA的數(shù)據(jù)集遣耍,而LCQMC要解決意圖問(wèn)題闺阱。標(biāo)注者會(huì)標(biāo)注三個(gè)等級(jí),1舵变,0和0.5酣溃。一些標(biāo)注有歧義的會(huì)進(jìn)行二次標(biāo)注瘦穆,需要打到2/3的通過(guò)率才算標(biāo)注完。- - 校準(zhǔn):最終的人工標(biāo)注數(shù)據(jù)中赊豌,正樣本和負(fù)樣本的比例是7:3扛或,于是丟棄了一些質(zhì)量低的正樣本,同時(shí)采樣了一些負(fù)樣本基本上讓比例保持1:1


    數(shù)據(jù)集

評(píng)估和實(shí)驗(yàn)

  • 評(píng)測(cè)指標(biāo)選用了P碘饼、R熙兔、F1和Acc,評(píng)測(cè)方法選用了無(wú)監(jiān)督方法和有監(jiān)督方法派昧。分詞采用的jieba黔姜,計(jì)算距離用的是sklearn,
  • 無(wú)監(jiān)督方法包括詞重疊蒂萎、ngram重疊(n=4)秆吵、編輯距離、余弦相似度(if-idf)
    有監(jiān)督方法CBOW五慈、CNN纳寂、BiLSTM、BiMPM泻拦,結(jié)果如下毙芜。


    實(shí)驗(yàn)結(jié)果

討論

抽樣了1000條樣本來(lái)觀察,從關(guān)鍵詞匹配争拐、句子重疊和匹配類(lèi)型來(lái)進(jìn)行討論

  • 獲取數(shù)據(jù)是用的關(guān)鍵詞匹配來(lái)的腋粥,對(duì)于真實(shí)意圖的分辨能力很差,所以只用來(lái)做初步的數(shù)據(jù)集構(gòu)建
  • MSRP中平均lexical overlap是70%架曹,LCQMC是75%隘冲。因?yàn)樘烊幌嗤氖虑榫蜁?huì)是類(lèi)似的詞語(yǔ),但是經(jīng)過(guò)統(tǒng)計(jì)绑雄,LCQMC中低于50%重疊率的正樣本大概占2.5%展辞,對(duì)于重疊部分非常多但是意圖不一樣的問(wèn)句其實(shí)很難識(shí)別(比如買(mǎi)火車(chē)票,從長(zhǎng)沙到北京和從北京到長(zhǎng)沙)
  • 匹配類(lèi)型有44%的比例是這五種:Intent-based(意圖識(shí)別)万牺、Elaboration(精煉)罗珍、Phrasal(習(xí)語(yǔ)轉(zhuǎn)換)、Synonymy(同義)脚粟、Reordering(重組)


    案例
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末覆旱,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子核无,更是在濱河造成了極大的恐慌扣唱,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異画舌,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)已慢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門(mén)曲聂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人佑惠,你說(shuō)我怎么就攤上這事朋腋。” “怎么了膜楷?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵旭咽,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我赌厅,道長(zhǎng)穷绵,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任特愿,我火速辦了婚禮仲墨,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘揍障。我一直安慰自己目养,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開(kāi)白布毒嫡。 她就那樣靜靜地躺著癌蚁,像睡著了一般。 火紅的嫁衣襯著肌膚如雪兜畸。 梳的紋絲不亂的頭發(fā)上努释,一...
    開(kāi)封第一講書(shū)人閱讀 51,287評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音膳叨,去河邊找鬼洽洁。 笑死,一個(gè)胖子當(dāng)著我的面吹牛菲嘴,可吹牛的內(nèi)容都是我干的饿自。 我是一名探鬼主播,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼龄坪,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼昭雌!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起健田,我...
    開(kāi)封第一講書(shū)人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤烛卧,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體总放,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡呈宇,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了局雄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片甥啄。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖炬搭,靈堂內(nèi)的尸體忽然破棺而出蜈漓,到底是詐尸還是另有隱情,我是刑警寧澤宫盔,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布融虽,位于F島的核電站,受9級(jí)特大地震影響灼芭,放射性物質(zhì)發(fā)生泄漏有额。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一姿鸿、第九天 我趴在偏房一處隱蔽的房頂上張望谆吴。 院中可真熱鬧,春花似錦苛预、人聲如沸句狼。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)腻菇。三九已至,卻和暖如春昔馋,著一層夾襖步出監(jiān)牢的瞬間筹吐,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工秘遏, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留丘薛,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓邦危,卻偏偏與公主長(zhǎng)得像洋侨,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子倦蚪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 前面的文章主要從理論的角度介紹了自然語(yǔ)言人機(jī)對(duì)話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識(shí)希坚。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 13,906評(píng)論 2 64
  • Intent Intent介紹 Intent是Android應(yīng)用組件之間通信的消息對(duì)象陵且,它通常表明了兩個(gè)通信組件的...
    whyles閱讀 471評(píng)論 0 4
  • 周羽佳憂心忡忡地踏上了出賣(mài)自己的征程裁僧。三小時(shí)的高鐵,她足足照了兩小時(shí)的鏡子。一面照聊疲,一面想:人只知美人遲暮茬底,殊不知...
    羅二青閱讀 1,769評(píng)論 1 1
  • 這今天覺(jué)得身體特別累,頭還疼可能有點(diǎn)感冒啦获洲,還不敢吃藥桩警,硬挺著吧,要不喂奶不好昌妹,今天領(lǐng)寶貝出去溜達(dá)溜達(dá),風(fēng)有點(diǎn)大握截,...
    汪小玲_1287閱讀 70評(píng)論 0 2
  • 問(wèn)世間情為何物飞崖,直教人生死相許 1. 愛(ài)情的芬芳使得眾多的青年垂涎三尺,眾人渴望嘗食愛(ài)情的果實(shí)谨胞。因?yàn)榭吹絼e人花前月...
    不二檸檬閱讀 862評(píng)論 3 6