LCQMC：A Large-scale Chinese Question Matching Corpus

前記

該論文是哈工大發(fā)表的一個(gè)中文問(wèn)答匹配數(shù)據(jù)集的論文，對(duì)于整個(gè)中文問(wèn)答匹配的知識(shí)背景驼修、方法宏所、數(shù)據(jù)集構(gòu)建方式等都有一些描述，該數(shù)據(jù)集被廣泛應(yīng)用在一些中文語(yǔ)義匹配的評(píng)測(cè)中壹堰，比如百度的simNet
鏈接LCQMC

摘要

LCQMC更多的關(guān)注在intent matching（意圖匹配）而不是paraphrase（短語(yǔ)）方面拭卿。構(gòu)建的方式是先針對(duì)不同的領(lǐng)域從百度問(wèn)答中抽取高頻的相關(guān)問(wèn)題，然后通過(guò)Wasserstein distance進(jìn)行初步篩選贱纠，最后人工進(jìn)行標(biāo)注峻厚。數(shù)據(jù)集一共有260068對(duì)標(biāo)注結(jié)果，分為三部分并巍，238766訓(xùn)練集目木、8802驗(yàn)證集和12500測(cè)試集。

數(shù)據(jù)構(gòu)建

召回：選取了百度問(wèn)答教育刽射、醫(yī)療等的不同領(lǐng)域，每個(gè)領(lǐng)域選擇50個(gè)詞作為初始剃执，去查詢top100頁(yè)的結(jié)果作為初選誓禁。拿回來(lái)的數(shù)據(jù)再進(jìn)行分詞，tf-idf的計(jì)算肾档，去查詢權(quán)重較高的詞的top50頁(yè)的數(shù)據(jù)摹恰，最后生成了500w的初始pair對(duì)。
粗排：使用word mover distance（WMD）來(lái)進(jìn)行初始的排查怒见，最終得分0-0.15的太相似了俗慈，0.45-1分的基本不相關(guān)，所以從0.15-0.45分鐘選擇了10%來(lái)進(jìn)行人工標(biāo)注
標(biāo)注：A paraphrase is a restatement of a text, passage giving the meaning in another form. Though the definition of matching in LCQMC is to some extent similar, it takes the intent of questions into consideration.paraphrase的典型代表是MSRA的數(shù)據(jù)集遣耍，而LCQMC要解決意圖問(wèn)題闺阱。標(biāo)注者會(huì)標(biāo)注三個(gè)等級(jí)，1舵变，0和0.5酣溃。一些標(biāo)注有歧義的會(huì)進(jìn)行二次標(biāo)注瘦穆，需要打到2/3的通過(guò)率才算標(biāo)注完。- - 校準(zhǔn)：最終的人工標(biāo)注數(shù)據(jù)中赊豌，正樣本和負(fù)樣本的比例是7：3扛或，于是丟棄了一些質(zhì)量低的正樣本，同時(shí)采樣了一些負(fù)樣本基本上讓比例保持1：1

數(shù)據(jù)集

評(píng)估和實(shí)驗(yàn)

評(píng)測(cè)指標(biāo)選用了P碘饼、R熙兔、F1和Acc，評(píng)測(cè)方法選用了無(wú)監(jiān)督方法和有監(jiān)督方法派昧。分詞采用的jieba黔姜，計(jì)算距離用的是sklearn，
無(wú)監(jiān)督方法包括詞重疊蒂萎、ngram重疊（n=4)秆吵、編輯距離、余弦相似度(if-idf)
有監(jiān)督方法CBOW五慈、CNN纳寂、BiLSTM、BiMPM泻拦，結(jié)果如下毙芜。

實(shí)驗(yàn)結(jié)果

討論

抽樣了1000條樣本來(lái)觀察，從關(guān)鍵詞匹配争拐、句子重疊和匹配類(lèi)型來(lái)進(jìn)行討論

獲取數(shù)據(jù)是用的關(guān)鍵詞匹配來(lái)的腋粥，對(duì)于真實(shí)意圖的分辨能力很差，所以只用來(lái)做初步的數(shù)據(jù)集構(gòu)建
MSRP中平均lexical overlap是70%架曹，LCQMC是75%隘冲。因?yàn)樘烊幌嗤氖虑榫蜁?huì)是類(lèi)似的詞語(yǔ)，但是經(jīng)過(guò)統(tǒng)計(jì)绑雄，LCQMC中低于50%重疊率的正樣本大概占2.5%展辞，對(duì)于重疊部分非常多但是意圖不一樣的問(wèn)句其實(shí)很難識(shí)別（比如買(mǎi)火車(chē)票，從長(zhǎng)沙到北京和從北京到長(zhǎng)沙）
匹配類(lèi)型有44%的比例是這五種：Intent-based（意圖識(shí)別）万牺、Elaboration（精煉）罗珍、Phrasal（習(xí)語(yǔ)轉(zhuǎn)換）、Synonymy（同義）脚粟、Reordering（重組）

案例

最后編輯于：2019.12.15 16:31:12

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末覆旱，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子核无，更是在濱河造成了極大的恐慌扣唱，老刑警劉巖，帶你破解...
沈念sama閱讀 217,185評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異画舌，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)已慢，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)曲聂，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人佑惠，你說(shuō)我怎么就攤上這事朋腋。” “怎么了膜楷？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,524評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵旭咽，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我赌厅，道長(zhǎng)穷绵，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,339評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任特愿，我火速辦了婚禮仲墨，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘揍障。我一直安慰自己目养，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,387評(píng)論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布毒嫡。她就那樣靜靜地躺著癌蚁，像睡著了一般。火紅的嫁衣襯著肌膚如雪兜畸。梳的紋絲不亂的頭發(fā)上努释，一...
開(kāi)封第一講書(shū)人閱讀 51,287評(píng)論 1贊 301
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音膳叨，去河邊找鬼洽洁。笑死，一個(gè)胖子當(dāng)著我的面吹牛菲嘴，可吹牛的內(nèi)容都是我干的饿自。我是一名探鬼主播，決...
沈念sama閱讀 40,130評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼龄坪，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼昭雌！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起健田，我...
開(kāi)封第一講書(shū)人閱讀 38,985評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤烛卧，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體总放，經(jīng)...
沈念sama閱讀 45,420評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡呈宇，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,617評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了局雄。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片甥啄。...
茶點(diǎn)故事閱讀 39,779評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖炬搭，靈堂內(nèi)的尸體忽然破棺而出蜈漓，到底是詐尸還是另有隱情，我是刑警寧澤宫盔，帶...
沈念sama閱讀 35,477評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布融虽，位于F島的核電站，受9級(jí)特大地震影響灼芭，放射性物質(zhì)發(fā)生泄漏有额。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,088評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一姿鸿、第九天我趴在偏房一處隱蔽的房頂上張望谆吴。院中可真熱鬧，春花似錦苛预、人聲如沸句狼。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,716評(píng)論 0贊 22
一樁弒父案热某，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)腻菇。三九已至，卻和暖如春昔馋，著一層夾襖步出監(jiān)牢的瞬間筹吐，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,857評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工秘遏，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留丘薛，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,876評(píng)論 2贊 370
代替公主和親
正文我出身青樓邦危，卻偏偏與公主長(zhǎng)得像洋侨，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子倦蚪，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,700評(píng)論 2贊 354

LCQMC：A Large-scale Chinese Question Matching Corpus

LCQMC：A Large-scale Chinese Question Matching Corpus

前記

摘要

相關(guān)的工作

數(shù)據(jù)構(gòu)建

評(píng)估和實(shí)驗(yàn)

討論

推薦閱讀更多精彩內(nèi)容