一種解決bert長文本匹配的方法

引言

bert[1]提出來后打開了遷移學(xué)習(xí)的大門,首先通過無監(jiān)督的語料訓(xùn)練通用的語言模型潮酒,然后基于自己的語料微調(diào)(finetune)模型來達(dá)到不同的業(yè)務(wù)需求贤牛。我們知道bert可以支持的最大token長度為512,如果最大長度超過512犁河,該怎么樣處理呢?下面這邊論文提供一種簡單有效的解決思路魄梯。

Simple Applications of BERT for Ad Hoc Document Retrieval

201903發(fā)表

1. 摘要

bert大招很好用桨螺,但是其最大長度為512以及其性能這兩個(gè)缺點(diǎn)給我們的線上部署提出了挑戰(zhàn)。我們在做document級別的召回的時(shí)候酿秸,其文本長度遠(yuǎn)超bert可以處理的長度灭翔,本文提出了一種簡單并且有效的解決思路。將長的document分解成多個(gè)短的句子辣苏,每個(gè)句子在bert上獨(dú)立推斷肝箱,然后將這些句子的得分聚合得到document的得分。

2. 論文細(xì)節(jié)以及實(shí)驗(yàn)結(jié)果

2.1 長文本匹配解決思路

作者先以短文本匹配任務(wù)-社交媒體的帖子來做召回實(shí)驗(yàn)考润,通過query來召回相關(guān)的帖子狭园,一般帖子的長度是較短的文本,在bert可以處理的范圍內(nèi)糊治。實(shí)驗(yàn)的評價(jià)指標(biāo)為兩個(gè)平均召回(AP)top30的召回率(P30)唱矛,下表是最近的深度模型在這個(gè)數(shù)據(jù)集上的結(jié)果。

微博短文本匹配方法性能

我覺得上述實(shí)驗(yàn)數(shù)據(jù)主要說一點(diǎn):

bert在短文本匹配類型的任務(wù)上效果很好井辜,性能SOTA

長文本的docment匹配一般解決方法:

  • 直接截?cái)嘁锴op長度,丟失了后面的數(shù)據(jù)粥脚;
  • 片段級遞歸機(jī)制窃肠,解決長文本依賴,如Transformer-XL[2]刷允,一定程度上可以解決長依賴問題(看遞歸長度)冤留,但模型稍復(fù)雜碧囊;
  • 基于抽取模型,抽取長文本docment的關(guān)鍵句子作為doc的摘要纤怒,然后基于此摘要進(jìn)行匹配模型訓(xùn)練糯而,這樣只考慮了摘要,沒有考慮其他句子泊窘,比較片面熄驼;
  • 將長文本劃分為多個(gè)短句子,選擇匹配度最高的來做匹配烘豹,同樣沒有考慮其他句子瓜贾。

本文的方法

針對新聞?wù)Z料的長文本召回問題,本文首先利用NLTK工具將長文本分為短的句子携悯,不同于考慮最匹配的句子祭芦,本文考慮top n個(gè)句子。最終長文本docment的匹配得分計(jì)算公司如下:
Score_d=a*S_{doc} + (1-a)*\sum_{i=1}^nw_i*S_i
其中Sdoc是原始的長文本得分(文本得分)蚌卤,例如BM25得分实束,Si表示第i個(gè)top的基于bert句子的匹配得分(語義得分)奥秆,其中參數(shù)a的參數(shù)范圍[0,1]逊彭,w1的值為1,wi參數(shù)范圍[0,1]构订,基于gridsearch去調(diào)參侮叮,獲得一個(gè)比較好的性能。

2.2 實(shí)驗(yàn)結(jié)果

finetune的數(shù)據(jù)

我們的原始的微調(diào)數(shù)據(jù)是查詢query和長文本document的關(guān)系悼瘾,而我們將長文本拆分為n個(gè)短句子后囊榜,不是所有的句子和當(dāng)前的query是強(qiáng)相關(guān)的(正樣本),因此我們不能簡單依賴現(xiàn)在的長文本數(shù)據(jù)了亥宿。本論文的解決方法是基于外部語料卸勺,基于QA或者M(jìn)icroblog數(shù)據(jù),首先bert基于通用的無監(jiān)督語料學(xué)習(xí)到了詞語以及句子的表征烫扼,所以基于少量的數(shù)據(jù)微調(diào)也可以獲得較好的效果曙求,因此本文選擇外部相關(guān)的語料進(jìn)行微調(diào)。具體效果如下表映企,我們發(fā)現(xiàn)長文本的匹配基于本文的方法可以取得比較好的效果悟狱。


本文方法的性能

3. 總結(jié)與問題

總結(jié)

  • 本文提出一種加權(quán)的短句子得分方法來解決長文本匹配得分問題;
  • 該方法在該論文實(shí)驗(yàn)數(shù)據(jù)集上可以取得SOTA的效果堰氓,方法簡單有效挤渐;

思考

  • 論文中微調(diào)的數(shù)據(jù)使用外部數(shù)據(jù),微調(diào)的模型沒有很好擬合當(dāng)前的數(shù)據(jù)双絮,是不是可以從分割的短句子中進(jìn)行正負(fù)樣本的采樣浴麻,這樣微調(diào)的數(shù)據(jù)也是從長文本中得出;
  • 論文中如果選取的top n软免,如果n過大的話椭赋,調(diào)參有點(diǎn)復(fù)雜,n過大感覺可以取top3調(diào)參或杠,然后后面平均向抢。

參考文獻(xiàn)

Simple Applications of BERT for Ad Hoc Document Retrieval


  1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding ?

  2. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context ?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末认境,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子挟鸠,更是在濱河造成了極大的恐慌叉信,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件艘希,死亡現(xiàn)場離奇詭異硼身,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)覆享,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進(jìn)店門佳遂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人撒顿,你說我怎么就攤上這事丑罪。” “怎么了凤壁?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵吩屹,是天一觀的道長。 經(jīng)常有香客問我拧抖,道長煤搜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任唧席,我火速辦了婚禮擦盾,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘袱吆。我一直安慰自己厌衙,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布绞绒。 她就那樣靜靜地躺著婶希,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蓬衡。 梳的紋絲不亂的頭發(fā)上喻杈,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天彤枢,我揣著相機(jī)與錄音,去河邊找鬼筒饰。 笑死缴啡,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的瓷们。 我是一名探鬼主播业栅,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼谬晕!你這毒婦竟也來了碘裕?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤攒钳,失蹤者是張志新(化名)和其女友劉穎帮孔,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體不撑,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡文兢,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了焕檬。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片姆坚。...
    茶點(diǎn)故事閱讀 38,650評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖揩页,靈堂內(nèi)的尸體忽然破棺而出旷偿,到底是詐尸還是另有隱情烹俗,我是刑警寧澤爆侣,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站幢妄,受9級特大地震影響兔仰,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蕉鸳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一乎赴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧潮尝,春花似錦榕吼、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至乱凿,卻和暖如春顽素,著一層夾襖步出監(jiān)牢的瞬間咽弦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工胁出, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留型型,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓全蝶,卻偏偏與公主長得像闹蒜,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子抑淫,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容

  • 假之以便嫂用,唆之使前,斷其援應(yīng)丈冬,陷之死地嘱函。遇毒,位不當(dāng)也埂蕊。 理解:上屋抽梯是一套組合戰(zhàn)術(shù)往弓,前后呼應(yīng),互相配合蓄氧。 生活...
    一花一世界滕老師閱讀 732評論 1 0
  • 今天看《今日說法》函似,被案例里十一歲的小女孩震撼到。 因?yàn)楦改鸽x異喉童,她和爸爸一起生活撇寞,爸爸對她不是打就是罵。她的心事...
    溫吞吞拿魚閱讀 265評論 0 0
  • 最近發(fā)現(xiàn)自己要做的事太多了堂氯,我得好好想想如何安排自己的時(shí)間了蔑担。每天要堅(jiān)持跑步、瑜伽咽白、讀書啤握、寫作的,現(xiàn)在是自己又給自...
    小葉pink閱讀 300評論 0 3
  • 如果是可切分的背包問題晶框,那沒什么難度排抬。基本上就是選擇一個(gè)性價(jià)比最高的物品先放進(jìn)去授段,放完發(fā)現(xiàn)沒有了蹲蒲,然后放性價(jià)比第二...
    大橋醬閱讀 377評論 0 2
  • 檢查有沒有某項(xiàng)權(quán)限 權(quán)限申請回調(diào) 彈窗提示用戶去設(shè)置權(quán)限 權(quán)限大全 http://www.cnblogs.com/...
    我是你森哥哥閱讀 791評論 0 2