引言
bert[1]提出來后打開了遷移學(xué)習(xí)的大門,首先通過無監(jiān)督的語料訓(xùn)練通用的語言模型潮酒,然后基于自己的語料微調(diào)(finetune)模型來達(dá)到不同的業(yè)務(wù)需求贤牛。我們知道bert可以支持的最大token長度為512,如果最大長度超過512犁河,該怎么樣處理呢?下面這邊論文提供一種簡單有效的解決思路魄梯。
Simple Applications of BERT for Ad Hoc Document Retrieval
201903發(fā)表
1. 摘要
bert大招很好用桨螺,但是其最大長度為512以及其性能這兩個(gè)缺點(diǎn)給我們的線上部署提出了挑戰(zhàn)。我們在做document級別的召回的時(shí)候酿秸,其文本長度遠(yuǎn)超bert可以處理的長度灭翔,本文提出了一種簡單并且有效的解決思路。將長的document分解成多個(gè)短的句子辣苏,每個(gè)句子在bert上獨(dú)立推斷肝箱,然后將這些句子的得分聚合得到document的得分。
2. 論文細(xì)節(jié)以及實(shí)驗(yàn)結(jié)果
2.1 長文本匹配解決思路
作者先以短文本匹配任務(wù)-社交媒體的帖子來做召回實(shí)驗(yàn)考润,通過query來召回相關(guān)的帖子狭园,一般帖子的長度是較短的文本,在bert可以處理的范圍內(nèi)糊治。實(shí)驗(yàn)的評價(jià)指標(biāo)為兩個(gè)平均召回(AP)和top30的召回率(P30)唱矛,下表是最近的深度模型在這個(gè)數(shù)據(jù)集上的結(jié)果。
我覺得上述實(shí)驗(yàn)數(shù)據(jù)主要說一點(diǎn):
bert在短文本匹配類型的任務(wù)上效果很好井辜,性能SOTA
長文本的docment匹配一般解決方法:
- 直接截?cái)嘁锴op長度,丟失了后面的數(shù)據(jù)粥脚;
- 片段級遞歸機(jī)制窃肠,解決長文本依賴,如Transformer-XL[2]刷允,一定程度上可以解決長依賴問題(看遞歸長度)冤留,但模型稍復(fù)雜碧囊;
- 基于抽取模型,抽取長文本docment的關(guān)鍵句子作為doc的摘要纤怒,然后基于此摘要進(jìn)行匹配模型訓(xùn)練糯而,這樣只考慮了摘要,沒有考慮其他句子泊窘,比較片面熄驼;
- 將長文本劃分為多個(gè)短句子,選擇匹配度最高的來做匹配烘豹,同樣沒有考慮其他句子瓜贾。
本文的方法
針對新聞?wù)Z料的長文本召回問題,本文首先利用NLTK工具將長文本分為短的句子携悯,不同于考慮最匹配的句子祭芦,本文考慮top n個(gè)句子。最終長文本docment的匹配得分計(jì)算公司如下:
其中Sdoc是原始的長文本得分(文本得分)蚌卤,例如BM25得分实束,Si表示第i個(gè)top的基于bert句子的匹配得分(語義得分)奥秆,其中參數(shù)a的參數(shù)范圍[0,1]逊彭,w1的值為1,wi參數(shù)范圍[0,1]构订,基于gridsearch去調(diào)參侮叮,獲得一個(gè)比較好的性能。
2.2 實(shí)驗(yàn)結(jié)果
finetune的數(shù)據(jù)
我們的原始的微調(diào)數(shù)據(jù)是查詢query和長文本document的關(guān)系悼瘾,而我們將長文本拆分為n個(gè)短句子后囊榜,不是所有的句子和當(dāng)前的query是強(qiáng)相關(guān)的(正樣本),因此我們不能簡單依賴現(xiàn)在的長文本數(shù)據(jù)了亥宿。本論文的解決方法是基于外部語料卸勺,基于QA或者M(jìn)icroblog數(shù)據(jù),首先bert基于通用的無監(jiān)督語料學(xué)習(xí)到了詞語以及句子的表征烫扼,所以基于少量的數(shù)據(jù)微調(diào)也可以獲得較好的效果曙求,因此本文選擇外部相關(guān)的語料進(jìn)行微調(diào)。具體效果如下表映企,我們發(fā)現(xiàn)長文本的匹配基于本文的方法可以取得比較好的效果悟狱。
3. 總結(jié)與問題
總結(jié)
- 本文提出一種加權(quán)的短句子得分方法來解決長文本匹配得分問題;
- 該方法在該論文實(shí)驗(yàn)數(shù)據(jù)集上可以取得SOTA的效果堰氓,方法簡單有效挤渐;
思考
- 論文中微調(diào)的數(shù)據(jù)使用外部數(shù)據(jù),微調(diào)的模型沒有很好擬合當(dāng)前的數(shù)據(jù)双絮,是不是可以從分割的短句子中進(jìn)行正負(fù)樣本的采樣浴麻,這樣微調(diào)的數(shù)據(jù)也是從長文本中得出;
- 論文中如果選取的top n软免,如果n過大的話椭赋,調(diào)參有點(diǎn)復(fù)雜,n過大感覺可以取top3調(diào)參或杠,然后后面平均向抢。
參考文獻(xiàn)
Simple Applications of BERT for Ad Hoc Document Retrieval