對命名實(shí)體識別任務(wù)(NER)進(jìn)行數(shù)據(jù)增強(qiáng)寇仓,不像對分類任務(wù)容易蟀淮,其主要原因它是序列標(biāo)注任務(wù),識別是token級別箭昵。一些常見的方法,如隨機(jī)刪除或替換...
1回季、研究出發(fā)點(diǎn) 本次分享一篇有關(guān)embedding的文章家制,來自2021年ACL的paper《Modeling Fine-Grained Enti...
Introduction 今天分享一篇來自2021年NIPS會議的paper:Improving Contrastive Learning on...
1 前言 關(guān)于關(guān)系抽取(三元組抽取)的方法有很多正林,傳統(tǒng)的方法采用pipeline方法——先識別文本中所有實(shí)體,然后在對識別的實(shí)體對遍歷判斷關(guān)系類...
前言 這兩年對比學(xué)習(xí)是一個研究熱點(diǎn)颤殴,今年的ACL會議有16篇關(guān)于對比學(xué)習(xí)的paper觅廓,今天分享其中的一篇——基于語義負(fù)樣本的對比學(xué)習(xí)來提升自然語...
1 前言 在NLP領(lǐng)域中,數(shù)據(jù)增強(qiáng)(data augmentation)已成為解決樣本不平衡( data imbalance)或訓(xùn)練數(shù)據(jù)不足等問...
前言 命名實(shí)體識別(Named Entity Recognition涵但,NER)一直是NLP中最主流杈绸,也是最基礎(chǔ)的任務(wù)之一。盡管傳統(tǒng)的機(jī)器學(xué)習(xí)方法...
1 前言 在自然語言處理工作(NLP)中矮瘟,會遇到這樣的一個應(yīng)用問題:如何挖掘文本中某一關(guān)鍵詞的語義相似詞或近義詞瞳脓?解決該問題的辦法很多,比如使用...
1 前言 預(yù)訓(xùn)練模型Bert能處理最大序列長度為512澈侠,當(dāng)面對長文本(文檔級別)時候劫侧,通常是采用text truncation或者sliding...