對命名實體識別任務(wù)(NER)進(jìn)行數(shù)據(jù)增強(qiáng)逝钥,不像對分類任務(wù)容易运挫,其主要原因它是序列標(biāo)注任務(wù)于颖,識別是token級別。一些常見的方法梅忌,如隨機(jī)刪除或替換詞,詞序替換等,都會很容易改變...
對命名實體識別任務(wù)(NER)進(jìn)行數(shù)據(jù)增強(qiáng)逝钥,不像對分類任務(wù)容易运挫,其主要原因它是序列標(biāo)注任務(wù)于颖,識別是token級別。一些常見的方法梅忌,如隨機(jī)刪除或替換詞,詞序替換等,都會很容易改變...
1泞莉、研究出發(fā)點(diǎn) 本次分享一篇有關(guān)embedding的文章,來自2021年ACL的paper《Modeling Fine-Grained Entity Types with B...
@小蘇打gogo 歡迎~
如何利用Bert處理長文本1 前言 預(yù)訓(xùn)練模型Bert能處理最大序列長度為512船殉,當(dāng)面對長文本(文檔級別)時候鲫趁,通常是采用text truncation或者sliding window方式,讓輸入模型...
Introduction 今天分享一篇來自2021年NIPS會議的paper:Improving Contrastive Learning on Imbalanced See...
1 前言 關(guān)于關(guān)系抽取(三元組抽取)的方法有很多,傳統(tǒng)的方法采用pipeline方法——先識別文本中所有實體糠惫,然后在對識別的實體對遍歷判斷關(guān)系類別疫剃,這類方法存在傳播誤差的缺陷...
前言 這兩年對比學(xué)習(xí)是一個研究熱點(diǎn),今年的ACL會議有16篇關(guān)于對比學(xué)習(xí)的paper硼讽,今天分享其中的一篇——基于語義負(fù)樣本的對比學(xué)習(xí)來提升自然語言理解(CLINE: Cont...
@Indigo_9128 是自己訓(xùn)練的
sentencepiece原理與實踐1 前言 前段時間在看到XLNET巢价,Transformer-XL等預(yù)訓(xùn)練模式時,看到源代碼都用到sentencepiece模型,當(dāng)時不清楚壤躲。經(jīng)過這段時間實踐和應(yīng)用城菊,覺得這個方...
1 前言 在NLP領(lǐng)域中,數(shù)據(jù)增強(qiáng)(data augmentation)已成為解決樣本不平衡( data imbalance)或訓(xùn)練數(shù)據(jù)不足等問題一種有效技術(shù)碉克。盡管通過數(shù)據(jù)增...
前言 命名實體識別(Named Entity Recognition役电,NER)一直是NLP中最主流,也是最基礎(chǔ)的任務(wù)之一棉胀。盡管傳統(tǒng)的機(jī)器學(xué)習(xí)方法(HMM法瑟,CRF等),到現(xiàn)在的...
@虞舜 意思是第l個指標(biāo)是否預(yù)測正確
大規(guī)模文本多元標(biāo)簽分類(XML-CNN)1.前言 今天分享一篇大規(guī)模文本多元標(biāo)簽分類的paper(XML-CNN)唁奢,論文標(biāo)題為:Deep Learning for Extreme Multi-label Text ...
1 前言 在自然語言處理工作(NLP)中霎挟,會遇到這樣的一個應(yīng)用問題:如何挖掘文本中某一關(guān)鍵詞的語義相似詞或近義詞?解決該問題的辦法很多麻掸,比如使用近義詞詞庫進(jìn)行匹配酥夭,或檢索詞語...
1 前言 預(yù)訓(xùn)練模型Bert能處理最大序列長度為512,當(dāng)面對長文本(文檔級別)時候脊奋,通常是采用text truncation或者sliding window方式熬北,讓輸入模型...
在2021年AAAI會議接受的論文中,有11篇是關(guān)于文本分類任務(wù)的诚隙,比我想象中的少讶隐,或許這個方向真的被研究透。因與筆者工作項目相關(guān)久又,自己還是將11篇論文大致過了一篇巫延,其中幾篇...
在前幾期分享中,提到focal_loss地消,dice_loss炉峰,它們都可以解決樣本不平衡性的問題。雖然paper上實驗結(jié)果都驗證了其效果脉执,但在自己的數(shù)據(jù)場景下表現(xiàn)究竟如何疼阔。帶著...
1 前言 今天分享一種利用Dice Loss來解決NLP任務(wù)中樣本不平衡性問題的方法,該思路來自2020年ACL會議一篇paper《Dice Loss for Data-im...
AI守望者為您推送今日科技資訊簡報: 1.物理學(xué)恐被顛覆:科學(xué)家在「最后的嘗試」中發(fā)現(xiàn)未知粒子存在的證據(jù)[http://mp.weixin.qq.com/s?__biz=Mz...
AI守望者為您推送今日科技資訊簡報: 1.為什么都2021年了半夷,汽車還在用五年前手機(jī)上的芯片婆廊?[http://mp.weixin.qq.com/s?__biz=MzA3MzI...
AI守望者為您推送今日科技資訊簡報: 1.所有判決被推翻,美最高法院:Java版權(quán)世紀(jì)大案玻熙,谷歌戰(zhàn)勝甲骨文[http://mp.weixin.qq.com/s?__biz=M...