今晚剛剛在學(xué)習(xí)transformer的文本分類。
文本分類(也稱為文本歸類)是一種將文檔(句子秦躯、Twitter帖子忆谓、圖書章節(jié)、電子郵件內(nèi)容等)映射到預(yù)定義列表(類)中類別的方法踱承。
對(duì)于兩個(gè)有正負(fù)標(biāo)簽的類別倡缠,本文稱之為二元分類(binary classification),更具體地說勾扭,稱之為情感分析(sentiment analysis)
對(duì)于兩個(gè)以上的類毡琉,本文稱之為多類別分類(multi-class classification),其中各個(gè)類別之間是互斥的妙色;或者稱之為多標(biāo)簽分類(multi-label classification)桅滋,其中各個(gè)類別之間不是互斥的,這意味著一個(gè)文檔可以接收多個(gè)標(biāo)簽身辨。
對(duì)于句子對(duì)任務(wù)(如文檔相似性或文本蘊(yùn)含)丐谋,輸入不是一個(gè)句子,而是兩個(gè)句子煌珊。
另一個(gè)句子對(duì)任務(wù)是文本蘊(yùn)含(textual entailment)号俐,其中問題被定義為多類別分類。