2017 · ICLR · A STRUCTURED SELF-ATTENTIVE SENTENCE EMBEDDING ·
想法來(lái)源:監(jiān)督任務(wù)+self-attention的方法翁涤,
價(jià)值:把Self-att擴(kuò)展了一下揍魂,變成了矩陣
方法:Self attention產(chǎn)生的結(jié)果是一個(gè)向量着降,但是作者認(rèn)為不能捕捉多層的意思个初,所以做成了一個(gè)矩陣企巢。并在相同的attention上,做了懲罰項(xiàng)综慎。
缺點(diǎn):so simple
詳細(xì)方案:
- 先過(guò)BiLSTM窗宦,產(chǎn)生
-
的形狀從
調(diào)整成了
得到了A
- 重新表示,并在loss中加懲罰項(xiàng)咏闪。
曙搬,其中,
表示的矩陣的Frobenius范數(shù)鸽嫂,I是單位矩陣纵装。
Frobenius范數(shù):設(shè)A是mxn的矩陣,其F范數(shù)定義為
數(shù)據(jù)集:
- the Age dataset:一個(gè)推特的推文數(shù)據(jù)集据某,推文中有對(duì)用戶年齡的描述橡娄,作者將其分為了5個(gè)年齡段,該數(shù)據(jù)上進(jìn)行的任務(wù)是根據(jù)推文判斷用戶年齡段癣籽。分類問(wèn)題挽唉。
- Yelp dataset:一個(gè)用于情感分類任務(wù)的數(shù)據(jù)集扳还,包含2.7M個(gè)評(píng)論,分類任務(wù)是根據(jù)輸入的評(píng)論推測(cè)出評(píng)論對(duì)應(yīng)的星數(shù)(從1星到5星)橱夭。
- Stanford Natural Language Inference(SNLI) Corpus:一個(gè)用于關(guān)系推理的數(shù)據(jù)集氨距,其實(shí)也是一個(gè)分類任務(wù),根據(jù)輸入的句子對(duì)棘劣,推測(cè)出對(duì)應(yīng)的關(guān)系俏让。
實(shí)驗(yàn):
image
image
image