新年第一天更博 顯得很有
儀式感(破音~)
(雖然已經(jīng)斷更一個月了 捂臉)
祝各位NLPer
, 各位dalao
在新的一年里靈感爆棚 投的offer全中 萬肆如意 新年玉快
新年第一天 日常網(wǎng)上沖浪 竟然發(fā)現(xiàn)MRFN
終于被放出來了 啊 啊 啊~~
這篇論文我從去年十月一直等到現(xiàn)在
在這期間中不乏有Bert這種神器爆出來
但并沒有打消我對這篇SOTA的期待
IMN
則是上個月中科院幾位博士在arXiv在線發(fā)表的一篇論文 主要是被數(shù)據(jù)嚇壞了 有、厲害??
粗粗看 可能覺得這兩篇文章沒什么關(guān)系 一個是多粒度fusion 一個是類似于Bert的深層次網(wǎng)絡(luò)處理
但仔細思考 IMN dot 之后的結(jié)構(gòu)與MRFN
的FLS有異曲同工的作用 不負責的猜測
FLS的設(shè)計思路會成為今后一段時間follow的點
PS: 以上兩篇paper 都承諾開源code (雖然repository里面都沒有code??) 之后會跟一下code 看一下具體效果
概括一下 MRFN
- 在原來SMN DAM 兩粒度 基礎(chǔ)上提出三粒度6種表示
- 提出多表示匹配-合并(Matching-Aggregation)的三種策略
- 使用大量實驗驗證各個表示的作用载弄,驗證context輪次聋涨、平均對話長度變化時各個表示的作用情況
- 提出的多表示匹配-合并策略可推廣到其他模型 并在SMN中進行試驗
- 比DAM快1.9x的訓練速度
IMN
- EMbedding層加入character-EMbedding 解決OOV
- EMbedding層后接類似ELMo思路的BiLSTM(paper中 這個結(jié)構(gòu)最work)
- dot之后做兩個粒度的分析
MRFN
MRFN = Multi-Representation Fusion Network
MRFN
是嚴睿老師組里陶重陽博士,小冰組徐粲學長绣的,武威dalao去年的工作 論文發(fā)表在WSDM2019
上
全文看下來 包括Motivation,實驗設(shè)計都給我一種很舒服的感覺 感覺一切都順理成章 一氣呵成
事實上 去年十月底 在EMNLP2018
的tutorial上嚴老師和武威dalao就已經(jīng)把MRFN
的結(jié)果秀出來了
之后徐學長回來分享的時候也提到這篇論文 但論文一直沒放出來
Motivation
這篇文章的Motivation是建立在最近幾年多輪檢索式對話基于的面向交互的思想
回想一下從Multi-view引入交互,到SMN完全基于交互,再到DAM多層交互
交互的粒度越多越work已經(jīng)是大家的共識了
但如何更好的設(shè)計各個粒度之間的層次關(guān)系 減少不必要的性能浪費
作者提出把粒度劃分為word
, short-term
, long-term
三個粒度6種表示
-
Word
-
character EMbedding
: 利用字符級別的CNN(n-gram)解決typos/OOV的問題 -
Word2Vec
: 這里很簡單的用了word2Vec 很顯然用ELMo Bert等會有更好的效果 當然效率上面就不太劃算
-
-
Contextual
-
Sequential
: 借用GRU
的結(jié)構(gòu)實現(xiàn)句子中間子串信息的獲取- RNN能保留短距離詞之間的關(guān)系 相對于
sub-sequential
- RNN能保留短距離詞之間的關(guān)系 相對于
-
Local
: 利用CNN
獲取N-gram的信息- CNN中卷積和池化 相對于獲取中心詞周圍
N-gram
的信息
- CNN中卷積和池化 相對于獲取中心詞周圍
-
-
Attention-based
self-Attention
cross-Attention
Model
但怎么把這些粒度有效的融合在一起
回想一下SMN在CNN之后才將word
和short-term
兩個粒度的信息融合在一起
很自然的想到 如果在之前/之后做fuse效果會怎么樣画切?
這個思路 就很像NIPS14年那篇討論是應(yīng)該先dot還是應(yīng)該先做CNN的paper
作者就提出前中后三種fusion
策略
其中左側(cè)是之前設(shè)計的6鐘表示
U
->U*
的過程是簡單的把多個矩陣拼接成一個矩陣
而fusion
則是利用類似CNN
的公式
其中
之后就跟上GRU
和MLR
得到相應(yīng)的score值
Experiment
本文做了大量的實驗 羨慕MSRA有用不完的機器 嗚嗚嗚
- 先是對比之前存在的一些模型
可以看出FLS
效果比DAM
提升比較顯著 即使是 FIS
在Dubbo數(shù)據(jù)集上也比DAM略微好一點
- 然后還做了把模型結(jié)構(gòu)中各個部分去掉之后的一些結(jié)果
可以看出Contextual
兩個部分效果略有重疊導致了去除其一掉點不會太多 總的來說Contextual
在模型中提點最大
- 還做了模型拓展性方面的實驗 把
fusion
三策略移到SMN
也得到了不錯的結(jié)果
- 最后還探究了多輪對話Context輪次 對話長度變化時各個表示的作用占比情況
全篇看下來 對于一個做系統(tǒng)出身的出身來看 十分舒服 可以說是比較Science
得到的結(jié)果也比較significantly
IMN
IMN = Interactive Matching Network
相對而言 IMN
論文寫得有點隨意 取名字也有、??(不是噴 吐槽一下)
同樣 IMN的作者也想到了用character
來減緩OOV的問題
創(chuàng)新點在于 EMbedding層之后用了一個類似ELMo
的處理策略 來獲取Sentence之間的信息
(當然 如果現(xiàn)在來做 用Bert做同樣的事情可能會更好)
除了上述的idea之外 作者還在dot完之后分成兩個粒度做處理
仔細一想 這和MRFN的FLS本質(zhì)上是一種思路 把fusion的過程往后推遲
然后這個result確實厲害 ym dalao