出自 [INTERSPEECH 2020]:?ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification
ECAPA-TDNN 模型結(jié)構(gòu)如上, 主要模塊有:
1. SE-Res2Block: Res2Net Block + SE block;
2. Multi-layer feature aggregation and summation;
3. Attentive statistic pooling;
其中:
1. SE-Res2Block:?主要借鑒了 CV 領(lǐng)域比較新且被證明 successful 的結(jié)構(gòu), 最主要的目的就是"在一層 NN Layer 中盡可能的學(xué)習(xí)更多的內(nèi)容", 這里就包括了"多尺度的特征(注意雙引號(hào))"以及 channel 間特征的 diversity(用原文中的詞叫 channel interdependencies).
Res2Net block: 在常見(jiàn)的 TDNN 結(jié)構(gòu)中(TDNN, Extended-TDNN 等), 模型的中間層 NN Layer 都是在對(duì)上一層用不同的 filter 做同樣的操作, 而 Res2Net block 是用不同的 filter 對(duì)不同的輸入進(jìn)行計(jì)算, 所以這里的多尺度更多的是因?yàn)檩斎氲亩鄻訋?lái)的, 關(guān)于 Res2Net 的細(xì)節(jié), 感興趣的朋友可以移步?Res2Net Blog.
SE block: 然后就是 Channel interdependencies, 最近發(fā)現(xiàn)在好多任務(wù)中應(yīng)用這個(gè)想法有提升了, 在 ECAPA-TDNN 不僅在 SE Block 中用到, 在 Pooling 層也有, 比較簡(jiǎn)單.
2.?Multi-layer feature aggregation and summation:? 這個(gè)模塊的 motivation 說(shuō)的是 more shallow feature maps --> more robust speaker embeddings, 意思就是說(shuō)底層更細(xì)粒度的特征, 可以幫助得到更加魯棒的 speaker embedding, 這樣說(shuō)得通而且也沒(méi)問(wèn)題. 其實(shí)就是借鑒了 ResNet 和 DenseNet 的思路, 找了一個(gè)比較合理的解釋罷了.?
3. Attentive statistic pooling: channel dependent 和之前的 channel attention 一樣, 這里簡(jiǎn)單說(shuō)下此 blog 中沒(méi)提到的 context dependent, 在最原始的 statistic pooling 中, 沒(méi)有關(guān)注時(shí)間維度各 frame 的重要性, 因此后面提出了 Soft self-attention, 該想法的依據(jù)可以解釋為"對(duì)每一個(gè)人, 他說(shuō)的特定的內(nèi)容, 在聲紋上是非常獨(dú)特的", 舉個(gè)例子, 張三說(shuō)的 "你好" 這兩個(gè)字就非常好辨別.?
以上, 個(gè)人總結(jié)觀點(diǎn), 歡迎交流.