ECAPA-TDNN

出自 [INTERSPEECH 2020]:?ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification


ECAPA-TDNN 模型結(jié)構(gòu)如上, 主要模塊有:

1. SE-Res2Block: Res2Net Block + SE block;

2. Multi-layer feature aggregation and summation;

3. Attentive statistic pooling;

其中:

1. SE-Res2Block:?主要借鑒了 CV 領(lǐng)域比較新且被證明 successful 的結(jié)構(gòu), 最主要的目的就是"在一層 NN Layer 中盡可能的學(xué)習(xí)更多的內(nèi)容", 這里就包括了"多尺度的特征(注意雙引號(hào))"以及 channel 間特征的 diversity(用原文中的詞叫 channel interdependencies).

Res2Net block: 在常見(jiàn)的 TDNN 結(jié)構(gòu)中(TDNN, Extended-TDNN 等), 模型的中間層 NN Layer 都是在對(duì)上一層用不同的 filter 做同樣的操作, 而 Res2Net block 是用不同的 filter 對(duì)不同的輸入進(jìn)行計(jì)算, 所以這里的多尺度更多的是因?yàn)檩斎氲亩鄻訋?lái)的, 關(guān)于 Res2Net 的細(xì)節(jié), 感興趣的朋友可以移步?Res2Net Blog.

SE block: 然后就是 Channel interdependencies, 最近發(fā)現(xiàn)在好多任務(wù)中應(yīng)用這個(gè)想法有提升了, 在 ECAPA-TDNN 不僅在 SE Block 中用到, 在 Pooling 層也有, 比較簡(jiǎn)單.

2.?Multi-layer feature aggregation and summation:? 這個(gè)模塊的 motivation 說(shuō)的是 more shallow feature maps --> more robust speaker embeddings, 意思就是說(shuō)底層更細(xì)粒度的特征, 可以幫助得到更加魯棒的 speaker embedding, 這樣說(shuō)得通而且也沒(méi)問(wèn)題. 其實(shí)就是借鑒了 ResNet 和 DenseNet 的思路, 找了一個(gè)比較合理的解釋罷了.?

3. Attentive statistic pooling: channel dependent 和之前的 channel attention 一樣, 這里簡(jiǎn)單說(shuō)下此 blog 中沒(méi)提到的 context dependent, 在最原始的 statistic pooling 中, 沒(méi)有關(guān)注時(shí)間維度各 frame 的重要性, 因此后面提出了 Soft self-attention, 該想法的依據(jù)可以解釋為"對(duì)每一個(gè)人, 他說(shuō)的特定的內(nèi)容, 在聲紋上是非常獨(dú)特的", 舉個(gè)例子, 張三說(shuō)的 "你好" 這兩個(gè)字就非常好辨別.?


以上, 個(gè)人總結(jié)觀點(diǎn), 歡迎交流.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市佃迄,隨后出現(xiàn)的幾起案子键闺,更是在濱河造成了極大的恐慌贫堰,老刑警劉巖绑雄,帶你破解...
    沈念sama閱讀 218,122評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異聂示,居然都是意外死亡它掂,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)帆啃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)瞬女,“玉大人,你說(shuō)我怎么就攤上這事努潘》掏担” “怎么了坤学?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,491評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)报慕。 經(jīng)常有香客問(wèn)我深浮,道長(zhǎng),這世上最難降的妖魔是什么眠冈? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,636評(píng)論 1 293
  • 正文 為了忘掉前任飞苇,我火速辦了婚禮,結(jié)果婚禮上蜗顽,老公的妹妹穿的比我還像新娘布卡。我一直安慰自己,他們只是感情好诫舅,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布羽利。 她就那樣靜靜地躺著,像睡著了一般刊懈。 火紅的嫁衣襯著肌膚如雪这弧。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,541評(píng)論 1 305
  • 那天虚汛,我揣著相機(jī)與錄音匾浪,去河邊找鬼。 笑死卷哩,一個(gè)胖子當(dāng)著我的面吹牛蛋辈,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播将谊,決...
    沈念sama閱讀 40,292評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼冷溶,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了尊浓?” 一聲冷哼從身側(cè)響起逞频,我...
    開(kāi)封第一講書(shū)人閱讀 39,211評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎栋齿,沒(méi)想到半個(gè)月后苗胀,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,655評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡瓦堵,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評(píng)論 3 336
  • 正文 我和宋清朗相戀三年基协,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片菇用。...
    茶點(diǎn)故事閱讀 39,965評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡澜驮,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出惋鸥,到底是詐尸還是另有隱情泉唁,我是刑警寧澤鹅龄,帶...
    沈念sama閱讀 35,684評(píng)論 5 347
  • 正文 年R本政府宣布,位于F島的核電站亭畜,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏迎卤。R本人自食惡果不足惜拴鸵,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蜗搔。 院中可真熱鬧劲藐,春花似錦、人聲如沸樟凄。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,894評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)缝龄。三九已至汰现,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間叔壤,已是汗流浹背瞎饲。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,012評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留炼绘,地道東北人嗅战。 一個(gè)月前我還...
    沈念sama閱讀 48,126評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像俺亮,于是被迫代替她去往敵國(guó)和親驮捍。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容