Encoder和Decoder中的計(jì)算核心就是Self-Attention婿牍,只是Decoder中多了一個(gè)Encoder-Decoder Atte...
輸出的是dec_output 和attn_weight 1.計(jì)算attention 2.計(jì)算出來(lái)的結(jié)果加上原來(lái)的X 3.之后進(jìn)行層歸一化 和之前...
1.這里輸入的targets 添加一個(gè)模型的維度 變化之后每一列的數(shù)值是一樣的 最后一個(gè)維度256為詞嵌入的維度 加入位置參數(shù)
上一層得到一個(gè)層歸一化之后的矩陣【5俏蛮,129,256】,層歸一化之后的矩陣做一個(gè)全連接 激活函數(shù)為glu 因?yàn)樵谶@中間包含了Relu激活函數(shù)上遥,而...
上一層輸出了一個(gè)context=【5,129粉楚,256】和原來(lái)的矩陣(輸入之前的矩陣【5辣恋,129,256】)相加模软,相加之后的結(jié)果做一個(gè)層歸一化 h...
得到了QKV三個(gè)矩陣 【5,4撵摆,129底靠,64】做矩陣乘法算得分——— 得分矩陣為【5,4特铝,129暑中,129】(用Q和K相乘)—— 經(jīng)過(guò)一個(gè)soft...
加入位置信息之后的矩陣【5鳄逾,129稻轨,256】——經(jīng)過(guò)一個(gè)全連接層 【5,129雕凹,768(256*3)】——切成QKV三個(gè)矩陣【5殴俱,129,256...
【5线欲,129,256】———維度不發(fā)生變化數(shù)值發(fā)生變化 位置矩陣不存在模型的維度變化 輸入的矩陣*16+一個(gè)維度相同的位置矩陣