1
0
Attention Is All You Need(2017.6)本文從微觀角度(張量角度)討論transformer的前向傳播 自注意力層 一、計(jì)算自注意力的第一步就是用每...
寫了 33113 字路媚,被 98 人關(guān)注熊赖,獲得了 147 個(gè)喜歡