Attention機(jī)制
Attention機(jī)制通俗的講就是把注意力集中放在重要的點上,而忽略其他不重要的因素臼氨。其中重要程度的判斷取決于應(yīng)用場景杈绸。
Embedding
在數(shù)學(xué)上表示一個maping, f: X ->Y
也就是一個function冷尉,其中該函數(shù)是injective(就是我們所說的單射函數(shù)糊闽,每個Y只有唯一的X對應(yīng)罗岖,反之亦然)和structure-preserving (結(jié)構(gòu)保存确买,比如在X所屬的空間上X1 < X2,那么映射后在Y所屬空間上同理 Y1 < Y2)。
word embedding候生,就是找到一個映射或者函數(shù)同眯,生成在一個新的空間上的表達(dá),該表達(dá)就是word representation唯鸭。
Residuals?殘差
BERT(Bidirectional?Encoder?Representations from?Transformers) 基于transform 的雙向編碼表示
其中Transformer 是一種基于 encoder-decoder 結(jié)構(gòu)的模型