1啄寡、為什么需要位置編碼
這要從Transformer設(shè)計(jì)之初說起。在人類語言中哩照,單詞的位置和順序定義了語法挺物,也影響著語義,無法捕獲單詞的順序飘弧,會(huì)導(dǎo)致我們很難理解一句話的含義识藤。
2、關(guān)于絕對(duì)位置編碼和相對(duì)位置編碼
絕對(duì)位置編碼的作用方式是告知Transformer架構(gòu)每個(gè)元素在輸入序列的位置卖擅,類似于為輸入序列的每個(gè)元素打一個(gè)位置標(biāo)簽標(biāo)明其絕對(duì)位置鸣奔,而相對(duì)位置編碼作用于注意力機(jī)制墨技,告知Transformer架構(gòu)兩兩元素之間的距離。3溃蔫、大語言模型中的旋轉(zhuǎn)位置編碼
旋轉(zhuǎn)位置編碼(Rotary Position Embedding健提,RoPE)是論文 Roformer: Enhanced Transformer With Rotray Position Embedding 提出的一種能夠?qū)⑾鄬?duì)位置信息依賴集成到 self-attention 中并提升 transformer 架構(gòu)性能的位置編碼方式。而目前很火的 LLaMA伟叛、GLM 模型也是采用該位置編碼方式私痹。
和相對(duì)位置編碼相比,RoPE 具有更好的外推性统刮,目前是大模型相對(duì)位置編碼中應(yīng)用最廣的方式之一紊遵。
備注:什么是大模型外推性?
外推性是指大模型在訓(xùn)練時(shí)和預(yù)測(cè)時(shí)的輸入長(zhǎng)度不一致侥蒙,導(dǎo)致模型的泛化能力下降的問題暗膜。例如,如果一個(gè)模型在訓(xùn)練時(shí)只使用了 512 個(gè) token 的文本鞭衩,那么在預(yù)測(cè)時(shí)如果輸入超過 512 個(gè) token学搜,模型可能無法正確處理。這就限制了大模型在處理長(zhǎng)文本或多輪對(duì)話等任務(wù)時(shí)的效果论衍。