LLM技術(shù)探討(1)---位置編碼

1啄寡、為什么需要位置編碼

這要從Transformer設(shè)計(jì)之初說起。在人類語言中哩照,單詞的位置和順序定義了語法挺物,也影響著語義,無法捕獲單詞的順序飘弧,會(huì)導(dǎo)致我們很難理解一句話的含義识藤。

在NLP任務(wù)中,對(duì)于任何神經(jīng)網(wǎng)絡(luò)架構(gòu)次伶,能夠有效識(shí)別每個(gè)詞的位置與詞之間的順序是十分關(guān)鍵的痴昧,傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,本身通過自回歸的方式考慮了單詞之間的順序冠王,然后Transformer架構(gòu)不同于RNN赶撰,Transformer使用純粹的自注意力來捕獲詞之間的聯(lián)系,純粹的自注意力具有置換不變的性質(zhì)柱彻,換句話說豪娜,Transformer中的自注意力無法捕捉輸入元素序列的順序,因此我們需要一種方法將單詞的順序合并到Transformer架構(gòu)中哟楷,于是位置編碼應(yīng)運(yùn)而生瘤载。
image.png

2、關(guān)于絕對(duì)位置編碼和相對(duì)位置編碼

絕對(duì)位置編碼的作用方式是告知Transformer架構(gòu)每個(gè)元素在輸入序列的位置卖擅,類似于為輸入序列的每個(gè)元素打一個(gè)位置標(biāo)簽標(biāo)明其絕對(duì)位置鸣奔,而相對(duì)位置編碼作用于注意力機(jī)制墨技,告知Transformer架構(gòu)兩兩元素之間的距離。
image.png

3溃蔫、大語言模型中的旋轉(zhuǎn)位置編碼

旋轉(zhuǎn)位置編碼(Rotary Position Embedding健提,RoPE)是論文 Roformer: Enhanced Transformer With Rotray Position Embedding 提出的一種能夠?qū)⑾鄬?duì)位置信息依賴集成到 self-attention 中并提升 transformer 架構(gòu)性能的位置編碼方式。而目前很火的 LLaMA伟叛、GLM 模型也是采用該位置編碼方式私痹。
和相對(duì)位置編碼相比,RoPE 具有更好的外推性统刮,目前是大模型相對(duì)位置編碼中應(yīng)用最廣的方式之一紊遵。

備注:什么是大模型外推性?
外推性是指大模型在訓(xùn)練時(shí)和預(yù)測(cè)時(shí)的輸入長(zhǎng)度不一致侥蒙,導(dǎo)致模型的泛化能力下降的問題暗膜。例如,如果一個(gè)模型在訓(xùn)練時(shí)只使用了 512 個(gè) token 的文本鞭衩,那么在預(yù)測(cè)時(shí)如果輸入超過 512 個(gè) token学搜,模型可能無法正確處理。這就限制了大模型在處理長(zhǎng)文本或多輪對(duì)話等任務(wù)時(shí)的效果论衍。

參考鏈接具體詳情

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末瑞佩,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子坯台,更是在濱河造成了極大的恐慌炬丸,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,496評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蜒蕾,死亡現(xiàn)場(chǎng)離奇詭異稠炬,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)咪啡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門首启,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人撤摸,你說我怎么就攤上這事闽坡。” “怎么了愁溜?”我有些...
    開封第一講書人閱讀 162,632評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵疾嗅,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我冕象,道長(zhǎng)代承,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,180評(píng)論 1 292
  • 正文 為了忘掉前任渐扮,我火速辦了婚禮论悴,結(jié)果婚禮上掖棉,老公的妹妹穿的比我還像新娘。我一直安慰自己膀估,他們只是感情好幔亥,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,198評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著察纯,像睡著了一般帕棉。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上饼记,一...
    開封第一講書人閱讀 51,165評(píng)論 1 299
  • 那天香伴,我揣著相機(jī)與錄音,去河邊找鬼具则。 笑死麻裳,一個(gè)胖子當(dāng)著我的面吹牛谁撼,可吹牛的內(nèi)容都是我干的达罗。 我是一名探鬼主播赃春,決...
    沈念sama閱讀 40,052評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼匪凡!你這毒婦竟也來了拔稳?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,910評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤锹雏,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后术奖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體礁遵,經(jīng)...
    沈念sama閱讀 45,324評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,542評(píng)論 2 332
  • 正文 我和宋清朗相戀三年采记,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了佣耐。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,711評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡唧龄,死狀恐怖兼砖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情既棺,我是刑警寧澤讽挟,帶...
    沈念sama閱讀 35,424評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站丸冕,受9級(jí)特大地震影響耽梅,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜胖烛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,017評(píng)論 3 326
  • 文/蒙蒙 一眼姐、第九天 我趴在偏房一處隱蔽的房頂上張望诅迷。 院中可真熱鬧,春花似錦众旗、人聲如沸罢杉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽滩租。三九已至,卻和暖如春艘款,著一層夾襖步出監(jiān)牢的瞬間持际,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工哗咆, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蜘欲,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,722評(píng)論 2 368
  • 正文 我出身青樓晌柬,卻偏偏與公主長(zhǎng)得像姥份,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子年碘,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,611評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容