大模型的核心原理是基于深度學(xué)習(xí)蓄诽,通過多層神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)建模和特征提取。目前大部分的大模型采用的是Transformer架構(gòu),它采用了自注意力機(jī)制店印,能夠處理長距離依賴關(guān)系,從而更好地捕捉文本的語義和上下文信息倒慧。大模型還結(jié)合了預(yù)訓(xùn)練和微調(diào)及RLHF的策略按摘,通過在大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練包券,再在特定任務(wù)上微調(diào),結(jié)合RLHF激發(fā)基礎(chǔ)模型的一些能力炫贤,以提升模型的性能溅固。
生成式預(yù)訓(xùn)練模型(Generative Pre-Trained Transformer)工作原理:
簡(jiǎn)單一句話就是:用戶輸入一個(gè)提示詞到大模型,大模型輸出一個(gè)回復(fù)給用戶兰珍。
經(jīng)過訓(xùn)練后的大模型发魄,它會(huì)根據(jù)一個(gè)詞出現(xiàn)的頻率或者一組詞在一起出現(xiàn)的頻率,來預(yù)測(cè)他們之間的相關(guān)性俩垃,結(jié)果在模型當(dāng)中會(huì)展示成一種概率值励幼,最終會(huì)將高概率的詞返回。
真正GPT飛躍的是一下兩個(gè)步驟:Fine-tuning口柳、RLHF
這篇文章將為大家分別介紹Fine-tuning以及RLHF
Fine-tuning是在初級(jí)的預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行Fine-tuning苹粟,以Q&A的方式,讓模型學(xué)習(xí)一些Q&A的模式
比如:
Q:中國的首都是哪里跃闹?
A:北京
Q:特斯拉創(chuàng)始人是嵌削?
A:Elon Mask
類似上面這樣的一問一答作為預(yù)訓(xùn)練的結(jié)果在預(yù)訓(xùn)練的模型之后,再次丟給這個(gè)模型望艺,再去做訓(xùn)練苛秕,如果準(zhǔn)備海量的這樣的數(shù)據(jù)的時(shí)候,那么模型就會(huì)學(xué)會(huì)一種語境(現(xiàn)在Transformer模式的大模型主要的創(chuàng)新就是語境)找默,他們就可以分析這種格式的輸入要對(duì)應(yīng)這樣格式的輸出(這就是微調(diào)的作用)
Fine-tuning艇劫,對(duì)模型進(jìn)行微調(diào)后,這個(gè)模型會(huì)變成一個(gè)助理型的模型惩激。
Transformer架構(gòu)的底層架構(gòu):
上來來自論文:《Attention is all you need》
最初這個(gè)模型是用來做語言翻譯的
左邊輸入英語句子店煞,通過一系列的運(yùn)算之后input到右邊;
右邊輸入英語句子對(duì)應(yīng)的正確的中文翻譯风钻,然后二者進(jìn)行碰撞顷蟀、交叉、學(xué)習(xí)骡技;把兩句話的關(guān)聯(lián)度鸣个,每個(gè)詞和每個(gè)詞的關(guān)聯(lián)度學(xué)習(xí)到,體現(xiàn)成一種參數(shù)的格式布朦,然后向上發(fā)送囤萤,最終產(chǎn)生結(jié)果;不斷的對(duì)海量數(shù)據(jù)進(jìn)行該模型的循環(huán)喝滞,這個(gè)模型就會(huì)訓(xùn)練處海量的模型結(jié)果阁将,然后這個(gè)模型就可以對(duì)任意組合的英漢進(jìn)行相應(yīng)的翻譯。
某AI公司(Open)發(fā)現(xiàn)這個(gè)模型最實(shí)用應(yīng)用于下一個(gè)模型的預(yù)測(cè)右遭,GPT使用的是右側(cè)的模式(不需要Encode做盅,只需要Decode)
在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行Fine-tuning后缤削,大模型已經(jīng)可以做問答格式,但是還有一些不好的地方吹榴,比如幻想亭敢、錯(cuò)誤等。為了控制回答的質(zhì)量引入了RLHF(基于人類反饋的強(qiáng)化訓(xùn)練)
RLHF(Reinforcement Learning from Human Feedback)
RLHF需要有一個(gè)基礎(chǔ)的模型图筹,這些基礎(chǔ)模型能生成一些候選的回復(fù)帅刀,在模型給出答案后(可能會(huì)給出多種答案,然后通過Human去選哪個(gè)答案最好)远剩,把好壞層度反饋給模型扣溺,讓模型自己更新它里面的參數(shù),以便后續(xù)能更好的輸出答案瓜晤;
RLHF可以理解為激發(fā)了基礎(chǔ)模型的一些能力
上圖來源:《Training language models to follow instructions with human feedback》
RLHF三步走(通過上圖可知):
Step1: 稱為SFT (Supervised fine-tuning),監(jiān)督微調(diào)锥余;收集示例數(shù)據(jù),讓人去和這個(gè)模型交互痢掠,篩選合適的數(shù)據(jù)驱犹,收集出來一些人們覺得不錯(cuò)的數(shù)據(jù)(收集過程在基礎(chǔ)模型的基礎(chǔ)上收集)
Step2: 模型一定程度上符合預(yù)期,但是依然會(huì)輸出比較差的回復(fù)足画,那么此時(shí)拿第一步產(chǎn)出的模型進(jìn)行打分雄驹,然后把所有的打分拿過來去訓(xùn)練一個(gè)reward model(反饋模型),此時(shí)這個(gè)模型就能判斷滿足不滿足目標(biāo)淹辞,有個(gè)這個(gè)reward model后医舆,就能用強(qiáng)化學(xué)習(xí)的很多的方法去微調(diào)基礎(chǔ)模型
Step3:用reward model去強(qiáng)化學(xué)習(xí)的方式進(jìn)一步訓(xùn)練模型
RLHF的關(guān)鍵點(diǎn):基礎(chǔ)模型好,RewardMode會(huì)更好(數(shù)據(jù)質(zhì)檢好)
推薦一個(gè)視頻:清華博后帶你走進(jìn)ChatGTP