2023-03-17

ChatGPT是基于GPT(生成式預(yù)訓(xùn)練語言模型)和RLHF(基于人工反饋的強化學(xué)習(xí))效斑,這里我們重點從這兩方面來分析chatGPT的結(jié)構(gòu)及其原理。

1袁勺、GPT架構(gòu)及其原理?????????????????????????????????????????????????????????

GPT可以簡單理解為一套數(shù)學(xué)模型雹食,數(shù)據(jù)輸入給GPT,GPT輸出一套數(shù)據(jù)期丰。例如:輸入一段話群叶,GPT模型根據(jù)語言/語料概率來自動生成回答的每一個字(詞句)。即利用已經(jīng)說過的一段話作為輸入條件钝荡,預(yù)測下一個時刻不同語句甚至語言集合出現(xiàn)的概率分布街立。

GPT是生成式預(yù)訓(xùn)練語言模型,到目前埠通,有GPT-1赎离、GPT-2、GPT-3三個版本端辱。三個版本首先梁剔,都是用無監(jiān)督的方法虽画,即在大量無標(biāo)注的語料數(shù)據(jù)中,預(yù)訓(xùn)練出一個與下游任務(wù)無關(guān)的模型荣病,三個版本在這里的主要區(qū)別是模型的參數(shù)越來越大码撰。其次,在使用階段个盆,三個版本分別試驗了在具體任務(wù)中通過任務(wù)數(shù)據(jù)微調(diào)模型脖岛、不通過具體任務(wù)數(shù)據(jù)來微調(diào)模型以及通過少量任務(wù)數(shù)據(jù)交互來解決具體任務(wù)應(yīng)用問題。

GPT模型架構(gòu)如圖1颊亮,它采用的以Transformer為核心結(jié)構(gòu)的模型柴梆,其中Trm是一個Transformer結(jié)構(gòu),一個Trm可以簡單理解為一套數(shù)據(jù)流轉(zhuǎn)的結(jié)構(gòu)编兄。

圖1 GPT系列的模型架構(gòu)

GPT-1的完整結(jié)構(gòu)如圖2轩性,其中左邊是GPT使用的12層Transformer結(jié)構(gòu),右圖是預(yù)訓(xùn)練模型根據(jù)不同任務(wù)進行微調(diào)的結(jié)構(gòu)狠鸳。這里重點是構(gòu)建了一套具有強大自然語言理解能力的與任務(wù)無關(guān)的單模型框架:生成式預(yù)訓(xùn)練和判別式微調(diào)揣苏。預(yù)訓(xùn)練與微調(diào)的定義如下:

預(yù)訓(xùn)練:用標(biāo)準(zhǔn)的語言模型的目標(biāo)函數(shù),即似然函數(shù)件舵,根據(jù)前k個詞預(yù)測下一個詞的概率卸察。GPT預(yù)訓(xùn)練階段其作者使用語言模型(LM)的訓(xùn)練方式,模型使用的是transformer的變體铅祸,即多層transformer-decoder坑质。

微調(diào):用的是完整的輸入序列+標(biāo)簽。目標(biāo)函數(shù)=有監(jiān)督的目標(biāo)函數(shù)+λ*無監(jiān)督的目標(biāo)函數(shù)临梗。

通過上面可以看出涡扼,對預(yù)訓(xùn)練好的模型,疊加對應(yīng)下游任務(wù)的層盟庞,就可實現(xiàn)不同下游任務(wù)吃沪。預(yù)訓(xùn)練語言模型能夠充分利用大規(guī)模的無標(biāo)注數(shù)據(jù)學(xué)習(xí)通用的語言模型,然后再使用下游任務(wù)的少量有標(biāo)注數(shù)據(jù)進行模型微調(diào)什猖,來使具體的任務(wù)獲得較好的效果票彪。

圖2 GPT-1模型架構(gòu)

GPT-2、GPT-3主要是增大了模型的容量不狮,并去掉了監(jiān)督微調(diào)降铸。其作者認為大的模型應(yīng)該能學(xué)習(xí)出多任務(wù)的能力,而不需要大的標(biāo)注數(shù)據(jù)集來解決具體的任務(wù)問題摇零,當(dāng)然到此為止推掸,實際上還沒有達到預(yù)期。

2、GPT發(fā)展階段

這里我們通過一個GPT模型的發(fā)展歷程终佛,介紹chatGPT的主要經(jīng)歷了哪些變化俊嗽。這里我們先看一下chatGPT的發(fā)展史:

圖3 chatGPT歷代版本及區(qū)別

如上圖所示雾家,基于文本預(yù)訓(xùn)練的GPT-1铃彰,GPT-2,GPT-3三代模型都是采用的以Transformer為核心結(jié)構(gòu)的模型(圖3)芯咧,主要的不同的是參數(shù)方面牙捉,也就是后邊的版本模型非常大了。而ChatGPT則在此基礎(chǔ)上敬飒,增加了人工強化學(xué)習(xí)的反饋(RLHF)邪铲。

GPT-1是在無標(biāo)注的文本語料中進行生成式預(yù)訓(xùn)練,然后進行判別式微調(diào)无拗,在具體的任務(wù)場景上獲得能力的提升带到。

GPT-2相對于GPT-1,模型結(jié)構(gòu)并沒有做大的調(diào)整英染,只是使用了更多參數(shù)的模型和更多的訓(xùn)練數(shù)據(jù)揽惹。GPT-2在誕生之初也引發(fā)了不少的轟動,它生成的新聞足以欺騙大多數(shù)人類四康,達到以假亂真的效果搪搏。當(dāng)時得出了一個結(jié)論:當(dāng)一個大型語言模型在足夠大的多樣化數(shù)據(jù)集上進行無監(jiān)督訓(xùn)練,就能在很多領(lǐng)域數(shù)據(jù)集上執(zhí)行任務(wù)闪金。

基于上述結(jié)論疯溺,提出了GPT-3,GPT-3大大加大了參數(shù)的數(shù)量哎垦,擁有1750億囱嫩。GPT-3除了能完成常見的NLP任務(wù)外,研究者意外的發(fā)現(xiàn)GPT-3在寫SQL漏设,JavaScript等語言的代碼墨闲,進行簡單的數(shù)學(xué)運算上也有不錯的表現(xiàn)效果。GPT-3的基本訓(xùn)練方法愿题,包括模型损俭,數(shù)據(jù),訓(xùn)練都類似于GPT-2潘酗。

上面介紹了GPT系列模型杆兵,主要是參數(shù)的增大、數(shù)據(jù)量及其多樣性的增加仔夺。這個預(yù)測和實驗結(jié)果琐脏,帶來了良好的效果,但仍然達不到使用的預(yù)期,于是日裙,研究者又在此基礎(chǔ)上吹艇,利用人工反饋的強化學(xué)習(xí)方法來對體系進行優(yōu)化。下面重點介紹RLHF昂拂。

3受神、基于人工反饋的強化學(xué)習(xí)訓(xùn)練過程

除了上述GPT越來越大的模型外,ChatGPT使用來自人類反饋的強化學(xué)習(xí)進行訓(xùn)練格侯,這種方法通過人類干預(yù)來增強機器學(xué)習(xí)以獲得更好的效果鼻听。在訓(xùn)練過程中,人類訓(xùn)練者扮演著用戶和人工智能助手的角色联四,并通過近端策略優(yōu)化算法進行微調(diào)撑碴。RLHF的訓(xùn)練步驟如如圖4所示,其過程主要包括:收集數(shù)據(jù)訓(xùn)練監(jiān)督策略模型(SFT)朝墩、收集比較數(shù)據(jù)并訓(xùn)練獎勵模型(RM)和采用PPO強化學(xué)習(xí)算法針對獎勵模型來優(yōu)化策略三個階段醉拓。

圖4?ChatGPT的訓(xùn)練優(yōu)化過程

1收集數(shù)據(jù)訓(xùn)練監(jiān)督策略模型(SFT

這里OpenAI是先設(shè)計了一個prompt dataset,里面有大量的提示樣本收苏,給出了各種各樣的任務(wù)描述亿卤;其次,找了一個標(biāo)注團隊對這個prompt dataset進行標(biāo)注(本質(zhì)就是人工回答高質(zhì)量答案)倒戏;最后怠噪,用這個標(biāo)注過的數(shù)據(jù)集微調(diào)GPT-3.5,這個微調(diào)好的GPT-3.5我們稱之為SFT模型(監(jiān)督微調(diào)杜跷,全稱Supervised fine-tuning傍念,簡稱SFT),此時的模型在遵循指令/對話方面已經(jīng)優(yōu)于GPT-3葛闷,但不一定符合人類偏好憋槐。具體步驟如下:

1、從數(shù)據(jù)集中抽取問題淑趾;

2阳仔、標(biāo)引員寫出高質(zhì)量答案;

3扣泊、使用這些數(shù)據(jù)微調(diào)gpt-3.5近范。

2收集比較數(shù)據(jù)并訓(xùn)練獎勵模型Reward ModeRM

這個階段主要是通過人工標(biāo)注訓(xùn)練數(shù)據(jù)(約33K個數(shù)據(jù))延蟹,來訓(xùn)練獎勵模型评矩。首先,在數(shù)據(jù)集中隨機抽取問題阱飘,然后使用第一階段生成的模型斥杜,對于每個問題虱颗,生成多個不同的回答。最后蔗喂,人類標(biāo)注者對這些結(jié)果綜合考慮給出排名順序忘渔。

接下來,使用這個排序結(jié)果數(shù)據(jù)來訓(xùn)練獎勵模型缰儿。對多個排序結(jié)果畦粮,兩兩組合,形成多個訓(xùn)練數(shù)據(jù)對返弹。RM模型接受一個輸入锈玉,給出評價回答質(zhì)量的分?jǐn)?shù)。這樣义起,對于一對訓(xùn)練數(shù)據(jù),調(diào)節(jié)參數(shù)使得高質(zhì)量回答的打分比低質(zhì)量的打分要高师崎。具體步驟如下:

1默终、采樣問題和模型的多個回答;

2犁罩、標(biāo)引員對輸出進行打分并排序齐蔽;

3、使用排序比較數(shù)據(jù)訓(xùn)練獎勵模型床估。

3)采用PPOProximal Policy Optimization含滴,近端策略優(yōu)化)強化學(xué)習(xí)算法針對獎勵模型來優(yōu)化策略。

這一階段利用第二階段訓(xùn)練好的獎勵模型丐巫,靠獎勵打分來更新預(yù)訓(xùn)練模型參數(shù)谈况。具體做法是,再次讓SFT模型去回答prompt dataset某個問題递胧,然后此時不再讓人工評估好壞碑韵,而是讓階段2訓(xùn)練好的獎勵模型去給SFT模型的預(yù)測結(jié)果進行打分排序。具體步驟如下:

1缎脾、采樣一個新的問題祝闻;

2、基于有監(jiān)督策略初始化ppo模型遗菠;

3联喘、讓策略模型(SFT)生成回答;

4辙纬、獎勵模型數(shù)據(jù)對產(chǎn)生的回答計算獎勵豁遭;

5、獎勵模型使用ppo更新策略模型(SFT)牲平。

最后堤框,如果我們不斷重復(fù)第二和第三階段,即以一個獎勵模型(RM)來判斷模型生成的文本是否優(yōu)質(zhì)(迎合人類偏好),這樣不斷生成蜈抓、評估启绰、優(yōu)化,如此循環(huán)進行迭代沟使,最終訓(xùn)練出更高質(zhì)量的ChatGPT模型委可。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市腊嗡,隨后出現(xiàn)的幾起案子着倾,更是在濱河造成了極大的恐慌,老刑警劉巖燕少,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件卡者,死亡現(xiàn)場離奇詭異,居然都是意外死亡客们,警方通過查閱死者的電腦和手機崇决,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來底挫,“玉大人恒傻,你說我怎么就攤上這事〗ǖ耍” “怎么了盈厘?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長官边。 經(jīng)常有香客問我沸手,道長,這世上最難降的妖魔是什么拒逮? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任罐氨,我火速辦了婚禮,結(jié)果婚禮上滩援,老公的妹妹穿的比我還像新娘栅隐。我一直安慰自己,他們只是感情好玩徊,可當(dāng)我...
    茶點故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布租悄。 她就那樣靜靜地躺著,像睡著了一般恩袱。 火紅的嫁衣襯著肌膚如雪泣棋。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天畔塔,我揣著相機與錄音潭辈,去河邊找鬼鸯屿。 笑死,一個胖子當(dāng)著我的面吹牛把敢,可吹牛的內(nèi)容都是我干的寄摆。 我是一名探鬼主播,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼修赞,長吁一口氣:“原來是場噩夢啊……” “哼婶恼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起柏副,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤勾邦,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后割择,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體眷篇,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年锨推,在試婚紗的時候發(fā)現(xiàn)自己被綠了铅歼。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡换可,死狀恐怖贮预,靈堂內(nèi)的尸體忽然破棺而出轻要,到底是詐尸還是另有隱情,我是刑警寧澤响疚,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布确憨,位于F島的核電站译荞,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏休弃。R本人自食惡果不足惜吞歼,卻給世界環(huán)境...
    茶點故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望塔猾。 院中可真熱鬧篙骡,春花似錦、人聲如沸丈甸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽睦擂。三九已至得湘,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間顿仇,已是汗流浹背淘正。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工摆马, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人鸿吆。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓囤采,卻偏偏與公主長得像,于是被迫代替她去往敵國和親伞剑。 傳聞我的和親對象是個殘疾皇子斑唬,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內(nèi)容