大模型訓(xùn)練關(guān)鍵兩步

大模型的核心原理是基于深度學(xué)習(xí)蓄诽,通過多層神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)建模和特征提取。目前大部分的大模型采用的是Transformer架構(gòu),它采用了自注意力機(jī)制店印,能夠處理長距離依賴關(guān)系,從而更好地捕捉文本的語義和上下文信息倒慧。大模型還結(jié)合了預(yù)訓(xùn)練和微調(diào)及RLHF的策略按摘,通過在大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練包券,再在特定任務(wù)上微調(diào),結(jié)合RLHF激發(fā)基礎(chǔ)模型的一些能力炫贤,以提升模型的性能溅固。

生成式預(yù)訓(xùn)練模型(Generative Pre-Trained Transformer)工作原理:

基礎(chǔ)版

簡(jiǎn)單一句話就是:用戶輸入一個(gè)提示詞到大模型,大模型輸出一個(gè)回復(fù)給用戶兰珍。

經(jīng)過訓(xùn)練后的大模型发魄,它會(huì)根據(jù)一個(gè)詞出現(xiàn)的頻率或者一組詞在一起出現(xiàn)的頻率,來預(yù)測(cè)他們之間的相關(guān)性俩垃,結(jié)果在模型當(dāng)中會(huì)展示成一種概率值励幼,最終會(huì)將高概率的詞返回。

真正GPT飛躍的是一下兩個(gè)步驟:Fine-tuning口柳、RLHF

微調(diào)版

這篇文章將為大家分別介紹Fine-tuning以及RLHF

Fine-tuning是在初級(jí)的預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行Fine-tuning苹粟,以Q&A的方式,讓模型學(xué)習(xí)一些Q&A的模式

比如:

Q:中國的首都是哪里跃闹?

A:北京

Q:特斯拉創(chuàng)始人是嵌削?

A:Elon Mask

類似上面這樣的一問一答作為預(yù)訓(xùn)練的結(jié)果在預(yù)訓(xùn)練的模型之后,再次丟給這個(gè)模型望艺,再去做訓(xùn)練苛秕,如果準(zhǔn)備海量的這樣的數(shù)據(jù)的時(shí)候,那么模型就會(huì)學(xué)會(huì)一種語境(現(xiàn)在Transformer模式的大模型主要的創(chuàng)新就是語境)找默,他們就可以分析這種格式的輸入要對(duì)應(yīng)這樣格式的輸出(這就是微調(diào)的作用)

Fine-tuning艇劫,對(duì)模型進(jìn)行微調(diào)后,這個(gè)模型會(huì)變成一個(gè)助理型的模型惩激。

Transformer架構(gòu)的底層架構(gòu):

Transformer架構(gòu)圖

上來來自論文:《Attention is all you need》

最初這個(gè)模型是用來做語言翻譯的

左邊輸入英語句子店煞,通過一系列的運(yùn)算之后input到右邊;

右邊輸入英語句子對(duì)應(yīng)的正確的中文翻譯风钻,然后二者進(jìn)行碰撞顷蟀、交叉、學(xué)習(xí)骡技;把兩句話的關(guān)聯(lián)度鸣个,每個(gè)詞和每個(gè)詞的關(guān)聯(lián)度學(xué)習(xí)到,體現(xiàn)成一種參數(shù)的格式布朦,然后向上發(fā)送囤萤,最終產(chǎn)生結(jié)果;不斷的對(duì)海量數(shù)據(jù)進(jìn)行該模型的循環(huán)喝滞,這個(gè)模型就會(huì)訓(xùn)練處海量的模型結(jié)果阁将,然后這個(gè)模型就可以對(duì)任意組合的英漢進(jìn)行相應(yīng)的翻譯。

某AI公司(Open)發(fā)現(xiàn)這個(gè)模型最實(shí)用應(yīng)用于下一個(gè)模型的預(yù)測(cè)右遭,GPT使用的是右側(cè)的模式(不需要Encode做盅,只需要Decode)

在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行Fine-tuning后缤削,大模型已經(jīng)可以做問答格式,但是還有一些不好的地方吹榴,比如幻想亭敢、錯(cuò)誤等。為了控制回答的質(zhì)量引入了RLHF(基于人類反饋的強(qiáng)化訓(xùn)練)

RLHF(Reinforcement Learning from Human Feedback)

RLHF需要有一個(gè)基礎(chǔ)的模型图筹,這些基礎(chǔ)模型能生成一些候選的回復(fù)帅刀,在模型給出答案后(可能會(huì)給出多種答案,然后通過Human去選哪個(gè)答案最好)远剩,把好壞層度反饋給模型扣溺,讓模型自己更新它里面的參數(shù),以便后續(xù)能更好的輸出答案瓜晤;

RLHF可以理解為激發(fā)了基礎(chǔ)模型的一些能力

RLHF

上圖來源:《Training language models to follow instructions with human feedback》

RLHF三步走(通過上圖可知):

Step1: 稱為SFT (Supervised fine-tuning),監(jiān)督微調(diào)锥余;收集示例數(shù)據(jù),讓人去和這個(gè)模型交互痢掠,篩選合適的數(shù)據(jù)驱犹,收集出來一些人們覺得不錯(cuò)的數(shù)據(jù)(收集過程在基礎(chǔ)模型的基礎(chǔ)上收集)

Step2: 模型一定程度上符合預(yù)期,但是依然會(huì)輸出比較差的回復(fù)足画,那么此時(shí)拿第一步產(chǎn)出的模型進(jìn)行打分雄驹,然后把所有的打分拿過來去訓(xùn)練一個(gè)reward model(反饋模型),此時(shí)這個(gè)模型就能判斷滿足不滿足目標(biāo)淹辞,有個(gè)這個(gè)reward model后医舆,就能用強(qiáng)化學(xué)習(xí)的很多的方法去微調(diào)基礎(chǔ)模型

Step3:用reward model去強(qiáng)化學(xué)習(xí)的方式進(jìn)一步訓(xùn)練模型

RLHF的關(guān)鍵點(diǎn):基礎(chǔ)模型好,RewardMode會(huì)更好(數(shù)據(jù)質(zhì)檢好)

推薦一個(gè)視頻:清華博后帶你走進(jìn)ChatGTP

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末桑涎,一起剝皮案震驚了整個(gè)濱河市彬向,隨后出現(xiàn)的幾起案子兼贡,更是在濱河造成了極大的恐慌攻冷,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件遍希,死亡現(xiàn)場(chǎng)離奇詭異等曼,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)凿蒜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門禁谦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人废封,你說我怎么就攤上這事州泊。” “怎么了漂洋?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵遥皂,是天一觀的道長力喷。 經(jīng)常有香客問我,道長演训,這世上最難降的妖魔是什么弟孟? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮样悟,結(jié)果婚禮上拂募,老公的妹妹穿的比我還像新娘。我一直安慰自己窟她,他們只是感情好陈症,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著震糖,像睡著了一般爬凑。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上试伙,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天嘁信,我揣著相機(jī)與錄音,去河邊找鬼疏叨。 笑死潘靖,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蚤蔓。 我是一名探鬼主播卦溢,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼秀又!你這毒婦竟也來了单寂?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤吐辙,失蹤者是張志新(化名)和其女友劉穎宣决,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體昏苏,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡尊沸,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了贤惯。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片洼专。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖孵构,靈堂內(nèi)的尸體忽然破棺而出屁商,到底是詐尸還是另有隱情,我是刑警寧澤颈墅,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布蜡镶,位于F島的核電站溯职,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏帽哑。R本人自食惡果不足惜谜酒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望妻枕。 院中可真熱鬧僻族,春花似錦、人聲如沸屡谐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽愕掏。三九已至度秘,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間饵撑,已是汗流浹背剑梳。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留滑潘,地道東北人垢乙。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像语卤,于是被迫代替她去往敵國和親追逮。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 隨著ChatGPT的迅速出圈粹舵,加速了大模型時(shí)代的變革钮孵。對(duì)于以Transformer、MOE結(jié)構(gòu)為代表的大模型來說眼滤,...
    吃果凍不吐果凍皮閱讀 725評(píng)論 0 2
  • 本手冊(cè)列出了高頻出現(xiàn)的大模型相關(guān)名詞的英文名稱巴席、中文名稱及釋義,希望對(duì)同學(xué)們學(xué)習(xí)大模型有所幫助 答案來自于文心一言...
    早睡早起的黑貓閱讀 1,106評(píng)論 0 1
  • 英文名稱: Llama 2: Open Foundation and Fine-Tuned Chat Models...
    xieyan0811閱讀 245評(píng)論 0 0
  • PT柠偶、SFT 在大模型領(lǐng)域情妖,PT和SFT分別代表預(yù)訓(xùn)練(Pre-training)和監(jiān)督微調(diào)(Supervised...
    梅西愛騎車閱讀 183評(píng)論 0 0
  • 大綱 1. 介紹和背景 自我介紹(5分鐘)了解候選人的教育背景、工作經(jīng)歷和對(duì)大模型架構(gòu)的興趣诱担。 2. 基礎(chǔ)理論和概...
    sknfie閱讀 119評(píng)論 0 0