西溪雷神 - 簡(jiǎn)書(shū)

發(fā)簡(jiǎn)信

西溪雷神

19
關(guān)注
193
粉絲
13
文章
17481

字?jǐn)?shù)
147

收獲喜歡
12

總資產(chǎn)

IP屬地：重慶

強(qiáng)化學(xué)習(xí)框架TRL源碼——DPO及其變種
本篇解讀DPOTrainer[https://github.com/huggingface/trl/blob/main/trl/trainer/...

792 0 0
強(qiáng)化學(xué)習(xí)框架TRL源碼——談?wù)凱PO和RLOO的異同
PPO(Proximal Policy Optimization)是rlhf經(jīng)典算法巢墅，RLOO (REINFORCE Leave One-Out...

651 0 0

強(qiáng)化學(xué)習(xí)框架TRL源碼—— 關(guān)于獎(jiǎng)勵(lì)模型(reward model)
獎(jiǎng)勵(lì)模型(reward model)是強(qiáng)化學(xué)習(xí)的基礎(chǔ)，如果說(shuō)pretrain是背書(shū)的話溪厘，sft就是背題，而rlhf則可以看作是有老師批改作業(yè)的學(xué)...

881 0 0
強(qiáng)化學(xué)習(xí)框架TRL源碼——SFTTrainer之不足及解決
TRL[https://github.com/huggingface/trl/tree/main]是一個(gè)專(zhuān)門(mén)用于訓(xùn)練Transformer模型的...

0.1 472 0 1
在古代，獵頭獵一個(gè)人得多難
這是我之前發(fā)布在個(gè)人公眾號(hào)廝殺取樂(lè)上的第一篇文章浆西，因?yàn)橐婚_(kāi)始調(diào)子起得太高，導(dǎo)致我后面想繼續(xù)更顽腾，卻有點(diǎn)力不從心近零，所以公眾號(hào)就一直處于停更狀態(tài)（在朋...

0.1 1149 0 1
Bert系列（五）——中文分詞實(shí)踐 F1 97.8%(附代碼)
一、前言 Bert源碼解讀完了抄肖，具體怎么用于自己的項(xiàng)目呢久信？在Bert系列（四）——源碼解讀之Fine-tune中，我說(shuō)只要修改兩個(gè)地方憎瘸。重要的...

0.3 4586 2 5
Bert系列（四）——源碼解讀之Fine-tune
這是我們?cè)创a解讀的最后一個(gè)部分了入篮。fine-tune搞明白之后推斷也就沒(méi)必要再分析了，反正形式都是一樣的幌甘，重要的是明白根據(jù)不同任務(wù)調(diào)整輸入格式和...

1.3 26898 19 18

Bert系列（三）——源碼解讀之Pre-train
pre-train是遷移學(xué)習(xí)的基礎(chǔ)潮售，雖然Google已經(jīng)發(fā)布了各種預(yù)訓(xùn)練好的模型，而且因?yàn)橘Y源消耗巨大锅风，自己再預(yù)訓(xùn)練也不現(xiàn)實(shí)（在Google C...

1.7 34016 15 30
Bert系列（二）——源碼解讀之模型主體
本篇文章主要是解讀模型主體代碼modeling.py酥诽。在閱讀這篇文章之前希望讀者們對(duì)bert的相關(guān)理論有一定的了解，尤其是transformer...

1.9 29377 6 34