周末看到Robbin推薦了Baby LLaMA2項(xiàng)目姥饰,OpenAI的創(chuàng)始人之一Andrej Karpathy傻谁,用一個(gè)周末的時(shí)間,搞出來(lái)一個(gè)微型的Baby LLaMA 2列粪,核心的C語(yǔ)言代碼就490行:llama.c审磁。一個(gè)適合新手入門(mén)的大模型體驗(yàn)項(xiàng)目。正好周末無(wú)視可以學(xué)習(xí)消遣一下岂座, 廢話不多說(shuō)了從readme開(kāi)始入手态蒂。
First Run
// 下載作者訓(xùn)練好的model
wget https://huggingface.co/karpathy/tinyllamas/resolve/main/stories15M.bin
// 編譯代碼
make run
// 運(yùn)行模型
./run stories15M.bin
得到結(jié)果如下:
然后我們得到了一個(gè)自動(dòng)生成的小故事,看一看到生成速率大約每秒鐘50多個(gè)字费什。當(dāng)然作者提供了另外一些參數(shù)更大的模型可以嘗試钾恢。
作者提到這個(gè)模型可以通過(guò)交互的方式,以生成更長(zhǎng)更連貫的故事鸳址。還可以通過(guò)前綴提示瘩蚪,也就是你寫(xiě)個(gè)開(kāi)頭,模型幫你補(bǔ)充的后面的內(nèi)容.我們可以嘗試
./run stories42M.bin 1.0 256 "My little pig feeds me."
有意思的是 起初我的參數(shù)是 "My little pig feeds me" 模型似乎感知到不合理的地方稿黍,強(qiáng)行將me 改為meadow疹瘦, 得到了 “My little pig feeds meadow to the fairheart.” 這樣的開(kāi)頭,所以可以猜測(cè)模型可以對(duì)入?yún)⑦M(jìn)行糾正.后面我們將提示參數(shù)改為"My little pig feeds me." 強(qiáng)制結(jié)尾巡球,導(dǎo)致他只能硬著頭皮去寫(xiě)了
關(guān)于模型的介紹
由于神經(jīng)網(wǎng)絡(luò)架構(gòu)是相同的言沐,所以也可以用 Meta 發(fā)布的 Llama 2 模型邓嘹。但是由于商業(yè)原因,作者無(wú)法提供下載這個(gè)模型险胰,所以你需要自己去獲取(https://github.com/facebookresearch/llama)汹押,獲取之后,通過(guò)程序?qū)⒛P娃D(zhuǎn)換為當(dāng)前項(xiàng)目支持的格式獲取鸯乃。
python export_meta_llama_bin.py path/to/llama/model/7B llama2_7b.bin
這樣你就可以運(yùn)行更大的模型用來(lái)編造故事了鲸阻??缨睡?鸟悴??
對(duì)于大模型執(zhí)行的性能作者提供了一些經(jīng)驗(yàn)奖年,總結(jié)一句就是细诸,在更大的模型或者某些更大規(guī)模的數(shù)據(jù)集上訓(xùn)練,普通的pc基本上很難跑的動(dòng)陋守,當(dāng)然這些不是討論的重點(diǎn)震贵,我們先忽略過(guò)去把。
難能可貴的是作者為了照顧小白水评,提供了從頭開(kāi)始訓(xùn)練模型的示例猩系,我在 TinyStories 上訓(xùn)練了一系列小型模型。訓(xùn)練環(huán)境中(4X A100 40GB GPU)只需要幾個(gè)小時(shí)就可以訓(xùn)練完成中燥。110M 模型需要大約 24 小時(shí)的時(shí)間寇甸。
目前作者提供了 幾種不同參數(shù)的已經(jīng)訓(xùn)練好的模型
可以看到 其中110M 的model規(guī)模已經(jīng)相當(dāng)于GPT-1,或者GPT-2中最小的規(guī)模疗涉,只是上下文長(zhǎng)度僅為1024拿霉。與 GPT-1/2 架構(gòu)相比,Llama有一些顯著的變化咱扣,包括使用 RoPE 相對(duì)位置嵌入而不是絕對(duì)/學(xué)習(xí)位置嵌入绽淘、MLP 中使用了更加高級(jí)的 SwiGLU 非線性、使用 RMSNorm 而不是 LayerNorm闹伪、所有線性層的偏置都為 False 沪铭,(沒(méi)錯(cuò),上面的話是直接翻譯過(guò)來(lái)的祭往,具體模型原理不太清楚伦意,根據(jù)這些詞大概也許猜測(cè)是做了一些性能優(yōu)化,具體還需要參看相關(guān)論文)硼补。
訓(xùn)練模型
現(xiàn)在激動(dòng)人心的時(shí)刻到了驮肉,讓我們從頭開(kāi)始訓(xùn)練一個(gè) Baby Llama2 模型,首先下載數(shù)據(jù)集已骇,可以不通過(guò)網(wǎng)址下載离钝,貼心的作者直接寫(xiě)好了程序自動(dòng)給我們下載票编,這就是工匠精神呀。直接喂飯到嘴邊的感動(dòng)卵渴。
python tinystories.py download
經(jīng)過(guò)漫長(zhǎng)的等待慧域。數(shù)據(jù)集下載完畢得到了類(lèi)似data00.json
data01.json
……dataxx.json
的文件,
暫時(shí)忽略里面的bin后綴浪读。我們得到了50個(gè)訓(xùn)練文本昔榴,每個(gè)大約200M左右,我們打開(kāi)一個(gè)訓(xùn)練文件碘橘,先看看是什么互订。
可以看到里面是標(biāo)注好的數(shù)據(jù),包含 提示痘拆, 正文仰禽,關(guān)鍵詞,摘要纺蛆。來(lái)源吐葵,不知道是人工標(biāo)注還是機(jī)器生成的,不過(guò)這個(gè)暫時(shí)不太重要桥氏。
得到訓(xùn)練數(shù)據(jù)之后需要對(duì)模型中單詞進(jìn)行token温峭,以更方便的進(jìn)行訓(xùn)練
python tinystories.py pretokenize
實(shí)際上述工作就是對(duì)詞語(yǔ)進(jìn)行token化,每個(gè)詞分配一個(gè)id字支。包含標(biāo)點(diǎn)符號(hào)诚镰。我們可以直接參看代碼
def process_shard(shard):
with open(shard, "r") as f:
data = json.load(f) # 打開(kāi)json文件
all_tokens = []
for example in tqdm(data): # 迭代每一份數(shù)據(jù)
text = example["story"] # 只處理政五年字段
text = text.strip() # 去掉開(kāi)始和結(jié)束的空格
tokens = enc.encode(text, bos=True, eos=False) # 編碼文本,將文本轉(zhuǎn)換為tonken
all_tokens.extend(tokens)
all_tokens = np.array(all_tokens, dtype=np.uint16) # 將所有的token轉(zhuǎn)換為uint16類(lèi)型的nparray
tokenized_filename = shard.replace(".json", ".bin")
with open(tokenized_filename, "wb") as f:
f.write(all_tokens.tobytes())
print(f"Saved {tokenized_filename}")
代碼比較生硬我們可以通過(guò)打印查看一下這個(gè)過(guò)程的變化祥款。
Lily and Ben are friends. They like to play ……
.[1, 365, 2354, 322, 4111, 526, 7875, 29889, 2688, 763, 304, 1708, 297,……]
每一個(gè)故事的開(kāi)頭都是以1 來(lái)標(biāo)識(shí)。
Lily定義為tonken 365月杉, 以此類(lèi)推刃跛,ps 標(biāo)點(diǎn)符號(hào)和某一句的開(kāi)頭也會(huì)分配tonken
這樣相當(dāng)于準(zhǔn)好好訓(xùn)練數(shù)據(jù)集了。聰明的你一定想到我們可以自己定義一份中文數(shù)據(jù)集苛萎,來(lái)訓(xùn)練自己的模型了哈桨昙。
下一步開(kāi)始訓(xùn)練
python train.py
很遺憾訓(xùn)練需要顯卡,貌似不支持cpu腌歉,而且我估計(jì)cpu訓(xùn)練起來(lái)會(huì)非常耗時(shí)蛙酪。
那就,先這樣把翘盖」鹑回頭我們可以看看他的核心C代碼進(jìn)行分析。