LLAMA2 初探

周末看到Robbin推薦了Baby LLaMA2項(xiàng)目姥饰，OpenAI的創(chuàng)始人之一Andrej Karpathy傻谁，用一個(gè)周末的時(shí)間，搞出來(lái)一個(gè)微型的Baby LLaMA 2列粪，核心的C語(yǔ)言代碼就490行：llama.c审磁。一個(gè)適合新手入門(mén)的大模型體驗(yàn)項(xiàng)目。正好周末無(wú)視可以學(xué)習(xí)消遣一下岂座，廢話不多說(shuō)了從readme開(kāi)始入手态蒂。

First Run

// 下載作者訓(xùn)練好的model 
wget https://huggingface.co/karpathy/tinyllamas/resolve/main/stories15M.bin
// 編譯代碼
make run
// 運(yùn)行模型
./run stories15M.bin

得到結(jié)果如下：

image.png

然后我們得到了一個(gè)自動(dòng)生成的小故事，看一看到生成速率大約每秒鐘50多個(gè)字费什。當(dāng)然作者提供了另外一些參數(shù)更大的模型可以嘗試钾恢。

作者提到這個(gè)模型可以通過(guò)交互的方式，以生成更長(zhǎng)更連貫的故事鸳址。還可以通過(guò)前綴提示瘩蚪，也就是你寫(xiě)個(gè)開(kāi)頭，模型幫你補(bǔ)充的后面的內(nèi)容.我們可以嘗試

./run  stories42M.bin  1.0  256  "My little pig feeds me."

image.png

有意思的是起初我的參數(shù)是 "My little pig feeds me" 模型似乎感知到不合理的地方稿黍，強(qiáng)行將me 改為meadow疹瘦，得到了 “My little pig feeds meadow to the fairheart.” 這樣的開(kāi)頭，所以可以猜測(cè)模型可以對(duì)入?yún)⑦M(jìn)行糾正.后面我們將提示參數(shù)改為"My little pig feeds me." 強(qiáng)制結(jié)尾巡球，導(dǎo)致他只能硬著頭皮去寫(xiě)了

關(guān)于模型的介紹

由于神經(jīng)網(wǎng)絡(luò)架構(gòu)是相同的言沐，所以也可以用 Meta 發(fā)布的 Llama 2 模型邓嘹。但是由于商業(yè)原因，作者無(wú)法提供下載這個(gè)模型险胰，所以你需要自己去獲取(https://github.com/facebookresearch/llama)汹押，獲取之后，通過(guò)程序?qū)⒛Ｐ娃D(zhuǎn)換為當(dāng)前項(xiàng)目支持的格式獲取鸯乃。

python  export_meta_llama_bin.py  path/to/llama/model/7B  llama2_7b.bin

這樣你就可以運(yùn)行更大的模型用來(lái)編造故事了鲸阻？？缨睡？鸟悴？？

對(duì)于大模型執(zhí)行的性能作者提供了一些經(jīng)驗(yàn)奖年，總結(jié)一句就是细诸，在更大的模型或者某些更大規(guī)模的數(shù)據(jù)集上訓(xùn)練，普通的pc基本上很難跑的動(dòng)陋守，當(dāng)然這些不是討論的重點(diǎn)震贵，我們先忽略過(guò)去把。

難能可貴的是作者為了照顧小白水评，提供了從頭開(kāi)始訓(xùn)練模型的示例猩系，我在 TinyStories 上訓(xùn)練了一系列小型模型。訓(xùn)練環(huán)境中（4X A100 40GB GPU）只需要幾個(gè)小時(shí)就可以訓(xùn)練完成中燥。110M 模型需要大約 24 小時(shí)的時(shí)間寇甸。

目前作者提供了幾種不同參數(shù)的已經(jīng)訓(xùn)練好的模型

image.png

可以看到其中110M 的model規(guī)模已經(jīng)相當(dāng)于GPT-1，或者GPT-2中最小的規(guī)模疗涉，只是上下文長(zhǎng)度僅為1024拿霉。與 GPT-1/2 架構(gòu)相比，Llama有一些顯著的變化咱扣，包括使用 RoPE 相對(duì)位置嵌入而不是絕對(duì)/學(xué)習(xí)位置嵌入绽淘、MLP 中使用了更加高級(jí)的 SwiGLU 非線性、使用 RMSNorm 而不是 LayerNorm闹伪、所有線性層的偏置都為 False 沪铭，（沒(méi)錯(cuò)，上面的話是直接翻譯過(guò)來(lái)的祭往，具體模型原理不太清楚伦意，根據(jù)這些詞大概也許猜測(cè)是做了一些性能優(yōu)化，具體還需要參看相關(guān)論文）硼补。

訓(xùn)練模型

現(xiàn)在激動(dòng)人心的時(shí)刻到了驮肉，讓我們從頭開(kāi)始訓(xùn)練一個(gè) Baby Llama2 模型，首先下載數(shù)據(jù)集已骇，可以不通過(guò)網(wǎng)址下載离钝，貼心的作者直接寫(xiě)好了程序自動(dòng)給我們下載票编，這就是工匠精神呀。直接喂飯到嘴邊的感動(dòng)卵渴。

python  tinystories.py  download

經(jīng)過(guò)漫長(zhǎng)的等待慧域。數(shù)據(jù)集下載完畢得到了類(lèi)似data00.json data01.json……dataxx.json的文件，

image.png

暫時(shí)忽略里面的bin后綴浪读。我們得到了50個(gè)訓(xùn)練文本昔榴，每個(gè)大約200M左右，我們打開(kāi)一個(gè)訓(xùn)練文件碘橘，先看看是什么互订。

image.png

可以看到里面是標(biāo)注好的數(shù)據(jù)，包含提示痘拆，正文仰禽，關(guān)鍵詞，摘要纺蛆。來(lái)源吐葵，不知道是人工標(biāo)注還是機(jī)器生成的，不過(guò)這個(gè)暫時(shí)不太重要桥氏。

得到訓(xùn)練數(shù)據(jù)之后需要對(duì)模型中單詞進(jìn)行token温峭，以更方便的進(jìn)行訓(xùn)練

python  tinystories.py  pretokenize

實(shí)際上述工作就是對(duì)詞語(yǔ)進(jìn)行token化，每個(gè)詞分配一個(gè)id字支。包含標(biāo)點(diǎn)符號(hào)诚镰。我們可以直接參看代碼

def  process_shard(shard):
 with  open(shard, "r") as  f:
 data = json.load(f) # 打開(kāi)json文件
 all_tokens = []
 for  example  in  tqdm(data): # 迭代每一份數(shù)據(jù)
 text = example["story"] # 只處理政五年字段
 text = text.strip() # 去掉開(kāi)始和結(jié)束的空格
 tokens = enc.encode(text, bos=True, eos=False)  # 編碼文本，將文本轉(zhuǎn)換為tonken
 all_tokens.extend(tokens)
 all_tokens = np.array(all_tokens, dtype=np.uint16) # 將所有的token轉(zhuǎn)換為uint16類(lèi)型的nparray
 tokenized_filename = shard.replace(".json", ".bin")
 with  open(tokenized_filename, "wb") as  f:
 f.write(all_tokens.tobytes())
 print(f"Saved {tokenized_filename}")

代碼比較生硬我們可以通過(guò)打印查看一下這個(gè)過(guò)程的變化祥款。

Lily and Ben are friends. They like to play ……
.[1, 365, 2354, 322, 4111, 526, 7875, 29889, 2688, 763, 304, 1708, 297,……]
每一個(gè)故事的開(kāi)頭都是以1 來(lái)標(biāo)識(shí)。
Lily定義為tonken 365月杉， 以此類(lèi)推刃跛，ps 標(biāo)點(diǎn)符號(hào)和某一句的開(kāi)頭也會(huì)分配tonken

這樣相當(dāng)于準(zhǔn)好好訓(xùn)練數(shù)據(jù)集了。聰明的你一定想到我們可以自己定義一份中文數(shù)據(jù)集苛萎，來(lái)訓(xùn)練自己的模型了哈桨昙。

下一步開(kāi)始訓(xùn)練

python  train.py

image.png

很遺憾訓(xùn)練需要顯卡，貌似不支持cpu腌歉，而且我估計(jì)cpu訓(xùn)練起來(lái)會(huì)非常耗時(shí)蛙酪。
那就，先這樣把翘盖」鹑回頭我們可以看看他的核心C代碼進(jìn)行分析。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末馍驯，一起剝皮案震驚了整個(gè)濱河市阁危，隨后出現(xiàn)的幾起案子玛痊，更是在濱河造成了極大的恐慌，老刑警劉巖狂打，帶你破解...
沈念sama閱讀 218,284評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件擂煞，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡趴乡，警方通過(guò)查閱死者的電腦和手機(jī)对省，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,115評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)晾捏，“玉大人蒿涎，你說(shuō)我怎么就攤上這事∷谒玻” “怎么了同仆？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,614評(píng)論 0贊 354
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)裙品。經(jīng)常有香客問(wèn)我俗批，道長(zhǎng)，這世上最難降的妖魔是什么市怎？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,671評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任岁忘，我火速辦了婚禮，結(jié)果婚禮上区匠，老公的妹妹穿的比我還像新娘干像。我一直安慰自己，他們只是感情好驰弄，可當(dāng)我...
茶點(diǎn)故事閱讀 67,699評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布麻汰。她就那樣靜靜地躺著，像睡著了一般戚篙。火紅的嫁衣襯著肌膚如雪五鲫。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,562評(píng)論 1贊 305
城市分裂傳說(shuō)
那天岔擂，我揣著相機(jī)與錄音位喂，去河邊找鬼。笑死乱灵，一個(gè)胖子當(dāng)著我的面吹牛塑崖，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播痛倚，決...
沈念sama閱讀 40,309評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼规婆，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起聋呢，我...
開(kāi)封第一講書(shū)人閱讀 39,223評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤苗踪，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后削锰，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體通铲，經(jīng)...
沈念sama閱讀 45,668評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,859評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年器贩，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了颅夺。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,981評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡蛹稍，死狀恐怖吧黄，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情唆姐，我是刑警寧澤拗慨，帶...
沈念sama閱讀 35,705評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站奉芦，受9級(jí)特大地震影響赵抢，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜声功，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,310評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一烦却、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧先巴，春花似錦其爵、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,904評(píng)論 0贊 22
一樁弒父案摩渺，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至剂邮，卻和暖如春证逻，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背抗斤。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,023評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留丈咐，地道東北人瑞眼。一個(gè)月前我還...
沈念sama閱讀 48,146評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像棵逊，于是被迫代替她去往敵國(guó)和親伤疙。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,933評(píng)論 2贊 355

LLAMA2 初探

First Run

關(guān)于模型的介紹

訓(xùn)練模型

下一步開(kāi)始訓(xùn)練

推薦閱讀更多精彩內(nèi)容