LLAMA2 初探

周末看到Robbin推薦了Baby LLaMA2項(xiàng)目姥饰,OpenAI的創(chuàng)始人之一Andrej Karpathy傻谁,用一個(gè)周末的時(shí)間,搞出來(lái)一個(gè)微型的Baby LLaMA 2列粪,核心的C語(yǔ)言代碼就490行:llama.c审磁。一個(gè)適合新手入門(mén)的大模型體驗(yàn)項(xiàng)目。正好周末無(wú)視可以學(xué)習(xí)消遣一下岂座, 廢話不多說(shuō)了從readme開(kāi)始入手态蒂。

First Run

// 下載作者訓(xùn)練好的model 
wget https://huggingface.co/karpathy/tinyllamas/resolve/main/stories15M.bin
// 編譯代碼
make run
// 運(yùn)行模型
./run stories15M.bin

得到結(jié)果如下:

image.png

然后我們得到了一個(gè)自動(dòng)生成的小故事,看一看到生成速率大約每秒鐘50多個(gè)字费什。當(dāng)然作者提供了另外一些參數(shù)更大的模型可以嘗試钾恢。

作者提到這個(gè)模型可以通過(guò)交互的方式,以生成更長(zhǎng)更連貫的故事鸳址。還可以通過(guò)前綴提示瘩蚪,也就是你寫(xiě)個(gè)開(kāi)頭,模型幫你補(bǔ)充的后面的內(nèi)容.我們可以嘗試

./run  stories42M.bin  1.0  256  "My little pig feeds me."
image.png

有意思的是 起初我的參數(shù)是 "My little pig feeds me" 模型似乎感知到不合理的地方稿黍,強(qiáng)行將me 改為meadow疹瘦, 得到了 “My little pig feeds meadow to the fairheart.” 這樣的開(kāi)頭,所以可以猜測(cè)模型可以對(duì)入?yún)⑦M(jìn)行糾正.后面我們將提示參數(shù)改為"My little pig feeds me." 強(qiáng)制結(jié)尾巡球,導(dǎo)致他只能硬著頭皮去寫(xiě)了

關(guān)于模型的介紹

由于神經(jīng)網(wǎng)絡(luò)架構(gòu)是相同的言沐,所以也可以用 Meta 發(fā)布的 Llama 2 模型邓嘹。但是由于商業(yè)原因,作者無(wú)法提供下載這個(gè)模型险胰,所以你需要自己去獲取(https://github.com/facebookresearch/llama)汹押,獲取之后,通過(guò)程序?qū)⒛P娃D(zhuǎn)換為當(dāng)前項(xiàng)目支持的格式獲取鸯乃。

python  export_meta_llama_bin.py  path/to/llama/model/7B  llama2_7b.bin

這樣你就可以運(yùn)行更大的模型用來(lái)編造故事了鲸阻??缨睡?鸟悴??

對(duì)于大模型執(zhí)行的性能作者提供了一些經(jīng)驗(yàn)奖年,總結(jié)一句就是细诸,在更大的模型或者某些更大規(guī)模的數(shù)據(jù)集上訓(xùn)練,普通的pc基本上很難跑的動(dòng)陋守,當(dāng)然這些不是討論的重點(diǎn)震贵,我們先忽略過(guò)去把。

難能可貴的是作者為了照顧小白水评,提供了從頭開(kāi)始訓(xùn)練模型的示例猩系,我在 TinyStories 上訓(xùn)練了一系列小型模型。訓(xùn)練環(huán)境中(4X A100 40GB GPU)只需要幾個(gè)小時(shí)就可以訓(xùn)練完成中燥。110M 模型需要大約 24 小時(shí)的時(shí)間寇甸。

目前作者提供了 幾種不同參數(shù)的已經(jīng)訓(xùn)練好的模型

image.png

可以看到 其中110M 的model規(guī)模已經(jīng)相當(dāng)于GPT-1,或者GPT-2中最小的規(guī)模疗涉,只是上下文長(zhǎng)度僅為1024拿霉。與 GPT-1/2 架構(gòu)相比,Llama有一些顯著的變化咱扣,包括使用 RoPE 相對(duì)位置嵌入而不是絕對(duì)/學(xué)習(xí)位置嵌入绽淘、MLP 中使用了更加高級(jí)的 SwiGLU 非線性、使用 RMSNorm 而不是 LayerNorm闹伪、所有線性層的偏置都為 False 沪铭,(沒(méi)錯(cuò),上面的話是直接翻譯過(guò)來(lái)的祭往,具體模型原理不太清楚伦意,根據(jù)這些詞大概也許猜測(cè)是做了一些性能優(yōu)化,具體還需要參看相關(guān)論文)硼补。

訓(xùn)練模型

現(xiàn)在激動(dòng)人心的時(shí)刻到了驮肉,讓我們從頭開(kāi)始訓(xùn)練一個(gè) Baby Llama2 模型,首先下載數(shù)據(jù)集已骇,可以不通過(guò)網(wǎng)址下載离钝,貼心的作者直接寫(xiě)好了程序自動(dòng)給我們下載票编,這就是工匠精神呀。直接喂飯到嘴邊的感動(dòng)卵渴。

python  tinystories.py  download

經(jīng)過(guò)漫長(zhǎng)的等待慧域。數(shù)據(jù)集下載完畢得到了類(lèi)似data00.json data01.json……dataxx.json的文件,

image.png

暫時(shí)忽略里面的bin后綴浪读。我們得到了50個(gè)訓(xùn)練文本昔榴,每個(gè)大約200M左右,我們打開(kāi)一個(gè)訓(xùn)練文件碘橘,先看看是什么互订。

image.png

可以看到里面是標(biāo)注好的數(shù)據(jù),包含 提示痘拆, 正文仰禽,關(guān)鍵詞,摘要纺蛆。來(lái)源吐葵,不知道是人工標(biāo)注還是機(jī)器生成的,不過(guò)這個(gè)暫時(shí)不太重要桥氏。

得到訓(xùn)練數(shù)據(jù)之后需要對(duì)模型中單詞進(jìn)行token温峭,以更方便的進(jìn)行訓(xùn)練

python  tinystories.py  pretokenize

實(shí)際上述工作就是對(duì)詞語(yǔ)進(jìn)行token化,每個(gè)詞分配一個(gè)id字支。包含標(biāo)點(diǎn)符號(hào)诚镰。我們可以直接參看代碼

def  process_shard(shard):
 with  open(shard, "r") as  f:
 data = json.load(f) # 打開(kāi)json文件
 all_tokens = []
 for  example  in  tqdm(data): # 迭代每一份數(shù)據(jù)
 text = example["story"] # 只處理政五年字段
 text = text.strip() # 去掉開(kāi)始和結(jié)束的空格
 tokens = enc.encode(text, bos=True, eos=False)  # 編碼文本,將文本轉(zhuǎn)換為tonken
 all_tokens.extend(tokens)
 all_tokens = np.array(all_tokens, dtype=np.uint16) # 將所有的token轉(zhuǎn)換為uint16類(lèi)型的nparray
 tokenized_filename = shard.replace(".json", ".bin")
 with  open(tokenized_filename, "wb") as  f:
 f.write(all_tokens.tobytes())
 print(f"Saved {tokenized_filename}")

代碼比較生硬我們可以通過(guò)打印查看一下這個(gè)過(guò)程的變化祥款。

Lily and Ben are friends. They like to play ……
.[1, 365, 2354, 322, 4111, 526, 7875, 29889, 2688, 763, 304, 1708, 297,……]
每一個(gè)故事的開(kāi)頭都是以1 來(lái)標(biāo)識(shí)。
Lily定義為tonken 365月杉, 以此類(lèi)推刃跛,ps 標(biāo)點(diǎn)符號(hào)和某一句的開(kāi)頭也會(huì)分配tonken

這樣相當(dāng)于準(zhǔn)好好訓(xùn)練數(shù)據(jù)集了。聰明的你一定想到我們可以自己定義一份中文數(shù)據(jù)集苛萎,來(lái)訓(xùn)練自己的模型了哈桨昙。

下一步開(kāi)始訓(xùn)練

python  train.py
image.png

很遺憾訓(xùn)練需要顯卡,貌似不支持cpu腌歉,而且我估計(jì)cpu訓(xùn)練起來(lái)會(huì)非常耗時(shí)蛙酪。
那就,先這樣把翘盖」鹑回頭我們可以看看他的核心C代碼進(jìn)行分析。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末馍驯,一起剝皮案震驚了整個(gè)濱河市阁危,隨后出現(xiàn)的幾起案子玛痊,更是在濱河造成了極大的恐慌,老刑警劉巖狂打,帶你破解...
    沈念sama閱讀 218,284評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件擂煞,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡趴乡,警方通過(guò)查閱死者的電腦和手機(jī)对省,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)晾捏,“玉大人蒿涎,你說(shuō)我怎么就攤上這事∷谒玻” “怎么了同仆?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,614評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)裙品。 經(jīng)常有香客問(wèn)我俗批,道長(zhǎng),這世上最難降的妖魔是什么市怎? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,671評(píng)論 1 293
  • 正文 為了忘掉前任岁忘,我火速辦了婚禮,結(jié)果婚禮上区匠,老公的妹妹穿的比我還像新娘干像。我一直安慰自己,他們只是感情好驰弄,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布麻汰。 她就那樣靜靜地躺著,像睡著了一般戚篙。 火紅的嫁衣襯著肌膚如雪五鲫。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,562評(píng)論 1 305
  • 那天岔擂,我揣著相機(jī)與錄音位喂,去河邊找鬼。 笑死乱灵,一個(gè)胖子當(dāng)著我的面吹牛塑崖,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播痛倚,決...
    沈念sama閱讀 40,309評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼规婆,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起聋呢,我...
    開(kāi)封第一講書(shū)人閱讀 39,223評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤苗踪,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后削锰,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體通铲,經(jīng)...
    沈念sama閱讀 45,668評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評(píng)論 3 336
  • 正文 我和宋清朗相戀三年器贩,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了颅夺。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,981評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蛹稍,死狀恐怖吧黄,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情唆姐,我是刑警寧澤拗慨,帶...
    沈念sama閱讀 35,705評(píng)論 5 347
  • 正文 年R本政府宣布,位于F島的核電站奉芦,受9級(jí)特大地震影響赵抢,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜声功,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評(píng)論 3 330
  • 文/蒙蒙 一烦却、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧先巴,春花似錦其爵、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,904評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至剂邮,卻和暖如春证逻,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背抗斤。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,023評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留丈咐,地道東北人瑞眼。 一個(gè)月前我還...
    沈念sama閱讀 48,146評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像棵逊,于是被迫代替她去往敵國(guó)和親伤疙。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容