(一)大模型簡介

一森逮、概念

1.1榨婆、大模型是什么

大語言模型(英文:Large Language Model,縮寫LLM)褒侧,也稱大型語言模型良风,是一種人工智能模型,旨在理解和生成人類語言璃搜。

大語言模型 (LLM) 指包含數(shù)百億(或更多)參數(shù)的語言模型,這些模型在大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練鳞上,例如國外的有GPT-3 这吻、GPT-4、PaLM 篙议、Galactica 和 LLaMA 等唾糯,國內(nèi)的有ChatGLM、文心一言鬼贱、通義千問移怯、訊飛星火等。

研究界給這些龐大的語言模型起了個(gè)名字这难,稱之為“大語言模型(LLM)”舟误。而 LLM 的一個(gè)杰出應(yīng)用就是 ChatGPT。

GPT-3 擁有1750 億參數(shù)姻乓, PaLM擁有 5400 億參數(shù)嵌溢。

1.2、大模型的應(yīng)用

  • 自然語言處理領(lǐng)域蹋岩,它可以幫助計(jì)算機(jī)更好地理解和生成文本赖草,包括寫文章、回答問題剪个、翻譯語言等秧骑。

  • 信息檢索領(lǐng)域,它可以改進(jìn)搜索引擎扣囊,讓我們更輕松地找到所需的信息乎折。

二、發(fā)展歷程

20世紀(jì)90年代侵歇,語言建模的研究笆檀,最初采用了統(tǒng)計(jì)學(xué)習(xí)方法,通過前面的詞匯來預(yù)測下一個(gè)詞匯盒至。

2003年酗洒,深度學(xué)習(xí)先驅(qū)Bengio在論文《A Neural Probabilistic Language Model》中士修,首次將深度學(xué)習(xí)的思想融入到語言模型中,使用了更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型樱衷。

2018年左右棋嘲,研究人員引入了Transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,通過大量文本數(shù)據(jù)訓(xùn)練這些模型矩桂,使它們能夠通過閱讀大量文本來深入理解語言規(guī)則和模式沸移,就像讓計(jì)算機(jī)閱讀整個(gè)互聯(lián)網(wǎng)一樣。

隨著語言模型規(guī)模的擴(kuò)大(增加模型大小或使用更多數(shù)據(jù))侄榴,模型展現(xiàn)出了一些驚人的能力雹锣,通常在各種任務(wù)中表現(xiàn)顯著提升。這時(shí)我們進(jìn)入了大語言模型(LLM)時(shí)代癞蚕。

三蕊爵、大模型的能力

3.1、涌現(xiàn)能力(emergent abilities)

涌現(xiàn)能力指的是一種令人驚訝的能力桦山,它在小型模型中不明顯攒射,但在大型模型中顯著出現(xiàn)『闼可以類比到物理學(xué)中的相變現(xiàn)象会放,涌現(xiàn)能力的顯現(xiàn)就像是模型性能隨著規(guī)模增大而迅速提升,超過了隨機(jī)水平钉凌,也就是我們常說的量變引起了質(zhì)變咧最。

三個(gè)典型的LLM涌現(xiàn)能力:

上下文學(xué)習(xí):上下文學(xué)習(xí)能力是由 GPT-3 首次引入的。這種能力允許語言模型在提供自然語言指令或多個(gè)任務(wù)示例的情況下御雕,通過理解上下文并生成相應(yīng)輸出的方式來執(zhí)行任務(wù)窗市,而無需額外的訓(xùn)練或參數(shù)更新。

指令遵循:通過使用自然語言描述的多任務(wù)數(shù)據(jù)進(jìn)行微調(diào)饮笛,也就是所謂的指令微調(diào)咨察。LLM能夠根據(jù)任務(wù)指令執(zhí)行任務(wù),且無需事先見過具體示例福青,展示了強(qiáng)大的泛化能力摄狱。

逐步推理:小型語言模型通常難以解決涉及多個(gè)推理步驟的復(fù)雜任務(wù),例如數(shù)學(xué)問題无午。然而媒役,LLM通過采用"思維鏈"推理策略,可以利用包含中間推理步驟的提示機(jī)制來解決這些任務(wù)宪迟,從而得出最終答案酣衷。

3.2、作為基座模型支持多元應(yīng)用的能力

這是一種全新的AI技術(shù)范式次泽,借助于海量無標(biāo)注數(shù)據(jù)的訓(xùn)練穿仪,獲得可以適用于大量下游任務(wù)的大模型(單模態(tài)或者多模態(tài))席爽。多個(gè)應(yīng)用可以只依賴于一個(gè)或少數(shù)幾個(gè)大模型進(jìn)行統(tǒng)一建設(shè)。

使用統(tǒng)一的大模型可以極大地提高研發(fā)效率啊片,相比于分散的模型開發(fā)方式只锻,不僅可以縮短每個(gè)具體應(yīng)用的開發(fā)周期,減少所需人力投入紫谷,也可以基于大模型的推理齐饮、常識(shí)和寫作能力,獲得更好的應(yīng)用效果笤昨,是一項(xiàng)本質(zhì)上的進(jìn)步祖驱。

大模型可以成為AI應(yīng)用開發(fā)的大一統(tǒng)基座模型。

3.3瞒窒、支持對話作為統(tǒng)一入口的能力

這項(xiàng)能力讓大語言模型真正火爆起來捺僻,例如基于對話聊天的ChatGPT。

四根竿、大模型的特點(diǎn)

4.1陵像、巨大的規(guī)模:

LLM通常具有巨大的參數(shù)規(guī)模就珠,可以達(dá)到數(shù)十億甚至數(shù)千億個(gè)參數(shù)寇壳。這使得它們能夠捕捉更多的語言知識(shí)和復(fù)雜的語法結(jié)構(gòu)。

4.2妻怎、預(yù)訓(xùn)練和微調(diào):

LLM采用了預(yù)訓(xùn)練和微調(diào)的學(xué)習(xí)方法壳炎。它們首先在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練(無標(biāo)簽數(shù)據(jù)),學(xué)會(huì)了通用的語言表示和知識(shí)逼侦,然后通過微調(diào)(有標(biāo)簽數(shù)據(jù))適應(yīng)特定任務(wù)匿辩,從而在各種NLP任務(wù)中表現(xiàn)出色。

4.3榛丢、上下文感知:

LLM在處理文本時(shí)具有強(qiáng)大的上下文感知能力铲球,能夠理解和生成依賴于前文的文本內(nèi)容。這使得它們在對話晰赞、文章生成和情境理解方面表現(xiàn)出色稼病。

4.4、多語言支持:

LLM可以用于多種語言掖鱼,不僅限于英語然走。它們的多語言能力使得跨文化和跨語言的應(yīng)用變得更加容易。

4.5戏挡、多模態(tài)支持:

一些LLM已經(jīng)擴(kuò)展到支持多模態(tài)數(shù)據(jù)芍瑞,包括文本、圖像和聲音褐墅。這意味著它們可以理解和生成不同媒體類型的內(nèi)容拆檬,實(shí)現(xiàn)更多樣化的應(yīng)用洪己。

4.6、涌現(xiàn)能力:

LLM表現(xiàn)出令人驚訝的涌現(xiàn)能力秩仆,即在大規(guī)模模型中出現(xiàn)但在小型模型中不明顯的性能提升码泛。這使得它們能夠處理更復(fù)雜的任務(wù)和問題。

4.7澄耍、多領(lǐng)域應(yīng)用:

LLM已經(jīng)被廣泛應(yīng)用于文本生成噪珊、自動(dòng)翻譯、信息檢索齐莲、摘要生成痢站、聊天機(jī)器人、虛擬助手等多個(gè)領(lǐng)域选酗,對人們的日常生活和工作產(chǎn)生了深遠(yuǎn)的影響阵难。

4.8、倫理和風(fēng)險(xiǎn)問題:

盡管LLM具有出色的能力芒填,但它們也引發(fā)了倫理和風(fēng)險(xiǎn)問題呜叫,包括生成有害內(nèi)容、隱私問題殿衰、認(rèn)知偏差等朱庆。因此,研究和應(yīng)用LLM需要謹(jǐn)慎闷祥。

五娱颊、常見大模型

大語言模型的發(fā)展歷程雖然只有短短不到五年的時(shí)間,但是發(fā)展速度相當(dāng)驚人凯砍,截止 2023 年 6 月箱硕,國內(nèi)外有超過百種大模型相繼發(fā)布。按照時(shí)間線給出了 2019 年至 2023 年 6 月比較有影響力并且模型參數(shù)量超過 100 億的大語言模型悟衩,如下圖所示:


常見大模型

5.1剧罩、閉源 LLM (未公開源代碼)

5.1.1、GPT系列

GPT模型:

名稱: GPT(Generative Pre-Training)

研發(fā)公司:OpenAI

時(shí)間:2018 年

特點(diǎn):生成式預(yù)訓(xùn)練語言模型

本質(zhì):通過語言建模將世界知識(shí)壓縮到僅解碼器的 Transformer 模型中座泳,這樣它就可以恢復(fù)(或記憶)世界知識(shí)的語義惠昔,并充當(dāng)通用任務(wù)求解器

GPT

ChatGPT:

名稱:ChatGPT

研發(fā)公司:OpenAI

時(shí)間:2022 年 11 月

特點(diǎn):卓越的會(huì)話能力,出色的人類交流能力

本質(zhì):一個(gè) LLM 應(yīng)用钳榨,基于 GPT-3.5 和 GPT-4

ChatGPT-3

名稱:ChatGPT-3

知識(shí)截止日期: 2021 年 9 月

支持最長輸入:32,000 個(gè)字符

參數(shù): 1750億

特點(diǎn):代碼編寫舰罚、數(shù)學(xué)問題求解、寫作建議薛耻,豐富的知識(shí)儲(chǔ)備营罢,邏輯推理能力,多回合對話,上下文理解饲漾,支持插件機(jī)制蝙搔。

ChatGPT-4

名稱:GPT-4 Turbo, Turbo 就相當(dāng)于是進(jìn)階版的意思

知識(shí)截止日期: 2023 年 4 月

支持最長輸入:128k考传,相當(dāng)于 300 頁文本

參數(shù):預(yù)估1.8 萬億參數(shù)吃型,規(guī)模是 GPT-3 的 10 倍以上

使用地址: https://chat.openai.com/

5.1.2、Claude 系列

研發(fā)公司: Anthropic 公司(OpenAI 離職人員創(chuàng)建)

時(shí)間: 2023 年 3 月 15 日 初版

2023 年 7 月 11 日僚楞,更新至 Claude-2

特點(diǎn):可以完成摘要總結(jié)勤晚、搜索、協(xié)助創(chuàng)作泉褐、問答赐写、編碼等任務(wù)。

參數(shù):預(yù)估 860.1 億

Claude 和 Claude-Instant 兩種模型可供選擇膜赃,其中 Claude Instant 的延遲更低挺邀,性能略差,價(jià)格比完全體的 Claude-v1 要便宜跳座,兩個(gè)模型的上下文窗口都是 9000 個(gè)token(約 5000 個(gè)單詞端铛,或 15 頁)

使用地址: https://claude.ai/chats

5.1.3、PaLM 系列

研發(fā)公司: Google

時(shí)間:2022 年 4 月疲眷,發(fā)布初始版本

2023 年 3 月禾蚕,公開了 API

2023 年 5 月 ,發(fā)布了PaLM 2

本質(zhì):PaLM 基于 Google 提出的 Pathways 機(jī)器學(xué)習(xí)系統(tǒng)搭建咪橙,訓(xùn)練數(shù)據(jù)總量達(dá) 780B 個(gè)字符夕膀,內(nèi)容涵蓋網(wǎng)頁虚倒、書籍美侦、新聞、開源代碼等多種形式的語料魂奥。前 PaLM 共有 8B菠剩、62B、540B 三個(gè)不同參數(shù)量的模型版本耻煤。

參數(shù):預(yù)估 340B具壮,訓(xùn)練數(shù)據(jù)為 PaLM 的 5 倍左右。

使用地址: https://ai.google/discover/palm2/

5.1.4 文心一言

研發(fā)公司:百度

時(shí)間:2023 年 3 月測試版哈蝇, 2019 年發(fā)布 1.0 版棺妓,現(xiàn)已更新到 4.0 版本

參數(shù): 2600 億

本質(zhì):基于飛槳深度學(xué)習(xí)框架進(jìn)行訓(xùn)練

使用地址:https://yiyan.baidu.com/

5.1.5、星火大模型

研發(fā)公司:科大訊飛

時(shí)間:2023 年 5 月 6 日 發(fā)布炮赦,8 月 15 日 升級(jí)到 V2.0 版怜跑, 2023 年 10 月 24 日 V3.0, 全面對標(biāo)ChatGPT

特點(diǎn):多模態(tài)能力,已實(shí)現(xiàn)圖像描述性芬、圖像理解峡眶、圖像推理、識(shí)圖創(chuàng)作植锉、文圖生成辫樱、虛擬人合成

參數(shù):1700 億

參數(shù)說明:盡管比 ChatGPT 3.5 模型 1.5 萬億個(gè)差著數(shù)量級(jí),但 ChatGPT 覆蓋了全球主要語言俊庇,漢語不到其中 10% 的數(shù)據(jù)量狮暑。所以在現(xiàn)有數(shù)據(jù)基礎(chǔ)上,星火大模型比 ChatGPT 更懂中文辉饱。

使用地址: https://xinghuo.xfyun.cn/

5.2心例、開源LLM

5.2.1、LLaMA 系列

參數(shù): 7B 到 70B

特點(diǎn):大規(guī)模的數(shù)據(jù)過濾和清洗技術(shù)鞋囊,以提高數(shù)據(jù)質(zhì)量和多樣性止后,減少噪聲和偏見。LLaMA 模型還使用了高效的數(shù)據(jù)并行和流水線并行技術(shù)溜腐,以加速模型的訓(xùn)練和擴(kuò)展

不需要依賴專有或不可訪問的數(shù)據(jù)集译株。包括 Common Crawl、Wikipedia挺益、OpenWebText2歉糜、RealNews、Books 等望众。

開源地址: https://github.com/facebookresearch/llama

5.2.2匪补、GLM系列

研發(fā)公司:清華大學(xué)和智譜 AI 等

時(shí)間:2023 年 6 月發(fā)布ChatGLM 2, 2023 年 10 月 27 日發(fā)布ChatGLM 3

參數(shù):基于 GLM的ChatGLM 具有 62 億參數(shù)

輸入支持:支持 2048 的上下文長度

開源地址: https://github.com/THUDM
使用地址:https://chatglm.cn/

5.2.3烂翰、通義千問

研發(fā)公司:阿里巴巴

時(shí)間: 2023 年 4 月正式發(fā)布夯缺, 2023 年 8 月,開源了Qwen(通義千問)

參數(shù):70億(7B)Qwen-7B 和140億(14B) Qwen-14B

開源地址: https://github.com/QwenLM/Qwen/tree/main
使用地址:https://tongyi.aliyun.com/

5.2.4甘耿、Baichuan 系列

研發(fā)公司:百川智能

時(shí)間:2023 年 10 月 30 日踊兜,發(fā)布 Baichuan2-192K 大模型

參數(shù):Baichuan-7B 70 億, Baichuan-13B 130億

開源地址: https://github.com/baichuan-inc

六佳恬、什么是 LangChain

6.1捏境、langchain簡介

問題: 盡管大型語言模型的調(diào)用相對簡單,但要?jiǎng)?chuàng)建完整的應(yīng)用程序毁葱,仍然需要大量的定制開發(fā)工作垫言,包括API集成、互動(dòng)邏輯倾剿、數(shù)據(jù)存儲(chǔ)等等

解決: langchain幫助開發(fā)者們快速構(gòu)建基于大型語言模型的端到端應(yīng)用程序或工作流程筷频。

總結(jié): LangChain 框架是一個(gè)開源工具,充分利用了大型語言模型的強(qiáng)大能力,以便開發(fā)各種下游應(yīng)用截驮。它的目標(biāo)是為各種大型語言模型應(yīng)用提供通用接口笑陈,從而簡化應(yīng)用程序的開發(fā)流程。

6.2葵袭、發(fā)展歷史

作者:Harrison Chase

時(shí)間:2022 年 10 月在 github 上開源

發(fā)展歷史

6.3涵妥、核心組件

LangChian 作為一個(gè)大語言模型開發(fā)框架,可以將 LLM 模型(對話模型坡锡、embedding模型等)蓬网、向量數(shù)據(jù)庫、交互層 Prompt鹉勒、外部知識(shí)帆锋、外部代理工具整合到一起,進(jìn)而可以自由構(gòu)建 LLM 應(yīng)用禽额。

LangChain 主要由以下 6 個(gè)核心模塊組成:

模型輸入/輸出(Model I/O):與語言模型交互的接口
數(shù)據(jù)連接(Data connection):與特定應(yīng)用程序的數(shù)據(jù)進(jìn)行交互的接口
鏈(Chains):將組件組合實(shí)現(xiàn)端到端應(yīng)用锯厢。
記憶(Memory):用于鏈的多次運(yùn)行之間持久化應(yīng)用程序狀態(tài);
代理(Agents):擴(kuò)展模型的推理能力脯倒。用于復(fù)雜的應(yīng)用的調(diào)用序列实辑;
回調(diào)(Callbacks):擴(kuò)展模型的推理能力。用于復(fù)雜的應(yīng)用的調(diào)用序列藻丢;

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末剪撬,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子悠反,更是在濱河造成了極大的恐慌残黑,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件斋否,死亡現(xiàn)場離奇詭異梨水,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)如叼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進(jìn)店門冰木,熙熙樓的掌柜王于貴愁眉苦臉地迎上來穷劈,“玉大人笼恰,你說我怎么就攤上這事⌒眨” “怎么了社证?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長评凝。 經(jīng)常有香客問我追葡,道長彼哼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任帜平,我火速辦了婚禮侦啸,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘谬返。我一直安慰自己之斯,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布遣铝。 她就那樣靜靜地躺著佑刷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪酿炸。 梳的紋絲不亂的頭發(fā)上瘫絮,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天,我揣著相機(jī)與錄音填硕,去河邊找鬼麦萤。 笑死,一個(gè)胖子當(dāng)著我的面吹牛扁眯,可吹牛的內(nèi)容都是我干的频鉴。 我是一名探鬼主播,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼恋拍,長吁一口氣:“原來是場噩夢啊……” “哼垛孔!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起施敢,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤周荐,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后僵娃,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體概作,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年默怨,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了讯榕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,137評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡匙睹,死狀恐怖愚屁,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情痕檬,我是刑警寧澤霎槐,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站梦谜,受9級(jí)特大地震影響丘跌,放射性物質(zhì)發(fā)生泄漏袭景。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一闭树、第九天 我趴在偏房一處隱蔽的房頂上張望耸棒。 院中可真熱鬧,春花似錦报辱、人聲如沸榆纽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽奈籽。三九已至,卻和暖如春鸵赫,著一層夾襖步出監(jiān)牢的瞬間衣屏,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工辩棒, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留狼忱,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓一睁,卻偏偏與公主長得像钻弄,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子者吁,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容