（一）大模型簡介

一森逮、概念

1.1榨婆、大模型是什么

大語言模型（英文：Large Language Model，縮寫LLM）褒侧，也稱大型語言模型良风，是一種人工智能模型，旨在理解和生成人類語言璃搜。

大語言模型 (LLM) 指包含數(shù)百億（或更多）參數(shù)的語言模型，這些模型在大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練鳞上，例如國外的有GPT-3 这吻、GPT-4、PaLM 篙议、Galactica 和 LLaMA 等唾糯，國內(nèi)的有ChatGLM、文心一言鬼贱、通義千問移怯、訊飛星火等。

研究界給這些龐大的語言模型起了個(gè)名字这难，稱之為“大語言模型（LLM）”舟误。而 LLM 的一個(gè)杰出應(yīng)用就是 ChatGPT。

GPT-3 擁有1750 億參數(shù)姻乓， PaLM擁有 5400 億參數(shù)嵌溢。

1.2、大模型的應(yīng)用

自然語言處理領(lǐng)域蹋岩，它可以幫助計(jì)算機(jī)更好地理解和生成文本赖草，包括寫文章、回答問題剪个、翻譯語言等秧骑。
信息檢索領(lǐng)域，它可以改進(jìn)搜索引擎扣囊，讓我們更輕松地找到所需的信息乎折。

二、發(fā)展歷程

20世紀(jì)90年代侵歇，語言建模的研究笆檀，最初采用了統(tǒng)計(jì)學(xué)習(xí)方法，通過前面的詞匯來預(yù)測下一個(gè)詞匯盒至。

2003年酗洒，深度學(xué)習(xí)先驅(qū)Bengio在論文《A Neural Probabilistic Language Model》中士修，首次將深度學(xué)習(xí)的思想融入到語言模型中，使用了更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型樱衷。

2018年左右棋嘲，研究人員引入了Transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型，通過大量文本數(shù)據(jù)訓(xùn)練這些模型矩桂，使它們能夠通過閱讀大量文本來深入理解語言規(guī)則和模式沸移，就像讓計(jì)算機(jī)閱讀整個(gè)互聯(lián)網(wǎng)一樣。

隨著語言模型規(guī)模的擴(kuò)大（增加模型大小或使用更多數(shù)據(jù)）侄榴，模型展現(xiàn)出了一些驚人的能力雹锣，通常在各種任務(wù)中表現(xiàn)顯著提升。這時(shí)我們進(jìn)入了大語言模型（LLM）時(shí)代癞蚕。

三蕊爵、大模型的能力

3.1、涌現(xiàn)能力（emergent abilities）

涌現(xiàn)能力指的是一種令人驚訝的能力桦山，它在小型模型中不明顯攒射，但在大型模型中顯著出現(xiàn)『闼可以類比到物理學(xué)中的相變現(xiàn)象会放，涌現(xiàn)能力的顯現(xiàn)就像是模型性能隨著規(guī)模增大而迅速提升，超過了隨機(jī)水平钉凌，也就是我們常說的量變引起了質(zhì)變咧最。

三個(gè)典型的LLM涌現(xiàn)能力：

上下文學(xué)習(xí)：上下文學(xué)習(xí)能力是由 GPT-3 首次引入的。這種能力允許語言模型在提供自然語言指令或多個(gè)任務(wù)示例的情況下御雕，通過理解上下文并生成相應(yīng)輸出的方式來執(zhí)行任務(wù)窗市，而無需額外的訓(xùn)練或參數(shù)更新。

指令遵循：通過使用自然語言描述的多任務(wù)數(shù)據(jù)進(jìn)行微調(diào)饮笛，也就是所謂的指令微調(diào)咨察。LLM能夠根據(jù)任務(wù)指令執(zhí)行任務(wù)，且無需事先見過具體示例福青，展示了強(qiáng)大的泛化能力摄狱。

逐步推理：小型語言模型通常難以解決涉及多個(gè)推理步驟的復(fù)雜任務(wù)，例如數(shù)學(xué)問題无午。然而媒役，LLM通過采用"思維鏈"推理策略，可以利用包含中間推理步驟的提示機(jī)制來解決這些任務(wù)宪迟，從而得出最終答案酣衷。

3.2、作為基座模型支持多元應(yīng)用的能力

這是一種全新的AI技術(shù)范式次泽，借助于海量無標(biāo)注數(shù)據(jù)的訓(xùn)練穿仪，獲得可以適用于大量下游任務(wù)的大模型（單模態(tài)或者多模態(tài)）席爽。多個(gè)應(yīng)用可以只依賴于一個(gè)或少數(shù)幾個(gè)大模型進(jìn)行統(tǒng)一建設(shè)。

使用統(tǒng)一的大模型可以極大地提高研發(fā)效率啊片，相比于分散的模型開發(fā)方式只锻，不僅可以縮短每個(gè)具體應(yīng)用的開發(fā)周期，減少所需人力投入紫谷，也可以基于大模型的推理齐饮、常識(shí)和寫作能力，獲得更好的應(yīng)用效果笤昨，是一項(xiàng)本質(zhì)上的進(jìn)步祖驱。

大模型可以成為AI應(yīng)用開發(fā)的大一統(tǒng)基座模型。

3.3瞒窒、支持對話作為統(tǒng)一入口的能力

這項(xiàng)能力讓大語言模型真正火爆起來捺僻，例如基于對話聊天的ChatGPT。

四根竿、大模型的特點(diǎn)

4.1陵像、巨大的規(guī)模：

LLM通常具有巨大的參數(shù)規(guī)模就珠，可以達(dá)到數(shù)十億甚至數(shù)千億個(gè)參數(shù)寇壳。這使得它們能夠捕捉更多的語言知識(shí)和復(fù)雜的語法結(jié)構(gòu)。

4.2妻怎、預(yù)訓(xùn)練和微調(diào)：

LLM采用了預(yù)訓(xùn)練和微調(diào)的學(xué)習(xí)方法壳炎。它們首先在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練（無標(biāo)簽數(shù)據(jù)），學(xué)會(huì)了通用的語言表示和知識(shí)逼侦，然后通過微調(diào)（有標(biāo)簽數(shù)據(jù)）適應(yīng)特定任務(wù)匿辩，從而在各種NLP任務(wù)中表現(xiàn)出色。

4.3榛丢、上下文感知：

LLM在處理文本時(shí)具有強(qiáng)大的上下文感知能力铲球，能夠理解和生成依賴于前文的文本內(nèi)容。這使得它們在對話晰赞、文章生成和情境理解方面表現(xiàn)出色稼病。

4.4、多語言支持：

LLM可以用于多種語言掖鱼，不僅限于英語然走。它們的多語言能力使得跨文化和跨語言的應(yīng)用變得更加容易。

4.5戏挡、多模態(tài)支持：

一些LLM已經(jīng)擴(kuò)展到支持多模態(tài)數(shù)據(jù)芍瑞，包括文本、圖像和聲音褐墅。這意味著它們可以理解和生成不同媒體類型的內(nèi)容拆檬，實(shí)現(xiàn)更多樣化的應(yīng)用洪己。

4.6、涌現(xiàn)能力：

LLM表現(xiàn)出令人驚訝的涌現(xiàn)能力秩仆，即在大規(guī)模模型中出現(xiàn)但在小型模型中不明顯的性能提升码泛。這使得它們能夠處理更復(fù)雜的任務(wù)和問題。

4.7澄耍、多領(lǐng)域應(yīng)用：

LLM已經(jīng)被廣泛應(yīng)用于文本生成噪珊、自動(dòng)翻譯、信息檢索齐莲、摘要生成痢站、聊天機(jī)器人、虛擬助手等多個(gè)領(lǐng)域选酗，對人們的日常生活和工作產(chǎn)生了深遠(yuǎn)的影響阵难。

4.8、倫理和風(fēng)險(xiǎn)問題：

盡管LLM具有出色的能力芒填，但它們也引發(fā)了倫理和風(fēng)險(xiǎn)問題呜叫，包括生成有害內(nèi)容、隱私問題殿衰、認(rèn)知偏差等朱庆。因此，研究和應(yīng)用LLM需要謹(jǐn)慎闷祥。

五娱颊、常見大模型

大語言模型的發(fā)展歷程雖然只有短短不到五年的時(shí)間，但是發(fā)展速度相當(dāng)驚人凯砍，截止 2023 年 6 月箱硕，國內(nèi)外有超過百種大模型相繼發(fā)布。按照時(shí)間線給出了 2019 年至 2023 年 6 月比較有影響力并且模型參數(shù)量超過 100 億的大語言模型悟衩，如下圖所示：

常見大模型

5.1剧罩、閉源 LLM (未公開源代碼)

5.1.1、GPT系列

GPT模型：

名稱： GPT（Generative Pre-Training）

研發(fā)公司：OpenAI

時(shí)間：2018 年

特點(diǎn)：生成式預(yù)訓(xùn)練語言模型

本質(zhì)：通過語言建模將世界知識(shí)壓縮到僅解碼器的 Transformer 模型中座泳，這樣它就可以恢復(fù)(或記憶)世界知識(shí)的語義惠昔，并充當(dāng)通用任務(wù)求解器

GPT

ChatGPT：

名稱：ChatGPT

研發(fā)公司：OpenAI

時(shí)間：2022 年 11 月

特點(diǎn)：卓越的會(huì)話能力，出色的人類交流能力

本質(zhì)：一個(gè) LLM 應(yīng)用钳榨，基于 GPT-3.5 和 GPT-4

ChatGPT-3

名稱：ChatGPT-3

知識(shí)截止日期： 2021 年 9 月

支持最長輸入：32,000 個(gè)字符

參數(shù)： 1750億

特點(diǎn)：代碼編寫舰罚、數(shù)學(xué)問題求解、寫作建議薛耻，豐富的知識(shí)儲(chǔ)備营罢，邏輯推理能力，多回合對話，上下文理解饲漾，支持插件機(jī)制蝙搔。

ChatGPT-4

名稱：GPT-4 Turbo， Turbo 就相當(dāng)于是進(jìn)階版的意思

知識(shí)截止日期： 2023 年 4 月

支持最長輸入：128k考传，相當(dāng)于 300 頁文本

參數(shù)：預(yù)估1.8 萬億參數(shù)吃型，規(guī)模是 GPT-3 的 10 倍以上

使用地址： https://chat.openai.com/

5.1.2、Claude 系列

研發(fā)公司： Anthropic 公司（OpenAI 離職人員創(chuàng)建）

時(shí)間： 2023 年 3 月 15 日初版

2023 年 7 月 11 日僚楞，更新至 Claude-2

特點(diǎn)：可以完成摘要總結(jié)勤晚、搜索、協(xié)助創(chuàng)作泉褐、問答赐写、編碼等任務(wù)。

參數(shù)：預(yù)估 860.1 億

Claude 和 Claude-Instant 兩種模型可供選擇膜赃，其中 Claude Instant 的延遲更低挺邀，性能略差，價(jià)格比完全體的 Claude-v1 要便宜跳座，兩個(gè)模型的上下文窗口都是 9000 個(gè)token（約 5000 個(gè)單詞端铛，或 15 頁）

使用地址： https://claude.ai/chats

5.1.3、PaLM 系列

研發(fā)公司： Google

時(shí)間：2022 年 4 月疲眷，發(fā)布初始版本

2023 年 3 月禾蚕，公開了 API

2023 年 5 月，發(fā)布了PaLM 2

本質(zhì)：PaLM 基于 Google 提出的 Pathways 機(jī)器學(xué)習(xí)系統(tǒng)搭建咪橙，訓(xùn)練數(shù)據(jù)總量達(dá) 780B 個(gè)字符夕膀，內(nèi)容涵蓋網(wǎng)頁虚倒、書籍美侦、新聞、開源代碼等多種形式的語料魂奥。前 PaLM 共有 8B菠剩、62B、540B 三個(gè)不同參數(shù)量的模型版本耻煤。

參數(shù)：預(yù)估 340B具壮，訓(xùn)練數(shù)據(jù)為 PaLM 的 5 倍左右。

使用地址： https://ai.google/discover/palm2/

5.1.4 文心一言

研發(fā)公司：百度

時(shí)間：2023 年 3 月測試版哈蝇， 2019 年發(fā)布 1.0 版棺妓，現(xiàn)已更新到 4.0 版本

參數(shù)： 2600 億

本質(zhì)：基于飛槳深度學(xué)習(xí)框架進(jìn)行訓(xùn)練

使用地址：https://yiyan.baidu.com/

5.1.5、星火大模型

研發(fā)公司：科大訊飛

時(shí)間：2023 年 5 月 6 日發(fā)布炮赦，8 月 15 日升級(jí)到 V2.0 版怜跑， 2023 年 10 月 24 日 V3.0，全面對標(biāo)ChatGPT

特點(diǎn)：多模態(tài)能力，已實(shí)現(xiàn)圖像描述性芬、圖像理解峡眶、圖像推理、識(shí)圖創(chuàng)作植锉、文圖生成辫樱、虛擬人合成

參數(shù)：1700 億

參數(shù)說明：盡管比 ChatGPT 3.5 模型 1.5 萬億個(gè)差著數(shù)量級(jí)，但 ChatGPT 覆蓋了全球主要語言俊庇，漢語不到其中 10% 的數(shù)據(jù)量狮暑。所以在現(xiàn)有數(shù)據(jù)基礎(chǔ)上，星火大模型比 ChatGPT 更懂中文辉饱。

使用地址： https://xinghuo.xfyun.cn/

5.2心例、開源LLM

5.2.1、LLaMA 系列

參數(shù)： 7B 到 70B

特點(diǎn)：大規(guī)模的數(shù)據(jù)過濾和清洗技術(shù)鞋囊，以提高數(shù)據(jù)質(zhì)量和多樣性止后，減少噪聲和偏見。LLaMA 模型還使用了高效的數(shù)據(jù)并行和流水線并行技術(shù)溜腐，以加速模型的訓(xùn)練和擴(kuò)展

不需要依賴專有或不可訪問的數(shù)據(jù)集译株。包括 Common Crawl、Wikipedia挺益、OpenWebText2歉糜、RealNews、Books 等望众。

開源地址： https://github.com/facebookresearch/llama

5.2.2匪补、GLM系列

研發(fā)公司：清華大學(xué)和智譜 AI 等

時(shí)間：2023 年 6 月發(fā)布ChatGLM 2， 2023 年 10 月 27 日發(fā)布ChatGLM 3

參數(shù)：基于 GLM的ChatGLM 具有 62 億參數(shù)

輸入支持：支持 2048 的上下文長度

開源地址： https://github.com/THUDM
使用地址：https://chatglm.cn/

5.2.3烂翰、通義千問

研發(fā)公司：阿里巴巴

時(shí)間： 2023 年 4 月正式發(fā)布夯缺， 2023 年 8 月，開源了Qwen（通義千問）

參數(shù)：70億（7B）Qwen-7B 和140億（14B） Qwen-14B

開源地址： https://github.com/QwenLM/Qwen/tree/main
使用地址：https://tongyi.aliyun.com/

5.2.4甘耿、Baichuan 系列

研發(fā)公司：百川智能

時(shí)間：2023 年 10 月 30 日踊兜，發(fā)布 Baichuan2-192K 大模型

參數(shù)：Baichuan-7B 70 億， Baichuan-13B 130億

開源地址： https://github.com/baichuan-inc

六佳恬、什么是 LangChain

6.1捏境、langchain簡介

問題： 盡管大型語言模型的調(diào)用相對簡單，但要?jiǎng)?chuàng)建完整的應(yīng)用程序毁葱，仍然需要大量的定制開發(fā)工作垫言，包括API集成、互動(dòng)邏輯倾剿、數(shù)據(jù)存儲(chǔ)等等

解決： langchain幫助開發(fā)者們快速構(gòu)建基于大型語言模型的端到端應(yīng)用程序或工作流程筷频。

總結(jié)： LangChain 框架是一個(gè)開源工具，充分利用了大型語言模型的強(qiáng)大能力，以便開發(fā)各種下游應(yīng)用截驮。它的目標(biāo)是為各種大型語言模型應(yīng)用提供通用接口笑陈，從而簡化應(yīng)用程序的開發(fā)流程。

6.2葵袭、發(fā)展歷史

作者：Harrison Chase

時(shí)間：2022 年 10 月在 github 上開源

發(fā)展歷史

6.3涵妥、核心組件

LangChian 作為一個(gè)大語言模型開發(fā)框架，可以將 LLM 模型（對話模型坡锡、embedding模型等）蓬网、向量數(shù)據(jù)庫、交互層 Prompt鹉勒、外部知識(shí)帆锋、外部代理工具整合到一起，進(jìn)而可以自由構(gòu)建 LLM 應(yīng)用禽额。

LangChain 主要由以下 6 個(gè)核心模塊組成:

模型輸入/輸出（Model I/O）：與語言模型交互的接口
數(shù)據(jù)連接（Data connection）：與特定應(yīng)用程序的數(shù)據(jù)進(jìn)行交互的接口
鏈（Chains）：將組件組合實(shí)現(xiàn)端到端應(yīng)用锯厢。
記憶（Memory）：用于鏈的多次運(yùn)行之間持久化應(yīng)用程序狀態(tài)；
代理（Agents）：擴(kuò)展模型的推理能力脯倒。用于復(fù)雜的應(yīng)用的調(diào)用序列实辑；
回調(diào)（Callbacks）：擴(kuò)展模型的推理能力。用于復(fù)雜的應(yīng)用的調(diào)用序列藻丢；

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末剪撬，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子悠反，更是在濱河造成了極大的恐慌残黑，老刑警劉巖，帶你破解...
沈念sama閱讀 206,968評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件斋否，死亡現(xiàn)場離奇詭異梨水，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)如叼，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,601評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門冰木，熙熙樓的掌柜王于貴愁眉苦臉地迎上來穷劈，“玉大人笼恰，你說我怎么就攤上這事⌒眨” “怎么了社证？”我有些...
開封第一講書人閱讀 153,220評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長评凝。經(jīng)常有香客問我追葡，道長彼哼，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,416評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任帜平，我火速辦了婚禮侦啸，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘谬返。我一直安慰自己之斯，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,425評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布遣铝。她就那樣靜靜地躺著佑刷，像睡著了一般。火紅的嫁衣襯著肌膚如雪酿炸。梳的紋絲不亂的頭發(fā)上瘫絮，一...
開封第一講書人閱讀 49,144評論 1贊 285
城市分裂傳說
那天，我揣著相機(jī)與錄音填硕，去河邊找鬼麦萤。笑死，一個(gè)胖子當(dāng)著我的面吹牛扁眯，可吹牛的內(nèi)容都是我干的频鉴。我是一名探鬼主播，決...
沈念sama閱讀 38,432評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼恋拍，長吁一口氣：“原來是場噩夢啊……” “哼垛孔！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起施敢，我...
開封第一講書人閱讀 37,088評論 0贊 261
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤周荐，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后僵娃，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體概作，經(jīng)...
沈念sama閱讀 43,586評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,028評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年默怨，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了讯榕。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,137評論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡匙睹，死狀恐怖愚屁，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情痕檬，我是刑警寧澤霎槐，帶...
沈念sama閱讀 33,783評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站梦谜，受9級(jí)特大地震影響丘跌，放射性物質(zhì)發(fā)生泄漏袭景。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,343評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一闭树、第九天我趴在偏房一處隱蔽的房頂上張望耸棒。院中可真熱鬧，春花似錦报辱、人聲如沸榆纽。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,333評論 0贊 19
一樁弒父案捏肢，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽奈籽。三九已至，卻和暖如春鸵赫，著一層夾襖步出監(jiān)牢的瞬間衣屏，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,559評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工辩棒，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留狼忱，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,595評論 2贊 355
代替公主和親
正文我出身青樓一睁，卻偏偏與公主長得像钻弄，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子者吁，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,901評論 2贊 345