一森逮、概念
1.1榨婆、大模型是什么
大語言模型(英文:Large Language Model,縮寫LLM)褒侧,也稱大型語言模型良风,是一種人工智能模型,旨在理解和生成人類語言璃搜。
大語言模型 (LLM) 指包含數(shù)百億(或更多)參數(shù)的語言模型,這些模型在大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練鳞上,例如國外的有GPT-3 这吻、GPT-4、PaLM 篙议、Galactica 和 LLaMA 等唾糯,國內(nèi)的有ChatGLM、文心一言鬼贱、通義千問移怯、訊飛星火等。
研究界給這些龐大的語言模型起了個(gè)名字这难,稱之為“大語言模型(LLM)”舟误。而 LLM 的一個(gè)杰出應(yīng)用就是 ChatGPT。
GPT-3 擁有1750 億參數(shù)姻乓, PaLM擁有 5400 億參數(shù)嵌溢。
1.2、大模型的應(yīng)用
自然語言處理領(lǐng)域蹋岩,它可以幫助計(jì)算機(jī)更好地理解和生成文本赖草,包括寫文章、回答問題剪个、翻譯語言等秧骑。
信息檢索領(lǐng)域,它可以改進(jìn)搜索引擎扣囊,讓我們更輕松地找到所需的信息乎折。
二、發(fā)展歷程
20世紀(jì)90年代侵歇,語言建模的研究笆檀,最初采用了統(tǒng)計(jì)學(xué)習(xí)方法,通過前面的詞匯來預(yù)測下一個(gè)詞匯盒至。
2003年酗洒,深度學(xué)習(xí)先驅(qū)Bengio在論文《A Neural Probabilistic Language Model》中士修,首次將深度學(xué)習(xí)的思想融入到語言模型中,使用了更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型樱衷。
2018年左右棋嘲,研究人員引入了Transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,通過大量文本數(shù)據(jù)訓(xùn)練這些模型矩桂,使它們能夠通過閱讀大量文本來深入理解語言規(guī)則和模式沸移,就像讓計(jì)算機(jī)閱讀整個(gè)互聯(lián)網(wǎng)一樣。
隨著語言模型規(guī)模的擴(kuò)大(增加模型大小或使用更多數(shù)據(jù))侄榴,模型展現(xiàn)出了一些驚人的能力雹锣,通常在各種任務(wù)中表現(xiàn)顯著提升。這時(shí)我們進(jìn)入了大語言模型(LLM)時(shí)代癞蚕。
三蕊爵、大模型的能力
3.1、涌現(xiàn)能力(emergent abilities)
涌現(xiàn)能力指的是一種令人驚訝的能力桦山,它在小型模型中不明顯攒射,但在大型模型中顯著出現(xiàn)『闼可以類比到物理學(xué)中的相變現(xiàn)象会放,涌現(xiàn)能力的顯現(xiàn)就像是模型性能隨著規(guī)模增大而迅速提升,超過了隨機(jī)水平钉凌,也就是我們常說的量變引起了質(zhì)變咧最。
三個(gè)典型的LLM涌現(xiàn)能力:
上下文學(xué)習(xí):上下文學(xué)習(xí)能力是由 GPT-3 首次引入的。這種能力允許語言模型在提供自然語言指令或多個(gè)任務(wù)示例的情況下御雕,通過理解上下文并生成相應(yīng)輸出的方式來執(zhí)行任務(wù)窗市,而無需額外的訓(xùn)練或參數(shù)更新。
指令遵循:通過使用自然語言描述的多任務(wù)數(shù)據(jù)進(jìn)行微調(diào)饮笛,也就是所謂的指令微調(diào)咨察。LLM能夠根據(jù)任務(wù)指令執(zhí)行任務(wù),且無需事先見過具體示例福青,展示了強(qiáng)大的泛化能力摄狱。
逐步推理:小型語言模型通常難以解決涉及多個(gè)推理步驟的復(fù)雜任務(wù),例如數(shù)學(xué)問題无午。然而媒役,LLM通過采用"思維鏈"推理策略,可以利用包含中間推理步驟的提示機(jī)制來解決這些任務(wù)宪迟,從而得出最終答案酣衷。
3.2、作為基座模型支持多元應(yīng)用的能力
這是一種全新的AI技術(shù)范式次泽,借助于海量無標(biāo)注數(shù)據(jù)的訓(xùn)練穿仪,獲得可以適用于大量下游任務(wù)的大模型(單模態(tài)或者多模態(tài))席爽。多個(gè)應(yīng)用可以只依賴于一個(gè)或少數(shù)幾個(gè)大模型進(jìn)行統(tǒng)一建設(shè)。
使用統(tǒng)一的大模型可以極大地提高研發(fā)效率啊片,相比于分散的模型開發(fā)方式只锻,不僅可以縮短每個(gè)具體應(yīng)用的開發(fā)周期,減少所需人力投入紫谷,也可以基于大模型的推理齐饮、常識(shí)和寫作能力,獲得更好的應(yīng)用效果笤昨,是一項(xiàng)本質(zhì)上的進(jìn)步祖驱。
大模型可以成為AI應(yīng)用開發(fā)的大一統(tǒng)基座模型。
3.3瞒窒、支持對話作為統(tǒng)一入口的能力
這項(xiàng)能力讓大語言模型真正火爆起來捺僻,例如基于對話聊天的ChatGPT。
四根竿、大模型的特點(diǎn)
4.1陵像、巨大的規(guī)模:
LLM通常具有巨大的參數(shù)規(guī)模就珠,可以達(dá)到數(shù)十億甚至數(shù)千億個(gè)參數(shù)寇壳。這使得它們能夠捕捉更多的語言知識(shí)和復(fù)雜的語法結(jié)構(gòu)。
4.2妻怎、預(yù)訓(xùn)練和微調(diào):
LLM采用了預(yù)訓(xùn)練和微調(diào)的學(xué)習(xí)方法壳炎。它們首先在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練(無標(biāo)簽數(shù)據(jù)),學(xué)會(huì)了通用的語言表示和知識(shí)逼侦,然后通過微調(diào)(有標(biāo)簽數(shù)據(jù))適應(yīng)特定任務(wù)匿辩,從而在各種NLP任務(wù)中表現(xiàn)出色。
4.3榛丢、上下文感知:
LLM在處理文本時(shí)具有強(qiáng)大的上下文感知能力铲球,能夠理解和生成依賴于前文的文本內(nèi)容。這使得它們在對話晰赞、文章生成和情境理解方面表現(xiàn)出色稼病。
4.4、多語言支持:
LLM可以用于多種語言掖鱼,不僅限于英語然走。它們的多語言能力使得跨文化和跨語言的應(yīng)用變得更加容易。
4.5戏挡、多模態(tài)支持:
一些LLM已經(jīng)擴(kuò)展到支持多模態(tài)數(shù)據(jù)芍瑞,包括文本、圖像和聲音褐墅。這意味著它們可以理解和生成不同媒體類型的內(nèi)容拆檬,實(shí)現(xiàn)更多樣化的應(yīng)用洪己。
4.6、涌現(xiàn)能力:
LLM表現(xiàn)出令人驚訝的涌現(xiàn)能力秩仆,即在大規(guī)模模型中出現(xiàn)但在小型模型中不明顯的性能提升码泛。這使得它們能夠處理更復(fù)雜的任務(wù)和問題。
4.7澄耍、多領(lǐng)域應(yīng)用:
LLM已經(jīng)被廣泛應(yīng)用于文本生成噪珊、自動(dòng)翻譯、信息檢索齐莲、摘要生成痢站、聊天機(jī)器人、虛擬助手等多個(gè)領(lǐng)域选酗,對人們的日常生活和工作產(chǎn)生了深遠(yuǎn)的影響阵难。
4.8、倫理和風(fēng)險(xiǎn)問題:
盡管LLM具有出色的能力芒填,但它們也引發(fā)了倫理和風(fēng)險(xiǎn)問題呜叫,包括生成有害內(nèi)容、隱私問題殿衰、認(rèn)知偏差等朱庆。因此,研究和應(yīng)用LLM需要謹(jǐn)慎闷祥。
五娱颊、常見大模型
大語言模型的發(fā)展歷程雖然只有短短不到五年的時(shí)間,但是發(fā)展速度相當(dāng)驚人凯砍,截止 2023 年 6 月箱硕,國內(nèi)外有超過百種大模型相繼發(fā)布。按照時(shí)間線給出了 2019 年至 2023 年 6 月比較有影響力并且模型參數(shù)量超過 100 億的大語言模型悟衩,如下圖所示:
5.1剧罩、閉源 LLM (未公開源代碼)
5.1.1、GPT系列
GPT模型:
名稱: GPT(Generative Pre-Training)
研發(fā)公司:OpenAI
時(shí)間:2018 年
特點(diǎn):生成式預(yù)訓(xùn)練語言模型
本質(zhì):通過語言建模將世界知識(shí)壓縮到僅解碼器的 Transformer 模型中座泳,這樣它就可以恢復(fù)(或記憶)世界知識(shí)的語義惠昔,并充當(dāng)通用任務(wù)求解器
ChatGPT:
名稱:ChatGPT
研發(fā)公司:OpenAI
時(shí)間:2022 年 11 月
特點(diǎn):卓越的會(huì)話能力,出色的人類交流能力
本質(zhì):一個(gè) LLM 應(yīng)用钳榨,基于 GPT-3.5 和 GPT-4
ChatGPT-3
名稱:ChatGPT-3
知識(shí)截止日期: 2021 年 9 月
支持最長輸入:32,000 個(gè)字符
參數(shù): 1750億
特點(diǎn):代碼編寫舰罚、數(shù)學(xué)問題求解、寫作建議薛耻,豐富的知識(shí)儲(chǔ)備营罢,邏輯推理能力,多回合對話,上下文理解饲漾,支持插件機(jī)制蝙搔。
ChatGPT-4
名稱:GPT-4 Turbo, Turbo 就相當(dāng)于是進(jìn)階版的意思
知識(shí)截止日期: 2023 年 4 月
支持最長輸入:128k考传,相當(dāng)于 300 頁文本
參數(shù):預(yù)估1.8 萬億參數(shù)吃型,規(guī)模是 GPT-3 的 10 倍以上
使用地址: https://chat.openai.com/
5.1.2、Claude 系列
研發(fā)公司: Anthropic 公司(OpenAI 離職人員創(chuàng)建)
時(shí)間: 2023 年 3 月 15 日 初版
2023 年 7 月 11 日僚楞,更新至 Claude-2
特點(diǎn):可以完成摘要總結(jié)勤晚、搜索、協(xié)助創(chuàng)作泉褐、問答赐写、編碼等任務(wù)。
參數(shù):預(yù)估 860.1 億
Claude 和 Claude-Instant 兩種模型可供選擇膜赃,其中 Claude Instant 的延遲更低挺邀,性能略差,價(jià)格比完全體的 Claude-v1 要便宜跳座,兩個(gè)模型的上下文窗口都是 9000 個(gè)token(約 5000 個(gè)單詞端铛,或 15 頁)
使用地址: https://claude.ai/chats
5.1.3、PaLM 系列
研發(fā)公司: Google
時(shí)間:2022 年 4 月疲眷,發(fā)布初始版本
2023 年 3 月禾蚕,公開了 API
2023 年 5 月 ,發(fā)布了PaLM 2
本質(zhì):PaLM 基于 Google 提出的 Pathways 機(jī)器學(xué)習(xí)系統(tǒng)搭建咪橙,訓(xùn)練數(shù)據(jù)總量達(dá) 780B 個(gè)字符夕膀,內(nèi)容涵蓋網(wǎng)頁虚倒、書籍美侦、新聞、開源代碼等多種形式的語料魂奥。前 PaLM 共有 8B菠剩、62B、540B 三個(gè)不同參數(shù)量的模型版本耻煤。
參數(shù):預(yù)估 340B具壮,訓(xùn)練數(shù)據(jù)為 PaLM 的 5 倍左右。
使用地址: https://ai.google/discover/palm2/
5.1.4 文心一言
研發(fā)公司:百度
時(shí)間:2023 年 3 月測試版哈蝇, 2019 年發(fā)布 1.0 版棺妓,現(xiàn)已更新到 4.0 版本
參數(shù): 2600 億
本質(zhì):基于飛槳深度學(xué)習(xí)框架進(jìn)行訓(xùn)練
5.1.5、星火大模型
研發(fā)公司:科大訊飛
時(shí)間:2023 年 5 月 6 日 發(fā)布炮赦,8 月 15 日 升級(jí)到 V2.0 版怜跑, 2023 年 10 月 24 日 V3.0, 全面對標(biāo)ChatGPT
特點(diǎn):多模態(tài)能力,已實(shí)現(xiàn)圖像描述性芬、圖像理解峡眶、圖像推理、識(shí)圖創(chuàng)作植锉、文圖生成辫樱、虛擬人合成
參數(shù):1700 億
參數(shù)說明:盡管比 ChatGPT 3.5 模型 1.5 萬億個(gè)差著數(shù)量級(jí),但 ChatGPT 覆蓋了全球主要語言俊庇,漢語不到其中 10% 的數(shù)據(jù)量狮暑。所以在現(xiàn)有數(shù)據(jù)基礎(chǔ)上,星火大模型比 ChatGPT 更懂中文辉饱。
使用地址: https://xinghuo.xfyun.cn/
5.2心例、開源LLM
5.2.1、LLaMA 系列
參數(shù): 7B 到 70B
特點(diǎn):大規(guī)模的數(shù)據(jù)過濾和清洗技術(shù)鞋囊,以提高數(shù)據(jù)質(zhì)量和多樣性止后,減少噪聲和偏見。LLaMA 模型還使用了高效的數(shù)據(jù)并行和流水線并行技術(shù)溜腐,以加速模型的訓(xùn)練和擴(kuò)展
不需要依賴專有或不可訪問的數(shù)據(jù)集译株。包括 Common Crawl、Wikipedia挺益、OpenWebText2歉糜、RealNews、Books 等望众。
開源地址: https://github.com/facebookresearch/llama
5.2.2匪补、GLM系列
研發(fā)公司:清華大學(xué)和智譜 AI 等
時(shí)間:2023 年 6 月發(fā)布ChatGLM 2, 2023 年 10 月 27 日發(fā)布ChatGLM 3
參數(shù):基于 GLM的ChatGLM 具有 62 億參數(shù)
輸入支持:支持 2048 的上下文長度
開源地址: https://github.com/THUDM
使用地址:https://chatglm.cn/
5.2.3烂翰、通義千問
研發(fā)公司:阿里巴巴
時(shí)間: 2023 年 4 月正式發(fā)布夯缺, 2023 年 8 月,開源了Qwen(通義千問)
參數(shù):70億(7B)Qwen-7B 和140億(14B) Qwen-14B
開源地址: https://github.com/QwenLM/Qwen/tree/main
使用地址:https://tongyi.aliyun.com/
5.2.4甘耿、Baichuan 系列
研發(fā)公司:百川智能
時(shí)間:2023 年 10 月 30 日踊兜,發(fā)布 Baichuan2-192K 大模型
參數(shù):Baichuan-7B 70 億, Baichuan-13B 130億
開源地址: https://github.com/baichuan-inc
六佳恬、什么是 LangChain
6.1捏境、langchain簡介
問題: 盡管大型語言模型的調(diào)用相對簡單,但要?jiǎng)?chuàng)建完整的應(yīng)用程序毁葱,仍然需要大量的定制開發(fā)工作垫言,包括API集成、互動(dòng)邏輯倾剿、數(shù)據(jù)存儲(chǔ)等等
解決: langchain幫助開發(fā)者們快速構(gòu)建基于大型語言模型的端到端應(yīng)用程序或工作流程筷频。
總結(jié): LangChain 框架是一個(gè)開源工具,充分利用了大型語言模型的強(qiáng)大能力,以便開發(fā)各種下游應(yīng)用截驮。它的目標(biāo)是為各種大型語言模型應(yīng)用提供通用接口笑陈,從而簡化應(yīng)用程序的開發(fā)流程。
6.2葵袭、發(fā)展歷史
作者:Harrison Chase
時(shí)間:2022 年 10 月在 github 上開源
6.3涵妥、核心組件
LangChian 作為一個(gè)大語言模型開發(fā)框架,可以將 LLM 模型(對話模型坡锡、embedding模型等)蓬网、向量數(shù)據(jù)庫、交互層 Prompt鹉勒、外部知識(shí)帆锋、外部代理工具整合到一起,進(jìn)而可以自由構(gòu)建 LLM 應(yīng)用禽额。
LangChain 主要由以下 6 個(gè)核心模塊組成:
模型輸入/輸出(Model I/O):與語言模型交互的接口
數(shù)據(jù)連接(Data connection):與特定應(yīng)用程序的數(shù)據(jù)進(jìn)行交互的接口
鏈(Chains):將組件組合實(shí)現(xiàn)端到端應(yīng)用锯厢。
記憶(Memory):用于鏈的多次運(yùn)行之間持久化應(yīng)用程序狀態(tài);
代理(Agents):擴(kuò)展模型的推理能力脯倒。用于復(fù)雜的應(yīng)用的調(diào)用序列实辑;
回調(diào)(Callbacks):擴(kuò)展模型的推理能力。用于復(fù)雜的應(yīng)用的調(diào)用序列藻丢;