【AI大模型】深度學(xué)習(xí)基礎(chǔ)

一、深度學(xué)習(xí)基本概念

1. 認(rèn)識機(jī)器學(xué)習(xí)

人工智能：是一個專業(yè)領(lǐng)域蕉毯。
機(jī)器學(xué)習(xí)：是人工智能的一個分支蚓挤。
深度學(xué)習(xí)：是機(jī)器學(xué)習(xí)的一個分支，差異是深度學(xué)習(xí)引入了人工神經(jīng)網(wǎng)絡(luò)车份。
LM大模型：是深度學(xué)習(xí)的一個分支谋减，分為：LLM大語言模型（支持文本），LMM多模態(tài)大模型（支持文本扫沼、圖片出爹、視頻）。

所謂模型缎除，就是一個包含了大量未知參數(shù)的函數(shù)严就，所謂訓(xùn)練，就是通過大量的數(shù)據(jù)去迭代逼近這些未知參數(shù)的最優(yōu)解器罐。

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

機(jī)器學(xué)習(xí)中的典型任務(wù)類型：分為分類任務(wù)（Classification）和回歸任務(wù)（Regression）

分類任務(wù)：是對離散值進(jìn)行預(yù)測梢为，根據(jù)每個樣本的值/特征預(yù)測該樣本屬于類型A、類型B還是類型C技矮，例如情感分類抖誉、內(nèi)容審核殊轴，相當(dāng)于學(xué)習(xí)了一個分類邊界（決策邊界）衰倦，用分類邊界把不同類別的數(shù)據(jù)區(qū)分開來。
回歸任務(wù)：是對連續(xù)值進(jìn)行預(yù)測旁理，根據(jù)每個樣本的值/特征預(yù)測該樣本的具體數(shù)值樊零，例如房價(jià)預(yù)測，股票預(yù)測等孽文，相當(dāng)于學(xué)習(xí)到了這一組數(shù)據(jù)背后的分布驻襟，能夠根據(jù)數(shù)據(jù)的輸入預(yù)測該數(shù)據(jù)的取值。
實(shí)際上芋哭，分類與回歸的根本區(qū)別在于輸出空間是否為一個度量空間沉衣。

對于分類問題，目的是尋找決策邊界减牺，其輸出空間B不是度量空間豌习，即“定性”。也就是說拔疚，在分類問題中肥隆，只有分類“正確”與“錯誤”之分，至于分類到了類別A還是類別B稚失，沒有分別栋艳，都是錯誤數(shù)量+1。
對于回歸問題句各，目的是尋找最優(yōu)擬合吸占，其輸出空間B是一個度量空間晴叨，即“定量”，通過度量空間衡量預(yù)測值與真實(shí)值之間的〝誤差大小”矾屯。當(dāng)真實(shí)值為10篙螟，預(yù)測值為5時(shí)，誤差為5问拘，預(yù)測值為8時(shí)遍略，誤差為2。
【總結(jié)】：
分類問題：定性骤坐，判斷對與錯绪杏。
回歸問題：定量，判斷與正確答案差多少纽绍。

2.機(jī)器學(xué)習(xí)分類：

有監(jiān)督學(xué)習(xí)：監(jiān)督學(xué)習(xí)利用大量的標(biāo)注數(shù)據(jù)來訓(xùn)練模型蕾久，對模型的預(yù)測值和數(shù)據(jù)的真實(shí)標(biāo)簽計(jì)算損失，然后將誤差進(jìn)行反向傳播（計(jì)算梯度拌夏、更新參數(shù)）僧著，通過不斷的學(xué)習(xí)，最終可以獲得識別新樣本的能力障簿。（這里也可以調(diào)用外部大模型的接口盹愚，來進(jìn)行預(yù)標(biāo)注數(shù)據(jù)，可以大大減少人工標(biāo)注的成本）

每條數(shù)據(jù)都有正確答案（需要人工標(biāo)注）站故，通過模型預(yù)測結(jié)果與正確答案的誤差不斷優(yōu)化模型參數(shù)皆怕。

無監(jiān)督學(xué)習(xí)：無監(jiān)督學(xué)習(xí)不依賴任何標(biāo)簽值，通過對數(shù)據(jù)內(nèi)在特征的挖掘西篓，找到樣本間的關(guān)系愈腾，比如聚類相關(guān)的任務(wù)。有監(jiān)督和無監(jiān)督最主要的區(qū)別在于模型在訓(xùn)練時(shí)是否需要人工標(biāo)注的標(biāo)簽信息岂津。

只有數(shù)據(jù)沒有答案（不需要人工標(biāo)注）虱黄，常見的是聚類算法，通過衡量樣本之間的距離來劃分類別吮成。

半監(jiān)督學(xué)習(xí)：利用有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)來訓(xùn)練模型橱乱。一般假設(shè)無標(biāo)簽數(shù)據(jù)遠(yuǎn)多于有標(biāo)簽數(shù)據(jù)。例如使用有標(biāo)簽數(shù)據(jù)訓(xùn)練模型赁豆，然后對無標(biāo)簽數(shù)據(jù)進(jìn)行分類仅醇，再使用正確分類的無標(biāo)簽數(shù)據(jù)訓(xùn)練模型；

利用大量的無標(biāo)注數(shù)據(jù)和少量有標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練

自監(jiān)督學(xué)習(xí)：機(jī)器學(xué)習(xí)的標(biāo)注數(shù)據(jù)源于數(shù)據(jù)本身魔种，而不是由人工標(biāo)注析二。目前主流大模型的預(yù)訓(xùn)練過程都是采用自監(jiān)督學(xué)習(xí)，將數(shù)據(jù)構(gòu)建成完型填空形式，讓模型預(yù)測對應(yīng)內(nèi)容叶摄，實(shí)現(xiàn)自監(jiān)督學(xué)習(xí)属韧。

通過對數(shù)據(jù)進(jìn)行處理，讓數(shù)據(jù)的一部分成為標(biāo)簽蛤吓，由此構(gòu)成大規(guī)模數(shù)據(jù)進(jìn)行模型訓(xùn)練

遠(yuǎn)程監(jiān)督學(xué)習(xí)：主要用于關(guān)系抽取任務(wù)宵喂，采用bootstrap的思想通過已知三元組在文本中尋找共現(xiàn)句，自動構(gòu)成有標(biāo)簽數(shù)據(jù)会傲，進(jìn)行有監(jiān)督學(xué)習(xí)锅棕。

基于現(xiàn)有的三元組收集訓(xùn)練數(shù)據(jù)，進(jìn)行有監(jiān)督學(xué)習(xí)

強(qiáng)化學(xué)習(xí)：強(qiáng)化學(xué)習(xí)是智能體根據(jù)已有的經(jīng)驗(yàn)淌山，采取系統(tǒng)或隨機(jī)的方式裸燎，去嘗試各種可能答案的方式進(jìn)行學(xué)習(xí)，并且智能體會通過環(huán)境反饋的獎賞來決定下一步的行為泼疑，并為了獲得更好的獎賞來進(jìn)一步強(qiáng)化學(xué)習(xí)德绿。

以獲取更高的環(huán)境獎勵為目標(biāo)優(yōu)化模型

企業(yè)現(xiàn)狀說明：

中小型公司的技術(shù)壁壘是數(shù)據(jù)不是技術(shù)，一般不會直接調(diào)用外部大模型接口進(jìn)行訓(xùn)練和標(biāo)注數(shù)據(jù)退渗，這樣會有公司數(shù)據(jù)泄漏的風(fēng)險(xiǎn)移稳。
很多中小型公司招大模型的人，而不是直接去調(diào)用大廠的接口会油，原因就是擔(dān)心數(shù)據(jù)會泄漏个粱。都是自己私有化部署模型自己進(jìn)行模型的參數(shù)微調(diào)和訓(xùn)練以滿足自己的業(yè)務(wù)需求。
非公司機(jī)密數(shù)據(jù)是可以直接使用外部大模型的接口钞啸，來進(jìn)行預(yù)標(biāo)注數(shù)據(jù)几蜻，可以大大減少人工標(biāo)注的成本；企業(yè)核心數(shù)據(jù)/非開放的數(shù)據(jù)可以采用私有化部署模型進(jìn)行訓(xùn)練和標(biāo)注体斩，以防止數(shù)據(jù)泄露。

二颖低、模型訓(xùn)練基本概念

1.基礎(chǔ)名詞解釋

樣本：一條數(shù)據(jù);
特征：被觀測對象的可測量特性絮吵，例如：如何評估一個西瓜是否是好西瓜？可以從西瓜的顏色忱屑、瓜蒂蹬敲、紋路、敲擊聲等莺戒；
特征向量：用一個 d維向量表征一個樣本的所有或部分特征伴嗡；
標(biāo)簽(label)/真實(shí)值：樣本特征對應(yīng)的真實(shí)類型或者真實(shí)取值，即正確答案;
數(shù)據(jù)集(dataset）：多條樣本組成的集合;
訓(xùn)練集(train)：用于訓(xùn)練模型的數(shù)據(jù)集合
評估集(eval)：用于在訓(xùn)練過程中周期性評估模型效果的數(shù)據(jù)集合;
測試集(test)：用于在訓(xùn)練完成后評估最終模型效果的數(shù)據(jù)集合从铲；

模型：可以以數(shù)據(jù)中學(xué)習(xí)到的瘪校，可以實(shí)現(xiàn)特定功能/映射的函數(shù)；
誤差/損失：樣本真實(shí)值與預(yù)測值之問的誤差；
預(yù)測值：樣本輸入模型后輸出的結(jié)果阱扬；
模型訓(xùn)練：使用訓(xùn)練數(shù)據(jù)集對模型參數(shù)進(jìn)行迭代更新的過程泣懊；
模型收斂：任意輸入樣本對應(yīng)的預(yù)測結(jié)果與真實(shí)標(biāo)簽之間的誤差穩(wěn)定；
模型評估：使用測試數(shù)據(jù)和評估指標(biāo)對訓(xùn)練完成的模型的效果進(jìn)行評估的過程
模型推理/預(yù)測：使用訓(xùn)練好的模型對數(shù)據(jù)進(jìn)行預(yù)測的過程麻惶；
模型部署：使用服務(wù)加載訓(xùn)練好的模型馍刮，對外提供推理服務(wù)；

2.機(jī)器學(xué)習(xí)任務(wù)流程

機(jī)器學(xué)習(xí)任務(wù)流程

3.模型訓(xùn)練基本流程

假設(shè)我們現(xiàn)在要訓(xùn)練一個模型窃蹋，這個模型要用來判斷一個西瓜是好西瓜卡啰，還是壞西瓜？如果是好西瓜就輸出1警没，如果是壞西瓜就輸出0碎乃，這是典型的分類問題。

模型訓(xùn)練基本流程

4.模型訓(xùn)練詳細(xì)流程

模型訓(xùn)練詳細(xì)流程

Step：一次梯度更新的過程惠奸；
Epoch：模型完成一次完整訓(xùn)練集的訓(xùn)練梅誓；

最后編輯于：2024.01.25 17:19:18

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市佛南，隨后出現(xiàn)的幾起案子梗掰，更是在濱河造成了極大的恐慌，老刑警劉巖嗅回，帶你破解...
沈念sama閱讀 222,000評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件及穗，死亡現(xiàn)場離奇詭異，居然都是意外死亡绵载，警方通過查閱死者的電腦和手機(jī)埂陆，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,745評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來娃豹，“玉大人焚虱，你說我怎么就攤上這事《妫” “怎么了鹃栽？”我有些...
開封第一講書人閱讀 168,561評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長躯畴。經(jīng)常有香客問我民鼓，道長，這世上最難降的妖魔是什么蓬抄？我笑而不...
開封第一講書人閱讀 59,782評論 1贊 298
?港島之戀（遺憾婚禮）
正文為了忘掉前任丰嘉，我火速辦了婚禮，結(jié)果婚禮上嚷缭，老公的妹妹穿的比我還像新娘饮亏。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 68,798評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布克滴。她就那樣靜靜地躺著逼争，像睡著了一般。火紅的嫁衣襯著肌膚如雪劝赔。梳的紋絲不亂的頭發(fā)上誓焦，一...
開封第一講書人閱讀 52,394評論 1贊 310
城市分裂傳說
那天，我揣著相機(jī)與錄音着帽，去河邊找鬼杂伟。笑死，一個胖子當(dāng)著我的面吹牛仍翰，可吹牛的內(nèi)容都是我干的赫粥。我是一名探鬼主播，決...
沈念sama閱讀 40,952評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼予借，長吁一口氣：“原來是場噩夢啊……” “哼越平！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起灵迫，我...
開封第一講書人閱讀 39,852評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤秦叛，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后瀑粥，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體挣跋，經(jīng)...
沈念sama閱讀 46,409評論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,483評論 3贊 341
?白月光啟示錄
正文我和宋清朗相戀三年狞换，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了避咆。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,615評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡修噪，死狀恐怖查库，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情割按，我是刑警寧澤膨报，帶...
沈念sama閱讀 36,303評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站适荣，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏院领。R本人自食惡果不足惜弛矛，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,979評論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望比然。院中可真熱鬧丈氓，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,470評論 0贊 24
一樁弒父案湾笛，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至闰歪，卻和暖如春嚎研，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背库倘。一陣腳步聲響...
開封第一講書人閱讀 33,571評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工临扮，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人教翩。一個月前我還...
沈念sama閱讀 49,041評論 3贊 377
代替公主和親
正文我出身青樓杆勇，卻偏偏與公主長得像，于是被迫代替她去往敵國和親饱亿。傳聞我的和親對象是個殘疾皇子蚜退，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,630評論 2贊 359