【AI大模型】深度學(xué)習(xí)基礎(chǔ)

一、深度學(xué)習(xí)基本概念

1. 認(rèn)識機(jī)器學(xué)習(xí)
  • 人工智能:是一個專業(yè)領(lǐng)域蕉毯。
  • 機(jī)器學(xué)習(xí):是人工智能的一個分支蚓挤。
  • 深度學(xué)習(xí):是機(jī)器學(xué)習(xí)的一個分支,差異是深度學(xué)習(xí)引入了人工神經(jīng)網(wǎng)絡(luò)车份。
  • LM大模型:是深度學(xué)習(xí)的一個分支谋减,分為:LLM大語言模型(支持文本),LMM多模態(tài)大模型(支持文本扫沼、圖片出爹、視頻)。

所謂模型缎除,就是一個包含了大量未知參數(shù)的函數(shù)严就,所謂訓(xùn)練,就是通過大量的數(shù)據(jù)去迭代逼近這些未知參數(shù)的最優(yōu)解器罐。

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

機(jī)器學(xué)習(xí)中的典型任務(wù)類型:分為分類任務(wù)(Classification)和回歸任務(wù)(Regression)

  • 分類任務(wù):是對離散值進(jìn)行預(yù)測梢为,根據(jù)每個樣本的值/特征預(yù)測該樣本屬于類型A、類型B還是類型C技矮,例如情感分類抖誉、內(nèi)容審核殊轴,相當(dāng)于學(xué)習(xí)了一個分類邊界(決策邊界)衰倦,用分類邊界把不同類別的數(shù)據(jù)區(qū)分開來。

  • 回歸任務(wù):是對連續(xù)值進(jìn)行預(yù)測旁理,根據(jù)每個樣本的值/特征預(yù)測該樣本的具體數(shù)值樊零,例如房價(jià)預(yù)測,股票預(yù)測等孽文,相當(dāng)于學(xué)習(xí)到了這一組數(shù)據(jù)背后的分布驻襟,能夠根據(jù)數(shù)據(jù)的輸入預(yù)測該數(shù)據(jù)的取值。

  • 實(shí)際上芋哭,分類與回歸的根本區(qū)別在于輸出空間是否為一個度量空間沉衣。

對于分類問題,目的是尋找決策邊界减牺,其輸出空間B不是度量空間豌习,即“定性”。也就是說拔疚,在分類問題中肥隆,只有分類“正確”與“錯誤”之分,至于分類到了類別A還是類別B稚失,沒有分別栋艳,都是錯誤數(shù)量+1。
對于回歸問題句各,目的是尋找最優(yōu)擬合吸占,其輸出空間B是一個度量空間晴叨,即“定量”,通過度量空間衡量預(yù)測值與真實(shí)值之間的〝誤差大小”矾屯。當(dāng)真實(shí)值為10篙螟,預(yù)測值為5時(shí),誤差為5问拘,預(yù)測值為8時(shí)遍略,誤差為2。
【總結(jié)】:
分類問題:定性骤坐,判斷對與錯绪杏。
回歸問題:定量,判斷與正確答案差多少纽绍。

2.機(jī)器學(xué)習(xí)分類:

有監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)利用大量的標(biāo)注數(shù)據(jù)來訓(xùn)練模型蕾久,對模型的預(yù)測值和數(shù)據(jù)的真實(shí)標(biāo)簽計(jì)算損失,然后將誤差進(jìn)行反向傳播(計(jì)算梯度拌夏、更新參數(shù))僧著,通過不斷的學(xué)習(xí),最終可以獲得識別新樣本的能力障簿。(這里也可以調(diào)用外部大模型的接口盹愚,來進(jìn)行預(yù)標(biāo)注數(shù)據(jù),可以大大減少人工標(biāo)注的成本)

每條數(shù)據(jù)都有正確答案(需要人工標(biāo)注)站故,通過模型預(yù)測結(jié)果與正確答案的誤差不斷優(yōu)化模型參數(shù)皆怕。

無監(jiān)督學(xué)習(xí):無監(jiān)督學(xué)習(xí)不依賴任何標(biāo)簽值,通過對數(shù)據(jù)內(nèi)在特征的挖掘西篓,找到樣本間的關(guān)系愈腾,比如聚類相關(guān)的任務(wù)。有監(jiān)督和無監(jiān)督最主要的區(qū)別在于模型在訓(xùn)練時(shí)是否需要人工標(biāo)注的標(biāo)簽信息岂津。

只有數(shù)據(jù)沒有答案(不需要人工標(biāo)注)虱黄,常見的是聚類算法,通過衡量樣本之間的距離來劃分類別吮成。

半監(jiān)督學(xué)習(xí):利用有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)來訓(xùn)練模型橱乱。一般假設(shè)無標(biāo)簽數(shù)據(jù)遠(yuǎn)多于有標(biāo)簽數(shù)據(jù)。例如使用有標(biāo)簽數(shù)據(jù)訓(xùn)練模型赁豆,然后對無標(biāo)簽數(shù)據(jù)進(jìn)行分類仅醇,再使用正確分類的無標(biāo)簽數(shù)據(jù)訓(xùn)練模型;

利用大量的無標(biāo)注數(shù)據(jù)和少量有標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練

自監(jiān)督學(xué)習(xí):機(jī)器學(xué)習(xí)的標(biāo)注數(shù)據(jù)源于數(shù)據(jù)本身魔种,而不是由人工標(biāo)注析二。目前主流大模型的預(yù)訓(xùn)練過程都是采用自監(jiān)督學(xué)習(xí),將數(shù)據(jù)構(gòu)建成完型填空形式,讓模型預(yù)測對應(yīng)內(nèi)容叶摄,實(shí)現(xiàn)自監(jiān)督學(xué)習(xí)属韧。

通過對數(shù)據(jù)進(jìn)行處理,讓數(shù)據(jù)的一部分成為標(biāo)簽蛤吓,由此構(gòu)成大規(guī)模數(shù)據(jù)進(jìn)行模型訓(xùn)練

遠(yuǎn)程監(jiān)督學(xué)習(xí):主要用于關(guān)系抽取任務(wù)宵喂,采用bootstrap的思想通過已知三元組在文本中尋找共現(xiàn)句,自動構(gòu)成有標(biāo)簽數(shù)據(jù)会傲,進(jìn)行有監(jiān)督學(xué)習(xí)锅棕。

基于現(xiàn)有的三元組收集訓(xùn)練數(shù)據(jù),進(jìn)行有監(jiān)督學(xué)習(xí)

強(qiáng)化學(xué)習(xí):強(qiáng)化學(xué)習(xí)是智能體根據(jù)已有的經(jīng)驗(yàn)淌山,采取系統(tǒng)或隨機(jī)的方式裸燎,去嘗試各種可能答案的方式進(jìn)行學(xué)習(xí),并且智能體會通過環(huán)境反饋的獎賞來決定下一步的行為泼疑,并為了獲得更好的獎賞來進(jìn)一步強(qiáng)化學(xué)習(xí)德绿。

以獲取更高的環(huán)境獎勵為目標(biāo)優(yōu)化模型

企業(yè)現(xiàn)狀說明:

  • 中小型公司的技術(shù)壁壘是數(shù)據(jù)不是技術(shù),一般不會直接調(diào)用外部大模型接口進(jìn)行訓(xùn)練和標(biāo)注數(shù)據(jù)退渗,這樣會有公司數(shù)據(jù)泄漏的風(fēng)險(xiǎn)移稳。
  • 很多中小型公司招大模型的人,而不是直接去調(diào)用大廠的接口会油,原因就是擔(dān)心數(shù)據(jù)會泄漏个粱。 都是自己私有化部署模型自己進(jìn)行模型的參數(shù)微調(diào)和訓(xùn)練以滿足自己的業(yè)務(wù)需求。
  • 非公司機(jī)密數(shù)據(jù)是可以直接使用外部大模型的接口钞啸,來進(jìn)行預(yù)標(biāo)注數(shù)據(jù)几蜻,可以大大減少人工標(biāo)注的成本;企業(yè)核心數(shù)據(jù)/非開放的數(shù)據(jù)可以采用私有化部署模型進(jìn)行訓(xùn)練和標(biāo)注体斩,以防止數(shù)據(jù)泄露。

二颖低、模型訓(xùn)練基本概念

1.基礎(chǔ)名詞解釋

樣本:一條數(shù)據(jù);
特征:被觀測對象的可測量特性絮吵,例如:如何評估一個西瓜是否是好西瓜?可以從西瓜的顏色忱屑、瓜蒂蹬敲、紋路、敲擊聲等莺戒;
特征向量:用一個 d維向量表征一個樣本的所有或部分特征伴嗡;
標(biāo)簽(label)/真實(shí)值:樣本特征對應(yīng)的真實(shí)類型或者真實(shí)取值,即正確答案;
數(shù)據(jù)集(dataset):多條樣本組成的集合;
訓(xùn)練集(train):用于訓(xùn)練模型的數(shù)據(jù)集合
評估集(eval):用于在訓(xùn)練過程中周期性評估模型效果的數(shù)據(jù)集合;
測試集(test):用于在訓(xùn)練完成后評估最終模型效果的數(shù)據(jù)集合从铲;

模型:可以以數(shù)據(jù)中學(xué)習(xí)到的瘪校,可以實(shí)現(xiàn)特定功能/映射的函數(shù);
誤差/損失:樣本真實(shí)值與預(yù)測值之問的誤差;
預(yù)測值:樣本輸入模型后輸出的結(jié)果阱扬;
模型訓(xùn)練:使用訓(xùn)練數(shù)據(jù)集對模型參數(shù)進(jìn)行迭代更新的過程泣懊;
模型收斂:任意輸入樣本對應(yīng)的預(yù)測結(jié)果與真實(shí)標(biāo)簽之間的誤差穩(wěn)定;
模型評估:使用測試數(shù)據(jù)和評估指標(biāo)對訓(xùn)練完成的模型的效果進(jìn)行評估的過程
模型推理/預(yù)測:使用訓(xùn)練好的模型對數(shù)據(jù)進(jìn)行預(yù)測的過程麻惶;
模型部署:使用服務(wù)加載訓(xùn)練好的模型馍刮,對外提供推理服務(wù);

2.機(jī)器學(xué)習(xí)任務(wù)流程
機(jī)器學(xué)習(xí)任務(wù)流程
3.模型訓(xùn)練基本流程

假設(shè)我們現(xiàn)在要訓(xùn)練一個模型窃蹋,這個模型要用來判斷一個西瓜是好西瓜卡啰,還是壞西瓜?如果是好西瓜就輸出1警没,如果是壞西瓜就輸出0碎乃,這是典型的分類問題。

模型訓(xùn)練基本流程
4.模型訓(xùn)練詳細(xì)流程
模型訓(xùn)練詳細(xì)流程

Step:一次梯度更新的過程惠奸;
Epoch:模型完成一次完整訓(xùn)練集的訓(xùn)練梅誓;

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市佛南,隨后出現(xiàn)的幾起案子梗掰,更是在濱河造成了極大的恐慌,老刑警劉巖嗅回,帶你破解...
    沈念sama閱讀 222,000評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件及穗,死亡現(xiàn)場離奇詭異,居然都是意外死亡绵载,警方通過查閱死者的電腦和手機(jī)埂陆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來娃豹,“玉大人焚虱,你說我怎么就攤上這事《妫” “怎么了鹃栽?”我有些...
    開封第一講書人閱讀 168,561評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長躯畴。 經(jīng)常有香客問我民鼓,道長,這世上最難降的妖魔是什么蓬抄? 我笑而不...
    開封第一講書人閱讀 59,782評論 1 298
  • 正文 為了忘掉前任丰嘉,我火速辦了婚禮,結(jié)果婚禮上嚷缭,老公的妹妹穿的比我還像新娘饮亏。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,798評論 6 397
  • 文/花漫 我一把揭開白布克滴。 她就那樣靜靜地躺著逼争,像睡著了一般。 火紅的嫁衣襯著肌膚如雪劝赔。 梳的紋絲不亂的頭發(fā)上誓焦,一...
    開封第一講書人閱讀 52,394評論 1 310
  • 那天,我揣著相機(jī)與錄音着帽,去河邊找鬼杂伟。 笑死,一個胖子當(dāng)著我的面吹牛仍翰,可吹牛的內(nèi)容都是我干的赫粥。 我是一名探鬼主播,決...
    沈念sama閱讀 40,952評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼予借,長吁一口氣:“原來是場噩夢啊……” “哼越平!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起灵迫,我...
    開封第一講書人閱讀 39,852評論 0 276
  • 序言:老撾萬榮一對情侶失蹤秦叛,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后瀑粥,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體挣跋,經(jīng)...
    沈念sama閱讀 46,409評論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,483評論 3 341
  • 正文 我和宋清朗相戀三年狞换,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了避咆。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,615評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡修噪,死狀恐怖查库,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情割按,我是刑警寧澤膨报,帶...
    沈念sama閱讀 36,303評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站适荣,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏院领。R本人自食惡果不足惜弛矛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,979評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望比然。 院中可真熱鬧丈氓,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至闰歪,卻和暖如春嚎研,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背库倘。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評論 1 272
  • 我被黑心中介騙來泰國打工临扮, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人教翩。 一個月前我還...
    沈念sama閱讀 49,041評論 3 377
  • 正文 我出身青樓杆勇,卻偏偏與公主長得像,于是被迫代替她去往敵國和親饱亿。 傳聞我的和親對象是個殘疾皇子蚜退,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,630評論 2 359

推薦閱讀更多精彩內(nèi)容