圖解機(jī)器學(xué)習(xí) | 機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)

作者：韓信子@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/34
本文地址：http://www.showmeai.tech/article-detail/185
聲明：版權(quán)所有济榨，轉(zhuǎn)載請(qǐng)聯(lián)系平臺(tái)與作者并注明出處

1. 機(jī)器學(xué)習(xí)概述

1）什么是機(jī)器學(xué)習(xí)

人工智能（Artificial intelligence）是研究、開(kāi)發(fā)用于模擬绿映、延伸和擴(kuò)展人的智能的理論擒滑、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)叉弦。它是一個(gè)籠統(tǒng)而寬泛的概念丐一，人工智能的最終目標(biāo)是使計(jì)算機(jī)能夠模擬人的思維方式和行為。大概在上世紀(jì)50年代開(kāi)始興起淹冰，但是受限于數(shù)據(jù)和硬件設(shè)備等限制钝诚，當(dāng)時(shí)發(fā)展緩慢。

機(jī)器學(xué)習(xí)（Machine learning）是人工智能的子集榄棵，是實(shí)現(xiàn)人工智能的一種途徑，但并不是唯一的途徑潘拱。它是一門(mén)專(zhuān)門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為疹鳄，以獲取新的知識(shí)或技能，重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能的學(xué)科芦岂。大概在上世紀(jì)80年代開(kāi)始蓬勃發(fā)展瘪弓，誕生了一大批數(shù)學(xué)統(tǒng)計(jì)相關(guān)的機(jī)器學(xué)習(xí)模型。

深度學(xué)習(xí)（Deep learning）是機(jī)器學(xué)習(xí)的子集禽最，靈感來(lái)自人腦腺怯，由人工神經(jīng)網(wǎng)絡(luò)（ANN）組成，它模仿人腦中存在的相似結(jié)構(gòu)川无。在深度學(xué)習(xí)中呛占，學(xué)習(xí)是通過(guò)相互關(guān)聯(lián)的「神經(jīng)元」的一個(gè)深層的、多層的「網(wǎng)絡(luò)」來(lái)進(jìn)行的懦趋×缆牵「深度」一詞通常指的是神經(jīng)網(wǎng)絡(luò)中隱藏層的數(shù)量。大概在2012年以后爆炸式增長(zhǎng)仅叫，廣泛應(yīng)用在很多的場(chǎng)景中帜篇。

讓我們看看國(guó)外知名學(xué)者對(duì)機(jī)器學(xué)習(xí)的定義：

機(jī)器學(xué)習(xí)研究的是計(jì)算機(jī)怎樣模擬人類(lèi)的學(xué)習(xí)行為，以獲取新的知識(shí)或技能诫咱，并重新組織已有的知識(shí)結(jié)構(gòu)笙隙，使之不斷改善自身。從實(shí)踐的意義上來(lái)說(shuō)坎缭，機(jī)器學(xué)習(xí)是在大數(shù)據(jù)的支撐下竟痰，通過(guò)各種算法讓機(jī)器對(duì)數(shù)據(jù)進(jìn)行深層次的統(tǒng)計(jì)分析以進(jìn)行「自學(xué)」签钩，使得人工智能系統(tǒng)獲得了歸納推理和決策能力

通過(guò)經(jīng)典的「垃圾郵件過(guò)濾」應(yīng)用，我們?cè)賮?lái)理解下機(jī)器學(xué)習(xí)的原理凯亮，以及定義中的T边臼、E、P分別指代什么假消。

2）機(jī)器學(xué)習(xí)三要素

機(jī)器學(xué)習(xí)三要素包括數(shù)據(jù)柠并、模型、算法富拗。這三要素之間的關(guān)系臼予，可以用下面這幅圖來(lái)表示：

（1）數(shù)據(jù)

數(shù)據(jù)驅(qū)動(dòng)：數(shù)據(jù)驅(qū)動(dòng)指的是我們基于客觀的量化數(shù)據(jù)，通過(guò)主動(dòng)數(shù)據(jù)的采集分析以支持決策啃沪。與之相對(duì)的是經(jīng)驗(yàn)驅(qū)動(dòng)粘拾，比如我們常說(shuō)的「拍腦袋」。

（2）模型&算法

模型：在AI數(shù)據(jù)驅(qū)動(dòng)的范疇內(nèi)创千，模型指的是基于數(shù)據(jù)X做決策Y的假設(shè)函數(shù)缰雇，可以有不同的形態(tài)，計(jì)算型和規(guī)則型等追驴。

算法：指學(xué)習(xí)模型的具體計(jì)算方法械哟。統(tǒng)計(jì)學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集，根據(jù)學(xué)習(xí)策略殿雪，從假設(shè)空間中選擇最優(yōu)模型暇咆，最后需要考慮用什么樣的計(jì)算方法求解最優(yōu)模型。通常是一個(gè)最優(yōu)化的問(wèn)題丙曙。

3）機(jī)器學(xué)習(xí)發(fā)展歷程

人工智能一詞最早出現(xiàn)于1956年爸业，用于探索一些問(wèn)題的有效解決方案。1960年亏镰，美國(guó)國(guó)防部借助「神經(jīng)網(wǎng)絡(luò)」這一概念扯旷，訓(xùn)練計(jì)算機(jī)模仿人類(lèi)的推理過(guò)程。

2010年之前索抓，谷歌薄霜、微軟等科技巨頭改進(jìn)了機(jī)器學(xué)習(xí)算法，將查詢(xún)的準(zhǔn)確度提升到了新的高度纸兔。而后惰瓜，隨著數(shù)據(jù)量的增加、先進(jìn)的算法汉矿、計(jì)算和存儲(chǔ)容量的提高崎坊，機(jī)器學(xué)習(xí)得到了更進(jìn)一步的發(fā)展。

4）機(jī)器學(xué)習(xí)核心技術(shù)

分類(lèi)：應(yīng)用以分類(lèi)數(shù)據(jù)進(jìn)行模型訓(xùn)練洲拇，根據(jù)模型對(duì)新樣本進(jìn)行精準(zhǔn)分類(lèi)與預(yù)測(cè)奈揍。
聚類(lèi)：從海量數(shù)據(jù)中識(shí)別數(shù)據(jù)的相似性與差異性账磺，并按照最大共同點(diǎn)聚合為多個(gè)類(lèi)別窄坦。
異常檢測(cè)：對(duì)數(shù)據(jù)點(diǎn)的分布規(guī)律進(jìn)行分析，識(shí)別與正常數(shù)據(jù)及差異較大的離群點(diǎn)。
回歸：根據(jù)對(duì)已知屬性值數(shù)據(jù)的訓(xùn)練捆等，為模型尋找最佳擬合參數(shù)幸缕，基于模型預(yù)測(cè)新樣本的輸出值薄啥。

5）機(jī)器學(xué)習(xí)基本流程

機(jī)器學(xué)習(xí)工作流（WorkFlow）包含數(shù)據(jù)預(yù)處理（Processing）撞反、模型學(xué)習(xí)（Learning）、模型評(píng)估（Evaluation）租冠、新樣本預(yù)測(cè)（Prediction）幾個(gè)步驟鹏倘。

數(shù)據(jù)預(yù)處理：輸入（未處理的數(shù)據(jù) + 標(biāo)簽）→處理過(guò)程（特征處理+幅度縮放、特征選擇顽爹、維度約減纤泵、采樣）→輸出（測(cè)試集 + 訓(xùn)練集）。
模型學(xué)習(xí)：模型選擇镜粤、交叉驗(yàn)證捏题、結(jié)果評(píng)估、超參選擇肉渴。
模型評(píng)估：了解模型對(duì)于數(shù)據(jù)集測(cè)試的得分公荧。
新樣本預(yù)測(cè)：預(yù)測(cè)測(cè)試集。

6）機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景

作為一套數(shù)據(jù)驅(qū)動(dòng)的方法黄虱，機(jī)器學(xué)習(xí)已廣泛應(yīng)用于數(shù)據(jù)挖掘、計(jì)算機(jī)視覺(jué)庸诱、自然語(yǔ)言處理捻浦、生物特征識(shí)別、搜索引擎桥爽、醫(yī)學(xué)診斷朱灿、檢測(cè)信用卡欺詐、證券市場(chǎng)分析钠四、DNA序列測(cè)序盗扒、語(yǔ)音和手寫(xiě)識(shí)別和機(jī)器人等領(lǐng)域。

智能醫(yī)療：智能假肢缀去、外骨骼侣灶、醫(yī)療保健機(jī)器人、手術(shù)機(jī)器人缕碎、智能健康管理等褥影。
人臉識(shí)別：門(mén)禁系統(tǒng)、考勤系統(tǒng)咏雌、人臉識(shí)別防盜門(mén)凡怎、電子護(hù)照及身份證校焦，還可以利用人臉識(shí)別系統(tǒng)和網(wǎng)絡(luò)，在全國(guó)范圍內(nèi)搜捕逃犯统倒。
機(jī)器人的控制領(lǐng)域：工業(yè)機(jī)器人寨典、機(jī)械臂、多足機(jī)器人房匆、掃地機(jī)器人耸成、無(wú)人機(jī)等。

2.機(jī)器學(xué)習(xí)基本名詞

監(jiān)督學(xué)習(xí)（Supervised Learning）：訓(xùn)練集有標(biāo)記信息坛缕，學(xué)習(xí)方式有分類(lèi)和回歸墓猎。
無(wú)監(jiān)督學(xué)習(xí)（Unsupervised Learning）：訓(xùn)練集沒(méi)有標(biāo)記信息，學(xué)習(xí)方式有聚類(lèi)和降維赚楚。
強(qiáng)化學(xué)習(xí)（Reinforcement Learning）：有延遲和稀疏的反饋標(biāo)簽的學(xué)習(xí)方式毙沾。

示例/樣本：上面一條數(shù)據(jù)集中的一條數(shù)據(jù)。
屬性/特征：「色澤」「根蒂」等宠页。
屬性空間/樣本空間/輸入空間X：由全部屬性張成的空間左胞。
特征向量：空間中每個(gè)點(diǎn)對(duì)應(yīng)的一個(gè)坐標(biāo)向量。
標(biāo)記：關(guān)于示例結(jié)果的信息举户，如（（色澤=青綠烤宙，根蒂=蜷縮，敲聲=濁響）俭嘁，好瓜）躺枕，其中「好瓜」稱(chēng)為標(biāo)記。
分類(lèi)：若要預(yù)測(cè)的是離散值供填，如「好瓜」拐云，「壞瓜」，此類(lèi)學(xué)習(xí)任務(wù)稱(chēng)為分類(lèi)近她。
假設(shè)：學(xué)得模型對(duì)應(yīng)了關(guān)于數(shù)據(jù)的某種潛在規(guī)律叉瘩。
真相：潛在規(guī)律自身。
學(xué)習(xí)過(guò)程：是為了找出或逼近真相粘捎。
泛化能力：學(xué)得模型適用于新樣本的能力薇缅。一般來(lái)說(shuō)，訓(xùn)練樣本越大攒磨，越有可能通過(guò)學(xué)習(xí)來(lái)獲得具有強(qiáng)泛化能力的模型泳桦。

3.機(jī)器學(xué)習(xí)算法分類(lèi)

1）機(jī)器學(xué)習(xí)算法依托的問(wèn)題場(chǎng)景

機(jī)器學(xué)習(xí)在近30多年已發(fā)展為一門(mén)多領(lǐng)域交叉學(xué)科，涉及概率論娩缰、統(tǒng)計(jì)學(xué)蓬痒、逼近論、凸分析、計(jì)算復(fù)雜性理論等多門(mén)學(xué)科梧奢。機(jī)器學(xué)習(xí)理論主要是設(shè)計(jì)和分析一些讓計(jì)算機(jī)可以自動(dòng)「學(xué)習(xí)」的算法狱掂。

機(jī)器學(xué)習(xí)算法從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律，并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)亲轨。機(jī)器學(xué)習(xí)理論關(guān)注可以實(shí)現(xiàn)的趋惨、行之有效的學(xué)習(xí)算法。很多推論問(wèn)題屬于無(wú)程序可循難度惦蚊，所以部分的機(jī)器學(xué)習(xí)研究是開(kāi)發(fā)容易處理的近似算法器虾。

機(jī)器學(xué)習(xí)最主要的類(lèi)別有：監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)蹦锋。

監(jiān)督學(xué)習(xí)：從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個(gè)函數(shù)兆沙，當(dāng)新的數(shù)據(jù)到來(lái)時(shí)，可以根據(jù)這個(gè)函數(shù)預(yù)測(cè)結(jié)果库正。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求是包括輸入和輸出粗截，也可以說(shuō)是特征和目標(biāo)铁坎。訓(xùn)練集中的目標(biāo)是由人標(biāo)注的畜普。常見(jiàn)的監(jiān)督學(xué)習(xí)算法包括回歸分析和統(tǒng)計(jì)分類(lèi)圾浅。

更多監(jiān)督學(xué)習(xí)的算法模型總結(jié)可以查看ShowMeAI的文章 AI知識(shí)技能速查 | 機(jī)器學(xué)習(xí)-監(jiān)督學(xué)習(xí)。

無(wú)監(jiān)督學(xué)習(xí)：與監(jiān)督學(xué)習(xí)相比，訓(xùn)練集沒(méi)有人為標(biāo)注的結(jié)果俄认。常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)算法有生成對(duì)抗網(wǎng)絡(luò)（GAN）个少、聚類(lèi)。

更多無(wú)監(jiān)督學(xué)習(xí)的算法模型總結(jié)可以查看ShowMeAI的文章 AI知識(shí)技能速查 | 機(jī)器學(xué)習(xí)-無(wú)監(jiān)督學(xué)習(xí)眯杏。

強(qiáng)化學(xué)習(xí)：通過(guò)觀察來(lái)學(xué)習(xí)做成如何的動(dòng)作夜焦。每個(gè)動(dòng)作都會(huì)對(duì)環(huán)境有所影響，學(xué)習(xí)對(duì)象根據(jù)觀察到的周?chē)h(huán)境的反饋來(lái)做出判斷岂贩。

2）分類(lèi)問(wèn)題

分類(lèi)問(wèn)題是機(jī)器學(xué)習(xí)非常重要的一個(gè)組成部分茫经。它的目標(biāo)是根據(jù)已知樣本的某些特征，判斷一個(gè)新的樣本屬于哪種已知的樣本類(lèi)萎津。分類(lèi)問(wèn)題可以細(xì)分如下：

二分類(lèi)問(wèn)題：表示分類(lèi)任務(wù)中有兩個(gè)類(lèi)別新的樣本屬于哪種已知的樣本類(lèi)卸伞。
多類(lèi)分類(lèi)（Multiclass classification）問(wèn)題：表示分類(lèi)任務(wù)中有多類(lèi)別。
多標(biāo)簽分類(lèi)（Multilabel classification）問(wèn)題：給每個(gè)樣本一系列的目標(biāo)標(biāo)簽锉屈。

了解更多機(jī)器學(xué)習(xí)分類(lèi)算法：KNN算法荤傲、邏輯回歸算法、樸素貝葉斯算法颈渊、決策樹(shù)模型遂黍、隨機(jī)森林分類(lèi)模型、GBDT模型俊嗽、XGBoost模型雾家、支持向量機(jī)模型等。

3）回歸問(wèn)題

了解更多機(jī)器學(xué)習(xí)回歸算法：決策樹(shù)模型绍豁、隨機(jī)森林分類(lèi)模型芯咧、GBDT模型、回歸樹(shù)模型竹揍、支持向量機(jī)模型等敬飒。

4）聚類(lèi)問(wèn)題

了解更多機(jī)器學(xué)習(xí)聚類(lèi)算法：聚類(lèi)算法。

5）降維問(wèn)題

了解更多機(jī)器學(xué)習(xí)降維算法：PCA降維算法鬼佣。

4.機(jī)器學(xué)習(xí)模型評(píng)估與選擇

1）機(jī)器學(xué)習(xí)與數(shù)據(jù)擬合

機(jī)器學(xué)習(xí)最典型的監(jiān)督學(xué)習(xí)為分類(lèi)與回歸問(wèn)題驶拱。分類(lèi)問(wèn)題中霜浴，我們學(xué)習(xí)出來(lái)一條「決策邊界」完成數(shù)據(jù)區(qū)分晶衷；在回歸問(wèn)題中，我們學(xué)習(xí)出擬合樣本分布的曲線(xiàn)。

2）訓(xùn)練集與數(shù)據(jù)集

我們以房?jī)r(jià)預(yù)估為例晌纫，講述一下涉及的概念税迷。

訓(xùn)練集（Training Set）：幫助訓(xùn)練模型，簡(jiǎn)單的說(shuō)就是通過(guò)訓(xùn)練集的數(shù)據(jù)讓確定擬合曲線(xiàn)的參數(shù)锹漱。
測(cè)試集（Test Set）：為了測(cè)試已經(jīng)訓(xùn)練好的模型的精確度箭养。

當(dāng)然，test set這并不能保證模型的正確性哥牍，只是說(shuō)相似的數(shù)據(jù)用此模型會(huì)得出相似的結(jié)果毕泌。因?yàn)樵谟?xùn)練模型的時(shí)候，參數(shù)全是根據(jù)現(xiàn)有訓(xùn)練集里的數(shù)據(jù)進(jìn)行修正嗅辣、擬合撼泛，有可能會(huì)出現(xiàn)過(guò)擬合的情況，即這個(gè)參數(shù)僅對(duì)訓(xùn)練集里的數(shù)據(jù)擬合比較準(zhǔn)確澡谭，這個(gè)時(shí)候再有一個(gè)數(shù)據(jù)需要利用模型預(yù)測(cè)結(jié)果愿题，準(zhǔn)確率可能就會(huì)很差。

3）經(jīng)驗(yàn)誤差

在訓(xùn)練集的數(shù)據(jù)上進(jìn)行學(xué)習(xí)蛙奖。模型在訓(xùn)練集上的誤差稱(chēng)為「經(jīng)驗(yàn)誤差」（Empirical Error）潘酗。但是經(jīng)驗(yàn)誤差并不是越小越好，因?yàn)槲覀兿Ｍ谛碌臎](méi)有見(jiàn)過(guò)的數(shù)據(jù)上雁仲，也能有好的預(yù)估結(jié)果仔夺。

4）過(guò)擬合

過(guò)擬合，指的是模型在訓(xùn)練集上表現(xiàn)的很好攒砖，但是在交叉驗(yàn)證集合測(cè)試集上表現(xiàn)一般囚灼，也就是說(shuō)模型對(duì)未知樣本的預(yù)測(cè)表現(xiàn)一般，泛化（Generalization）能力較差祭衩。

如何防止過(guò)擬合呢灶体？一般的方法有Early Stopping、數(shù)據(jù)集擴(kuò)增（Data Augmentation）掐暮、正則化蝎抽、Dropout等。

正則化：指的是在目標(biāo)函數(shù)后面添加一個(gè)正則化項(xiàng)路克，一般有L1正則化與L2正則化樟结。L1正則是基于L1范數(shù)，即在目標(biāo)函數(shù)后面加上參數(shù)的L1范數(shù)和項(xiàng)精算，即參數(shù)絕對(duì)值和與參數(shù)的積項(xiàng)瓢宦。
數(shù)據(jù)集擴(kuò)增：即需要得到更多的符合要求的數(shù)據(jù)掉房，即和已有的數(shù)據(jù)是獨(dú)立同分布的减余，或者近似獨(dú)立同分布的。一般方法有：從數(shù)據(jù)源頭采集更多數(shù)據(jù)鹦肿、復(fù)制原有數(shù)據(jù)并加上隨機(jī)噪聲、重采樣玫镐、根據(jù)當(dāng)前數(shù)據(jù)集估計(jì)數(shù)據(jù)分布參數(shù)倒戏，使用該分布產(chǎn)生更多數(shù)據(jù)等。
DropOut：通過(guò)修改神經(jīng)網(wǎng)絡(luò)本身結(jié)構(gòu)來(lái)實(shí)現(xiàn)的恐似。

5）偏差

偏差（Bias）杜跷，它通常指的是模型擬合的偏差程度。給定無(wú)數(shù)套訓(xùn)練集而期望擬合出來(lái)的模型就是平均模型矫夷。偏差就是真實(shí)模型和平均模型的差異葛闷。

簡(jiǎn)單模型是一組直線(xiàn)，平均之后得到的平均模型是一條直的虛線(xiàn)双藕，與真實(shí)模型曲線(xiàn)的差別較大（灰色陰影部分較大）孵运。因此，簡(jiǎn)單模型通常高偏差 蔓彩。

復(fù)雜模型是一組起伏很大波浪線(xiàn)治笨，平均之后最大值和最小組都會(huì)相互抵消，和真實(shí)模型的曲線(xiàn)差別較小赤嚼，因此復(fù)雜模型通常低偏差（見(jiàn)黃色曲線(xiàn)和綠色虛線(xiàn)幾乎重合）旷赖。

6）方差

方差（Variance），它通常指的是模型的平穩(wěn)程度（簡(jiǎn)單程度）更卒。簡(jiǎn)單模型的對(duì)應(yīng)的函數(shù)如出一轍等孵，都是水平直線(xiàn)，而且平均模型的函數(shù)也是一條水平直線(xiàn)蹂空，因此簡(jiǎn)單模型的方差很小俯萌，并且對(duì)數(shù)據(jù)的變動(dòng)不敏感。

復(fù)雜模型的對(duì)應(yīng)的函數(shù)千奇百怪上枕，毫無(wú)任何規(guī)則咐熙，但平均模型的函數(shù)也是一條平滑的曲線(xiàn)，因此復(fù)雜模型的方差很大辨萍，并且對(duì)數(shù)據(jù)的變動(dòng)很敏感棋恼。

7）偏差與方差的平衡

8）性能度量指標(biāo)

性能度量是衡量模型泛化能力的數(shù)值評(píng)價(jià)標(biāo)準(zhǔn)，反映了當(dāng)前問(wèn)題（任務(wù)需求）锈玉。使用不同的性能度量可能會(huì)導(dǎo)致不同的評(píng)判結(jié)果爪飘。更詳細(xì)的內(nèi)容可見(jiàn) 模型評(píng)估方法與準(zhǔn)則

（1）回歸問(wèn)題

關(guān)于模型「好壞」的判斷，不僅取決于算法和數(shù)據(jù)拉背，還取決于當(dāng)前任務(wù)需求师崎。回歸問(wèn)題常用的性能度量指標(biāo)有：平均絕對(duì)誤差、均方誤差椅棺、均方根誤差犁罩、R平方等齐蔽。

平均絕對(duì)誤差（Mean Absolute Error，MAE）昼汗，又叫平均絕對(duì)離差，是所有標(biāo)簽值與回歸模型預(yù)測(cè)值的偏差的絕對(duì)值的平均鬼雀。
平均絕對(duì)百分誤差（Mean Absolute Percentage Error顷窒，MAPE）是對(duì)MAE的一種改進(jìn)，考慮了絕對(duì)誤差相對(duì)真實(shí)值的比例源哩。
均方誤差（Mean Square Error鞋吉，MSE）相對(duì)于平均絕對(duì)誤差而言，均方誤差求的是所有標(biāo)簽值與回歸模型預(yù)測(cè)值的偏差的平方的平均励烦。
均方根誤差（Root-Mean-Square Error谓着，RMSE），也稱(chēng)標(biāo)準(zhǔn)誤差坛掠，是在均方誤差的基礎(chǔ)上進(jìn)行開(kāi)方運(yùn)算赊锚。RMSE會(huì)被用來(lái)衡量觀測(cè)值同真值之間的偏差。
R平方屉栓，決定系數(shù)舷蒲，反映因變量的全部變異能通過(guò)目前的回歸模型被模型中的自變量解釋的比例。比例越接近于1友多，表示當(dāng)前的回歸模型對(duì)數(shù)據(jù)的解釋越好牲平，越能精確描述數(shù)據(jù)的真實(shí)分布。

（2）分類(lèi)問(wèn)題

分類(lèi)問(wèn)題常用的性能度量指標(biāo)包括錯(cuò)誤率（Error Rate）域滥、精確率（Accuracy）纵柿、查準(zhǔn)率（Precision）、查全率（Recall）启绰、F1昂儒、ROC曲線(xiàn)、AUC曲線(xiàn)和R平方等委可。更詳細(xì)的內(nèi)容可見(jiàn) 模型評(píng)估方法與準(zhǔn)則

錯(cuò)誤率：分類(lèi)錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例荆忍。
精確率：分類(lèi)正確的樣本數(shù)占樣本總數(shù)的比例。
查準(zhǔn)率（也稱(chēng)準(zhǔn)確率）撤缴，即在檢索后返回的結(jié)果中刹枉，真正正確的個(gè)數(shù)占你認(rèn)為是正確的結(jié)果的比例。
查全率（也稱(chēng)召回率）屈呕，即在檢索結(jié)果中真正正確的個(gè)數(shù)微宝，占整個(gè)數(shù)據(jù)集（檢索到的和未檢索到的）中真正正確個(gè)數(shù)的比例。
F1是一個(gè)綜合考慮查準(zhǔn)率與查全率的度量虎眨，其基于查準(zhǔn)率與查全率的調(diào)和平均定義：即：F1度量的一般形式-Fβ蟋软，能讓我們表達(dá)出對(duì)查準(zhǔn)率镶摘、查全率的不同偏好。

ROC曲線(xiàn)（Receiver Operating Characteristic Curve）全稱(chēng)是「受試者工作特性曲線(xiàn)」岳守。綜合考慮了概率預(yù)測(cè)排序的質(zhì)量凄敢，體現(xiàn)了學(xué)習(xí)器在不同任務(wù)下的「期望泛化性能」的好壞。ROC曲線(xiàn)的縱軸是「真正例率」（TPR）湿痢，橫軸是「假正例率」（FPR）涝缝。

AUC（Area Under ROC Curve）是ROC曲線(xiàn)下面積，代表了樣本預(yù)測(cè)的排序質(zhì)量譬重。

從一個(gè)比較高的角度來(lái)認(rèn)識(shí)AUC：仍然以異常用戶(hù)的識(shí)別為例拒逮，高的AUC值意味著，模型在能夠盡可能多地識(shí)別異常用戶(hù)的情況下臀规，仍然對(duì)正常用戶(hù)有著一個(gè)較低的誤判率（不會(huì)因?yàn)闉榱俗R(shí)別異常用戶(hù)滩援，而將大量的正常用戶(hù)給誤判為異常。

9）評(píng)估方法

我們手上沒(méi)有未知的樣本塔嬉，如何可靠地評(píng)估玩徊？關(guān)鍵是要獲得可靠的「測(cè)試集數(shù)據(jù)」（Test Set），即測(cè)試集（用于評(píng)估）應(yīng)該與訓(xùn)練集（用于模型學(xué)習(xí)）「互斥」谨究。

常見(jiàn)的評(píng)估方法有：留出法（Hold-out）佣赖、交叉驗(yàn)證法（ Cross Validation）、自助法（Bootstrap）记盒。更詳細(xì)的內(nèi)容可見(jiàn) 模型評(píng)估方法與準(zhǔn)則

留出法（Hold-out）是機(jī)器學(xué)習(xí)中最常見(jiàn)的評(píng)估方法之一憎蛤，它會(huì)從訓(xùn)練數(shù)據(jù)中保留出驗(yàn)證樣本集，這部分?jǐn)?shù)據(jù)不用于訓(xùn)練纪吮，而用于模型評(píng)估俩檬。

機(jī)器學(xué)習(xí)中，另外一種比較常見(jiàn)的評(píng)估方法是交叉驗(yàn)證法（ Cross Validation）碾盟。k 折交叉驗(yàn)證對(duì) k 個(gè)不同分組訓(xùn)練的結(jié)果進(jìn)行平均來(lái)減少方差棚辽，因此模型的性能對(duì)數(shù)據(jù)的劃分就不那么敏感，對(duì)數(shù)據(jù)的使用也會(huì)更充分冰肴，模型評(píng)估結(jié)果更加穩(wěn)定屈藐。

自助法（Bootstrap）是一種用小樣本估計(jì)總體值的一種非參數(shù)方法，在進(jìn)化和生態(tài)學(xué)研究中應(yīng)用十分廣泛熙尉。

Bootstrap通過(guò)有放回抽樣生成大量的偽樣本联逻，通過(guò)對(duì)偽樣本進(jìn)行計(jì)算，獲得統(tǒng)計(jì)量的分布检痰，從而估計(jì)數(shù)據(jù)的整體分布包归。

10）模型調(diào)優(yōu)與選擇準(zhǔn)則

我們希望找到對(duì)當(dāng)前問(wèn)題表達(dá)能力好，且模型復(fù)雜度較低的模型：

表達(dá)力好的模型铅歼，可以較好地對(duì)訓(xùn)練數(shù)據(jù)中的規(guī)律和模式進(jìn)行學(xué)習(xí)公壤；
復(fù)雜度低的模型换可，方差較小，不容易過(guò)擬合厦幅，有較好的泛化表達(dá)沾鳄。

11）如何選擇最優(yōu)的模型

（1）驗(yàn)證集評(píng)估選擇

切分?jǐn)?shù)據(jù)為訓(xùn)練集和驗(yàn)證集。
對(duì)于準(zhǔn)備好的候選超參數(shù)确憨，在訓(xùn)練集上進(jìn)行模型译荞，在驗(yàn)證集上評(píng)估。

（2）網(wǎng)格搜索/隨機(jī)搜索交叉驗(yàn)證

通過(guò)網(wǎng)格搜索/隨機(jī)搜索產(chǎn)出候選的超參數(shù)組缚态。
對(duì)參數(shù)組的每一組超參數(shù)磁椒，使用交叉驗(yàn)證評(píng)估效果堤瘤。
選出效果最好的超參數(shù)玫芦。

（3）貝葉斯優(yōu)化

基于貝葉斯優(yōu)化的超參數(shù)調(diào)優(yōu)。

視頻教程

可以點(diǎn)擊 B站查看視頻的【雙語(yǔ)字幕】版本

【雙語(yǔ)字幕+資料下載】斯坦福CS229 | 機(jī)器學(xué)習(xí)-吳恩達(dá)主講(2018·完整版)

https://www.bilibili.com/video/BV1TT4y127Nf

最后編輯于：2022.03.13 20:18:48

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末本辐，一起剝皮案震驚了整個(gè)濱河市桥帆，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌慎皱，老刑警劉巖老虫，帶你破解...
沈念sama閱讀 217,406評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異茫多，居然都是意外死亡祈匙，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)天揖，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)夺欲，“玉大人，你說(shuō)我怎么就攤上這事今膊⌒┰模” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,711評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵斑唬，是天一觀的道長(zhǎng)市埋。經(jīng)常有香客問(wèn)我，道長(zhǎng)恕刘，這世上最難降的妖魔是什么缤谎？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,380評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮褐着，結(jié)果婚禮上弓千，老公的妹妹穿的比我還像新娘。我一直安慰自己献起，他們只是感情好洋访，可當(dāng)我...
茶點(diǎn)故事閱讀 67,432評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布镣陕。她就那樣靜靜地躺著，像睡著了一般姻政。火紅的嫁衣襯著肌膚如雪呆抑。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,301評(píng)論 1贊 301
城市分裂傳說(shuō)
那天汁展，我揣著相機(jī)與錄音鹊碍，去河邊找鬼。笑死食绿，一個(gè)胖子當(dāng)著我的面吹牛侈咕，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播器紧，決...
沈念sama閱讀 40,145評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼滔蝉，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼育拨！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,008評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤训貌，失蹤者是張志新（化名）和其女友劉穎擅这，沒(méi)想到半個(gè)月后楷掉，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體焕参，經(jīng)...
沈念sama閱讀 45,443評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,649評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年齿梁，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了催植。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,795評(píng)論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡勺择，死狀恐怖创南，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情酵幕，我是刑警寧澤扰藕，帶...
沈念sama閱讀 35,501評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站芳撒，受9級(jí)特大地震影響邓深，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜笔刹，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,119評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一芥备、第九天我趴在偏房一處隱蔽的房頂上張望舌菜。院中可真熱鬧萌壳，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,731評(píng)論 0贊 22
一樁弒父案缤骨，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至尺借，卻和暖如春绊起，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背燎斩。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,865評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工虱歪，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人栅表。一個(gè)月前我還...
沈念sama閱讀 47,899評(píng)論 2贊 370
代替公主和親
正文我出身青樓笋鄙，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親怪瓶。傳聞我的和親對(duì)象是個(gè)殘疾皇子萧落，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,724評(píng)論 2贊 354