Deep Learning 概念概覽

[更新中...]
---------------------------------Reference---------------------------------
參考：
https://zhuanlan.zhihu.com/p/27186569
https://dvl.in.tum.de/teaching/i2dl-ss19/

---------------------------------目錄---------------------------------
(1) Neuron/神經(jīng)元
(2) Machine Learning
(3) Basic classifier
(4) Cross Validation 6/2/2
(5) Linear Decision Boundaries
(6) Linear Regression
(7) Weights/權(quán)重
(8) Bias/偏移
(9) Affine function
(10) Activation Function
(10.a) Sigmoid函數(shù)
(10.b) 線性整流函數(shù)(ReLU-Rectified Linear Units)
(10.c) softmax函數(shù)
(11) Loss function
(11.a) [Regression] MSE
(11.b) [Regression] MAE
(11.c) Cross-entropy loss
(11.d) [Classification] MLE (Maximum Likelihood Estimation)
(12) 成本函數(shù)(cost function)
(13) Concept：Gradient VS Derivative
(13.a)Gradient: 導(dǎo)數(shù)
(13.b)Derivative/Nabla Operator（?）: 偏導(dǎo)
(14) Optimization
(15) NN神經(jīng)網(wǎng)絡(luò)
(16) Input/Output/Hidden Layer 輸入層/輸出層/隱藏層
(17) 多層感知器(MLP-Multi Layer Perceptron)
(18) 正向傳播(forward propagation)
(19) 學(xué)習(xí)速率(learning rate)
(20) 反向傳播(back propagation)
(21) 分批(Batches)
(22) 周期(epochs)
(23) Dropout方法
(24) 分批標(biāo)準(zhǔn)化(Batch Normalization)
(25) Regularization
(26) Precision and Recall
(27) Parametric Statistic

---------------------------------Basics---------------------------------

(1) Neuron/神經(jīng)元

正如我們大腦中的基本組成單元，神經(jīng)元是組成神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)置济。設(shè)想一下當(dāng)接觸到新的信息時(shí)席爽，我們的身體會(huì)對(duì)其進(jìn)行處理贺氓，最后產(chǎn)生一些特定的反應(yīng)。

v2-4f7f963002b1e7bdcc40348e69f86746_hd.png

相似地聊品，在神經(jīng)網(wǎng)絡(luò)中，在收到輸入的信號(hào)之后，神經(jīng)元通過處理拉队，然后把結(jié)果輸出給其它的神經(jīng)元或者直接作為最終的輸出。

(2) Machine Learning:

3 types: Supervised/Unsupervised/Reinforcement Learning
Reinforcement Learning:
- Input: State, Action, Rewards(+/-)
- Output: Policy
- SARP consists RL
  
  policy P=-THIRN-ATINIOMNMWD.NMIMNMM 00.MA.png

(3) Basic classifier

Nearest Neighbour
K-Nearest Neighbour 每個(gè)樣本都可以用它最接近的k個(gè)鄰居來代表阻逮，讓k個(gè)代表進(jìn)行投票粱快，然后得票最多的就是該點(diǎn)的label

Concept: Different Distances：

- L1 Distance (Manhattan Distance): Red, Blue, Yellow
In a plane with p1 at (x1, y1) and p2 at (x2, y2), 
it is |x1 - x2| + |y1 - y2|. Lm distance.

- L2 Distance (Euclidean Distance, Square distance): Green

Euclidean distance

8697397f2ff8561b29388a48.jpg

(4) Cross Validation 6/2/2

A way to make use of data：train/valid/test

(5) Linear Decision Boundaries

決策邊界就是能夠把樣本正確分類的一條邊界，主要有線性決策邊界(linear decision boundaries)和非線性決策邊界(non-linear decision boundaries)。

Decision Boundary.png

Non-linear decision boundaries.png

Question what’s the relationship between LDB and SVM?
Answer SVM is an algorithm/method to find the best LDB (that’s why SVM is also called Large Margin Classifier)

SVM

支持向量機(jī)（Support Vector Machine, SVM）是一類按監(jiān)督學(xué)習(xí)（supervised learning）方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器（generalized linear classifier）皆尔，其[決策邊界](https://baike.baidu.com/item/%E5%86%B3%E7%AD%96%E8%BE%B9%E7
Suppose there are N observations and M features in training data set. A sample from training data set is taken randomly with replacement.%95%8C/22778546)是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面（maximum-margin hyperplane） [1-3] 呐舔。

SVM是一種優(yōu)化的分類算法，其動(dòng)機(jī)是尋找一個(gè)最佳的決策邊界慷蠕，使得從決策邊界與各組數(shù)據(jù)之間存在margin珊拼，并且需要使各側(cè)的margin最大化。比較容易理解的是流炕，從決策邊界到各個(gè)training example的距離越大澎现，在分類操作的差錯(cuò)率就會(huì)越小。因此每辟，SVM也叫作Large Margin Classifier剑辫。

最簡單的情況是，在二維平面中的渠欺，線性可分情況妹蔽，即我們的training set可以用一條直線來分割稱為兩個(gè)子集，如下圖所示挠将。而在圖中我們可以看到胳岂，H2和H3都可以正確的將training set進(jìn)行分類，但細(xì)細(xì)想來舔稀，使用H2進(jìn)行分類的話乳丰，我們對(duì)于靠近藍(lán)線的幾個(gè)訓(xùn)練樣例其實(shí)是不敢說100%的，但對(duì)于離藍(lán)線最遠(yuǎn)的小球内贮，我們卻很有把握产园。這也是H3這條SVM紅線出現(xiàn)的原因：盡量讓兩側(cè)的訓(xùn)練樣例遠(yuǎn)離決策邊界，從而讓我們的分類系統(tǒng)有把握對(duì)每個(gè)球Say Absolutely夜郁。

httpsblog.csdn.netjodieX,.png

---------------------------------以下開始講 Linear Regression---------------------------------

(6) Linear Regression

supervised
expression （inklusive bias mit Index Xi1 = 1）

input dimension.jpeg
How to obtain Model? 詳見下文
(1) Loss function: measure, how good is the model
(2) Optimization function: try to change the model, so that we can improve the Loss function

(7) Weights/權(quán)重

當(dāng)輸入信號(hào)進(jìn)入到神經(jīng)元后什燕，會(huì)被乘以相應(yīng)的權(quán)重因子。舉例來說拂酣，假設(shè)一個(gè)神經(jīng)元有兩個(gè)輸入信號(hào)秋冰，那么每個(gè)輸入將會(huì)存在著一個(gè)與之相應(yīng)的權(quán)重因子。在初始化網(wǎng)絡(luò)的時(shí)候婶熬，這些權(quán)重會(huì)被隨機(jī)設(shè)置剑勾，然后在訓(xùn)練模型的過程中再不斷地發(fā)生更改。

在經(jīng)過訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中赵颅，一個(gè)輸入具有的權(quán)重因子越高虽另，往往意味著它的重要性更高，對(duì)輸出的影響越大饺谬。另一方面捂刺，當(dāng)權(quán)重因子為0時(shí)意味著這個(gè)輸入是無價(jià)值的谣拣。

如下圖所示，假設(shè)輸入為a族展，相應(yīng)的權(quán)重為W1森缠。那么通過賦權(quán)節(jié)點(diǎn)后相應(yīng)的輸入應(yīng)變?yōu)閍*W1。

(8) Bias/偏移

除了權(quán)重之外仪缸，輸入還需要經(jīng)過另外一種線性處理贵涵，叫做偏置。通過把偏置b與加權(quán)后的輸入信號(hào)a*W1直接相加恰画，以此作為激活函數(shù)的輸入信號(hào)宾茂。

(9) Affine function

~ is a function between different affine space/仿射空間.

Goal: after the transformation the data still has it's original characters!
Content: is a function composed of a linear function + a constant.
Graph: a straight line.
General equation: y = Ax + c.
對(duì)數(shù)據(jù)使用affine function后都滿足以下條件：

? preserves point, straight lines, planes
? ratios of distance between 2 points
? angles, distances between 2 points

下文的u=∑w*x+b就是affine function

(10) Activation Function

~ of a node defines the output of that node, given an/more input.
之前線性處理之后的輸入信號(hào)通過激活函數(shù)進(jìn)行非線性變換，從而得到輸出信號(hào)拴还。即最后輸出的信號(hào)具有f(a*W1+b)的形式跨晴，其中f()為激活函數(shù)。

在下面的示意圖中片林，設(shè)X1…Xn等n個(gè)輸入分別對(duì)應(yīng)著權(quán)重因子Wk1…Wkn以及相應(yīng)的偏置b1…bn端盆。我們把輸入Xi乘以對(duì)應(yīng)的權(quán)重因子Wki再加上bi的結(jié)果稱為u。
u=∑w*x+b 這個(gè)激活函數(shù)f是作用在u上的拇厢，也就是說這個(gè)神經(jīng)元最終的輸出結(jié)果為yk = f(u)

IMG_1881.jpg

接下來我們講一講常用的一些激活函數(shù)：Sigmoid函數(shù)爱谁，線性整流函數(shù)(ReLU) 和 softmax函數(shù)

(10.a) Sigmoid函數(shù)

作為最常用的激活函數(shù)之一，它的定義如下：

sigmoid(x).jpg

v2-3e8169abe54dbf0f1628aee616de6d00_hd.png

來源：維基百科

sigmoid函數(shù)為值域在0到1之間的光滑函數(shù)孝偎，當(dāng)需要觀察輸入信號(hào)數(shù)值上微小的變化時(shí)，與階梯函數(shù)相比凉敲，平滑函數(shù)(比如Sigmoid函數(shù))的表現(xiàn)更好衣盾。

(10.b) 線性整流函數(shù)(ReLU-Rectified Linear Units)

近來的神經(jīng)網(wǎng)絡(luò)傾向于使用ReLU替代掉sigmoid函數(shù)作為隱層的激活函數(shù)，它的定義如下：f(x) = max(x,0).
The rectified linear activation function is a piecewise linear function that will output the input directly if is positive, otherwise, it will output zero.

v2-8328288d0172057e8546c4dee7a1330b_hd.png

來源：cs231n

使用ReLU函數(shù)的好處是爷抓，對(duì)于所有大于0的輸入势决，導(dǎo)數(shù)是恒定的，這能夠加快訓(xùn)練網(wǎng)絡(luò)的速度蓝撇。

(10.c) softmax函數(shù)

softmax激活函數(shù)通常應(yīng)用在分類問題的輸出層上果复。
It′s a Multinomial Logistic Regression

softmax

它與Sigmoid函數(shù)相似，唯一的不同是softmax函數(shù)輸出結(jié)果是歸一化的渤昌。sigmoid函數(shù)能夠在雙輸出的時(shí)候奏效虽抄，但當(dāng)面對(duì)多種類分類問題的時(shí)候，softmax函數(shù)可以方便地直接將各個(gè)分類出現(xiàn)的概率算出独柑。
sigmoid()僅僅是二元迈窟，softmax可以多元

例子:
輸入向量 [1,2,3,4,1,2,3] 對(duì)應(yīng)的Softmax函數(shù)的值為 [0.024,0.064,0.175,0.475,0.024,0.064,0.175] 。輸出向量中擁有最大權(quán)重的項(xiàng)對(duì)應(yīng)著輸入向量中的最大值“4”忌栅。這也顯示了這個(gè)函數(shù)通常的意義：對(duì)向量進(jìn)行歸一化车酣，凸顯其中最大的值并抑制遠(yuǎn)低于最大值的其他分量。
Normalization!

(11) Loss function

We use the following Loss Function to evaluate the loss, measures how good my model is.

2 categories of loss function

Loss functions can be broadly categorized into 2 types: Classification and Regression Loss. The category exists only cause in different cases the Loss functions acting differently. So you can understand it as: for Classification, Log Loss performs better. Today we will focus on:

a) MSE
b) MAE
c) Cross Entropy / Log loss
d) MLE

(11.a) [Regression] MSE

or L2 loss, or mean squared deviation (MSD), or Linear Least Square.

MSE

Attention: From Normal-Expression to Matrix-notation it emit the (1/n), we are just looking for the minimal value so it doesn't matter!

兩者唯一的區(qū)別在于: MSE有Square, 而MAE只是單純的差的絕對(duì)值

(11.b) [Regression] MAE

or L1 loss

MAE

(11.c) cross-entropy loss

or log loss, measures the performance of a classification model whose output is a probability value between 0 and 1.

cross entropy

You can see from the graph, that cross-entropy penalizes both types of errors, but especially those predictions that are confident and wrong!(when predicted probability drops around 0.15)

form of cross entropy

(11.d) [Classification] MLE (Maximum Likelihood Estimation)

是用來估計(jì)一個(gè)概率模型的 參數(shù) 的一種方法。
Reference：https://www.youtube.com/watch?v=XepXtl9YKwc
--> The goal is to find the optimal way to fit the distribution of data.

For example, if it's normal distribution, then the parameters mean, deviation can be modify in order to fit the data better!
猜測(cè)分布函數(shù)的參數(shù)湖员，以盡量多的涵蓋observation中的數(shù)據(jù)點(diǎn)（舉例：如果滿足normal distribution贫悄，那么這里的參數(shù)就指mean和standard deviation）。

Notation

為了找到使p最好的參數(shù)Theta.

該公式的意思是:找到p最大的情況下,theta的值
利用log運(yùn)算將積轉(zhuǎn)換成和

假設(shè)符合高斯分布（即正態(tài)分布）娘摔，套用高斯公式進(jìn)去：

例子:
Step 1: Maximum Likelihood for the Mean
The name of "likelihood" basically means, how like you are going to find data-points according to the estimated distribution >> And it stops when it finally find the highest likelihood >> where we should put our mean on it:

Maximum Likelihood for the Mean

Step 2: Maximum Likelihood for the Standard Deviation

Maximum Likelihood for the Standard Deviation

(12) 成本函數(shù)(cost function)

Cost function即loss的綜合清女，loss由loss function求的

在神經(jīng)網(wǎng)絡(luò)的建造過程中，建造者們希望輸出的結(jié)果能夠盡可能地接近實(shí)際值晰筛，因此使用成本函數(shù)來描述網(wǎng)絡(luò)的這種準(zhǔn)確性嫡丙。

神經(jīng)網(wǎng)絡(luò)的目標(biāo)是增加預(yù)測(cè)的準(zhǔn)確性從而減少誤差，即最小化成本函數(shù)读第。通常情況下曙博，最優(yōu)化的輸出結(jié)果往往對(duì)應(yīng)著成本函數(shù)的最小值。

如果采用均方誤差作為成本誤差怜瞒，即表示為C= 1/m ∑(y – a)2父泳，其中m是訓(xùn)練過程中輸入數(shù)據(jù)的個(gè)數(shù)，a是相應(yīng)的預(yù)測(cè)值吴汪，y代表實(shí)際值惠窄。

模型學(xué)習(xí)的過程就是圍繞著最小化成本而進(jìn)行的。

Discussion: Loss function/Cost function

https://stats.stackexchange.com/questions/179026/objective-function-cost-function-loss-function-are-they-the-same-thing

(13) Concept：Gradient VS Derivative

Useful concepts: Component & Variable
Suppose there are N observations and M features in training data set. A sample from training data set is taken randomly with replacement.
Component：該matrix有幾行
Variable：x1漾橙，x2杆融，，霜运，共有幾個(gè)變量

(13.a)Gradient: 導(dǎo)數(shù)

舉例：

IMG_1884.jpg

IMG_1885.jpg

** 梯度下降(gradient descent)**
梯度下降是一種最小化成本函數(shù)的優(yōu)化算法脾歇。
在梯度下降中，從起始點(diǎn)x開始淘捡，一次移動(dòng)一點(diǎn)藕各，比如說移動(dòng)delta h，然后將位置信息更換為x-delta h焦除，如此重復(fù)下去激况，直到達(dá)到局部的極小值，此時(shí)認(rèn)為極小值就是成本最小的地方膘魄。

J(00,0,).png

數(shù)學(xué)上說乌逐，沿著函數(shù)的負(fù)梯度運(yùn)動(dòng)就能得到函數(shù)的局域最小值。

(13.b)Derivative/Nabla Operator（?）: 偏導(dǎo)

In order to find the minimal value of the Loss function, we need to use derivative.
Here are the common formulas:

IMG_1880.jpg

More formulas for matrix-contains-linear-tranformation:

(14) Optimization

Now through the review from loss function, I want to improve the Model, this process we call it Optimization
And the gradient is our tool to optimze the model

---------------------------------以下開始講 Neural Network---------------------------------

(15) NN神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是構(gòu)成深度學(xué)習(xí)系統(tǒng)的框架瓣距。神經(jīng)網(wǎng)絡(luò)的任務(wù)是找到一個(gè)未知函數(shù)的近似表達(dá)方式黔帕，它是由彼此相連的神經(jīng)元所組成，這些神經(jīng)元會(huì)在訓(xùn)練網(wǎng)絡(luò)的過程中根據(jù)誤差來更改它們的權(quán)重和偏置蹈丸。激活函數(shù)將非線性變化用線性變化的組合來表示成黄，最終產(chǎn)生輸出呐芥。

關(guān)于神經(jīng)網(wǎng)絡(luò)最好的定義是由Matthew Mayo給出的：

神經(jīng)網(wǎng)絡(luò)是由大量彼此相連、概念化的人造神經(jīng)元組成的奋岁，這些神經(jīng)元彼此之間傳遞著數(shù)據(jù)思瘟，相應(yīng)的權(quán)重也會(huì)隨著神經(jīng)網(wǎng)絡(luò)的經(jīng)歷而進(jìn)行調(diào)整。神經(jīng)元們有著激活的閾值闻伶，當(dāng)它們遇到相應(yīng)的數(shù)據(jù)以及權(quán)重時(shí)會(huì)被激活滨攻，這些被激活的神經(jīng)元組合起來導(dǎo)致了“學(xué)習(xí)”行為的產(chǎn)生。

(16) Input/Output/Hidden Layer 輸入層/輸出層/隱藏層

從名字中就能看出蓝翰，輸入層代表接受輸入數(shù)據(jù)的一層光绕，基本上是網(wǎng)絡(luò)的第一層；輸出層是產(chǎn)生輸出的一層畜份，或者是網(wǎng)絡(luò)的最后一層诞帐，而網(wǎng)絡(luò)中間的處理層叫做隱藏層。
這些隱藏層對(duì)輸入的數(shù)據(jù)進(jìn)行特定的處理爆雹，再將其輸入到下一層停蕉。輸入層和輸出層是可見的，而中間層通常是被隱藏起來的钙态。

Input layer.png

(17) 多層感知器(MLP-Multi Layer Perceptron)

一個(gè)單一的神經(jīng)元不能夠完成復(fù)雜的任務(wù)慧起，因此需要將它們堆疊起來工作進(jìn)而產(chǎn)生有用的輸出。
最簡單的神經(jīng)網(wǎng)絡(luò)包括一個(gè)輸入層册倒、一個(gè)隱藏層和一個(gè)輸出層健爬。每一層都由多個(gè)神經(jīng)元組成桐早，每一層的每個(gè)神經(jīng)元都與下一層中的所有神經(jīng)元相連必尼。這樣的網(wǎng)絡(luò)可以被稱為是全連接網(wǎng)絡(luò)炊汹。

input layer.jpg

(18) 正向傳播(forward propagation)

正向傳播是指信號(hào)從輸入層經(jīng)過隱藏層到輸出層的傳輸過程。在正向傳播中拴孤，信號(hào)是沿著單一方向進(jìn)行傳播，即輸入層給隱藏層提供輸入甲捏，進(jìn)而最終產(chǎn)生相應(yīng)的輸出演熟。

(19) 學(xué)習(xí)速率(learning rate)

學(xué)習(xí)速率定義為在每次迭代過程中對(duì)成本函數(shù)最小化的次數(shù)。簡單來說司顿，學(xué)習(xí)速率就是指朝著成本函數(shù)最小值的下降速率芒粹。選擇學(xué)習(xí)速率需要很謹(jǐn)慎，過大會(huì)導(dǎo)致可能越過最優(yōu)解大溜，過小會(huì)導(dǎo)致收斂花費(fèi)太多的時(shí)間化漆。

very high learning rate.jpg

(20) 反向傳播(back propagation)

在定義一個(gè)神經(jīng)網(wǎng)絡(luò)的過程中，每個(gè)節(jié)點(diǎn)會(huì)被隨機(jī)地分配權(quán)重和偏置钦奋。一次迭代后座云，我們可以根據(jù)產(chǎn)生的結(jié)果計(jì)算出整個(gè)網(wǎng)絡(luò)的偏差疙赠，然后用偏差結(jié)合成本函數(shù)的梯度，對(duì)權(quán)重因子進(jìn)行相應(yīng)的調(diào)整朦拖，使得下次迭代的過程中偏差變小圃阳。這樣一個(gè)結(jié)合成本函數(shù)的梯度來調(diào)整權(quán)重因子的過程就叫做反向傳播。

在反向傳播中璧帝，信號(hào)的傳遞方向是朝后的捍岳，誤差連同成本函數(shù)的梯度從輸出層沿著隱藏層傳播，同時(shí)伴隨著對(duì)權(quán)重因子的調(diào)整睬隶。

(21) 分批(Batches)

比如一共有10000條數(shù)據(jù)锣夹，分成10個(gè)batch，每個(gè)batch就是100條數(shù)據(jù)苏潜。
當(dāng)在訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)的時(shí)候银萍，相對(duì)于一次性將所有的數(shù)據(jù)全輸入進(jìn)去，有一個(gè)更好的方法：先將數(shù)據(jù)隨機(jī)地分為幾個(gè)大小一致的數(shù)據(jù)塊窖贤，再分批次輸入砖顷。跟一次性訓(xùn)練出來的模型相比，分批訓(xùn)練能夠使模型的適用性更好赃梧。

(22) 周期(epochs)

比如一共有10000條數(shù)據(jù)滤蝠，分成10個(gè)batch，每個(gè)batch就是100條數(shù)據(jù)授嘀。正向物咳，反向跑完所有10000條數(shù)據(jù)，即一個(gè)epoch蹄皱。
一個(gè)周期表示對(duì)所有的數(shù)據(jù)批次都進(jìn)行了一次迭代览闰，包括一次正向傳播和一次反向傳播，所以一個(gè)周期/紀(jì)元就意味著對(duì)所有的輸入數(shù)據(jù)分別進(jìn)行一次正向傳播和反向傳播巷折。

訓(xùn)練網(wǎng)絡(luò)周期的次數(shù)是可以選擇的压鉴，往往周期數(shù)越高，模型的準(zhǔn)確性就越高锻拘，但是油吭，耗時(shí)往往就越長。同樣你還需要考慮如果周期/紀(jì)元的次數(shù)過高署拟，那么可能會(huì)出現(xiàn)過擬合的情況婉宰。

(23) Dropout方法

Dropout是一個(gè)可以阻止網(wǎng)絡(luò)過擬合(overfitting)的規(guī)則化方法(regularization)。就像它的名字那樣推穷，在訓(xùn)練過程中隱藏的某些特定神經(jīng)元會(huì)被忽略掉(drop)心包。這意味著網(wǎng)絡(luò)的訓(xùn)練是在幾個(gè)不同的結(jié)構(gòu)上完成的。
這種dropout的方式就像是一場(chǎng)合奏馒铃，多個(gè)不同結(jié)構(gòu)網(wǎng)絡(luò)的輸出組合產(chǎn)生最終的輸出結(jié)果蟹腾。

(a) Standard Neural Net.png

來源：Hinton論文《Improving neural networks by preventing co-adaptation of feature detectors》痕惋，地址：https://arxiv.org/pdf/1207.0580.pdf

(24) 分批標(biāo)準(zhǔn)化(Batch Normalization)

分批標(biāo)準(zhǔn)化就像是人們?cè)诤恿髦杏靡员O(jiān)測(cè)水位的監(jiān)察站一樣。這是為了保證下一層網(wǎng)絡(luò)得到的數(shù)據(jù)擁有合適的分布岭佳。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中血巍，每一次梯度下降后權(quán)重因子都會(huì)得到改變，從而會(huì)改變相應(yīng)的數(shù)據(jù)結(jié)構(gòu)珊随。

Before SGD.png

但是下一層網(wǎng)絡(luò)希望能夠得到與之前分布相似的數(shù)據(jù)述寡，因此在每一次數(shù)據(jù)傳遞前都需要對(duì)數(shù)據(jù)進(jìn)行一次正則化處理。

(25) Regularization

Goal: Penalize the complexity of the model, avoid explicitly fitting the training-data.
Different regularization methods:
They are different ways to define the "complexity" of a model

L2
L1
Elastic net = L1+L2
Max norm regularizationElastic net = L1+L2

Why L1 is sparse in comparison to L2?

L1 vs L2

Dropout
Fancier: Batch normalization
這里的L1和L2和Distance中的概念可以聯(lián)系起來

(26) Precision and Recall

Wikipedia: https://en.wikipedia.org/wiki/Precision_and_recall

(27) Parametric Statistic

參數(shù)統(tǒng)計(jì)是統(tǒng)計(jì)學(xué)的一個(gè)分支叶洞，它假設(shè)樣本數(shù)據(jù)來自總體鲫凶，而總體可以通過具有固定參數(shù)集的概率分布進(jìn)行充分建模。 ^[1]相反衩辟，非參數(shù)模型的確切區(qū)別在于其參數(shù)集（或機(jī)器學(xué)習(xí)中的特征集）不是固定的螟炫，如果收集到新的相關(guān)信息，則該參數(shù)集可能會(huì)增加甚至減少艺晴。 ^[2]
Example:
正態(tài)分布族都具有相同的一般形態(tài)昼钻，并可以通過均值和標(biāo)準(zhǔn)差進(jìn)行參數(shù)化 。這意味著封寞，如果均值和標(biāo)準(zhǔn)差已知然评，并且分布是正態(tài)的，則任何將來觀察到的給定范圍內(nèi)的概率都是已知的狈究。

假設(shè)有一個(gè)存在99個(gè)測(cè)試分?jǐn)?shù)的樣本碗淌，平均值為100，標(biāo)準(zhǔn)差為1抖锥。如果假設(shè)所有99個(gè)測(cè)試分?jǐn)?shù)都是從正態(tài)分布中隨機(jī)觀察到的亿眠，那么我們預(yù)測(cè)第100個(gè)測(cè)試分?jǐn)?shù)有1％的概率將高于102.33（即平均值加2.33標(biāo)準(zhǔn)偏差）。給定99個(gè)來自相同正態(tài)分布的獨(dú)立觀測(cè)值磅废，可使用參數(shù)統(tǒng)計(jì)方法計(jì)算上述標(biāo)準(zhǔn)偏差值纳像。

對(duì)同一事物的非參數(shù)估計(jì)是前99個(gè)分?jǐn)?shù)中的最大值。不需要假設(shè)考試分?jǐn)?shù)的分布情況就可以推斷出拯勉，在我們進(jìn)行考試之前爹耗，最高分?jǐn)?shù)會(huì)出現(xiàn)在前100個(gè)分?jǐn)?shù)中。因此谜喊，第100個(gè)分?jǐn)?shù)有1％的可能性高于之前的99個(gè)分?jǐn)?shù)。

最后編輯于：2020.11.13 16:10:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末倦始，一起剝皮案震驚了整個(gè)濱河市斗遏，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌鞋邑，老刑警劉巖诵次，帶你破解...
沈念sama閱讀 217,509評(píng)論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件账蓉，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡逾一，警方通過查閱死者的電腦和手機(jī)铸本，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,806評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來遵堵，“玉大人箱玷，你說我怎么就攤上這事∧八蓿” “怎么了锡足？”我有些...
開封第一講書人閱讀 163,875評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長壳坪。經(jīng)常有香客問我舶得，道長，這世上最難降的妖魔是什么爽蝴？我笑而不...
開封第一講書人閱讀 58,441評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任沐批，我火速辦了婚禮，結(jié)果婚禮上蝎亚，老公的妹妹穿的比我還像新娘九孩。我一直安慰自己，他們只是感情好颖对，可當(dāng)我...
茶點(diǎn)故事閱讀 67,488評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布捻撑。她就那樣靜靜地躺著，像睡著了一般缤底。火紅的嫁衣襯著肌膚如雪顾患。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,365評(píng)論 1贊 302
城市分裂傳說
那天个唧，我揣著相機(jī)與錄音江解，去河邊找鬼。笑死徙歼，一個(gè)胖子當(dāng)著我的面吹牛犁河，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播魄梯，決...
沈念sama閱讀 40,190評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼桨螺，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了酿秸？” 一聲冷哼從身側(cè)響起灭翔，我...
開封第一講書人閱讀 39,062評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎辣苏，沒想到半個(gè)月后肝箱，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體哄褒，經(jīng)...
沈念sama閱讀 45,500評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,706評(píng)論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年煌张，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了呐赡。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,834評(píng)論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡骏融，死狀恐怖链嘀，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情绎谦，我是刑警寧澤管闷，帶...
沈念sama閱讀 35,559評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站窃肠，受9級(jí)特大地震影響包个，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜冤留，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,167評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一碧囊、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧纤怒，春花似錦糯而、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,779評(píng)論 0贊 22
一樁弒父案熄驼，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至烘豹，卻和暖如春瓜贾，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背携悯。一陣腳步聲響...
開封第一講書人閱讀 32,912評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工祭芦，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人憔鬼。一個(gè)月前我還...
沈念sama閱讀 47,958評(píng)論 2贊 370
代替公主和親
正文我出身青樓龟劲，卻偏偏與公主長得像，于是被迫代替她去往敵國和親轴或。傳聞我的和親對(duì)象是個(gè)殘疾皇子昌跌，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,779評(píng)論 2贊 354