7月在線ML特訓營-第三期-第1課時筆記
本課程中的知識點主要是微分學低剔、梯度下降法添怔、概率論基礎(chǔ)续徽、機器學習栗子等
- 微分學
- 梯度下降法
- 概率論基礎(chǔ)
- 機器學習栗子
數(shù)學在機器學習中的應(yīng)用
- 模型建立與選擇:對工程問題進行抽象和量化
- 模型訓練:參數(shù)的選擇和調(diào)參與優(yōu)化過程
微分學
微分學核心思想
微分學的核心思想是函數(shù)逼近:使用熟悉且簡單的函數(shù)對復(fù)雜函數(shù)進行局部逼近畏妖。
實際中的demo
:
- 人均GDP:使用常數(shù)函數(shù)來逼近收入函數(shù)
- 平均速度:使用線性函數(shù)來逼近實際運行軌跡
- 年化收益率:使用指數(shù)函數(shù)來逼近收益函數(shù)
常用作逼近的函數(shù):
- 線性函數(shù):函數(shù)的一階導(dǎo)數(shù)
- 多項式函數(shù):泰勒級數(shù)
極限論
- 微分學的基礎(chǔ)是極限論傅瞻。極限的表述為:當
時踢代,
的極限是
,即:
- 一般把趨于零的極限稱之為無窮小
-
兩邊夾定理:如果
在a點出存在極限俭正,那么:
-
重要的極限
三角函數(shù)
自然對數(shù)底數(shù)
指數(shù)函數(shù):
一階導(dǎo)數(shù)公式
一般表示為
奸鬓,那么
-
二階導(dǎo)數(shù)
- 導(dǎo)數(shù)的導(dǎo)數(shù)就是二階導(dǎo)數(shù)
- 泰勒級數(shù)就是利用n階導(dǎo)數(shù)對函數(shù)進行高階逼近
泰勒展開
設(shè)函數(shù)在點
處的某鄰域內(nèi)具有
階導(dǎo)數(shù),則對該鄰域內(nèi)異于
的任意點
掸读,在
與
之間至少存在 一個
,使得:
其中
稱為在點
處的
階泰勒余項宏多。
令儿惫,則
階泰勒公式
其中
在0與
之間.(1)式稱為麥克勞林公式
-
常用5種函數(shù)在
處的泰勒公式
- (1)
或者表示為
? (2)
或表示為:
? (3)
或表示為:
? (4)
或表示為:
? (5)
或表示為:
隨機梯度下降法
梯度基礎(chǔ)
-
梯度
對于可微函數(shù)f(x,y),梯度定義為:
梯度方向就是函數(shù)增長最快的方向伸但;反方向就是減小最快的方向
- 梯度下降法
(1). 如果是一個多元函數(shù)肾请,在
處對
做線性逼近:
(2). 通過學習率來表示梯度走下去的方向
(3). 本質(zhì):對函數(shù)進行一階逼近尋找函數(shù)下降最快的方向
- 牛頓法
本質(zhì):對函數(shù)進行二階逼近,并估計函數(shù)的極小值點
-
困難點
梯度的計算:樣本量過大更胖,梯度計算非常耗時
學習率的選擇:太小到時算法收斂太慢铛铁;過大導(dǎo)致算法不收斂
隨機梯度下降法
隨機梯度下降法是為了解決梯度的計算問題,梯度下降法的分類:
批梯度下降GD
隨機梯度下降SGD
小批量隨機梯度下降Mini Batch SGD
優(yōu)化算法
動量算法
Adgrad(自動調(diào)整學習率)
Adamdelta
Adam
概率論
基礎(chǔ)點
1.事件的關(guān)系與運算
(1) 子事件:却妨,若
發(fā)生饵逐,則
發(fā)生。
(2) 相等事件:彪标,即
倍权,且
。
(3) 和事件:(或
)捞烟,
與
中至少有一個發(fā)生薄声。
(4) 差事件:当船,
發(fā)生但
不發(fā)生。
(5) 積事件:(或
)默辨,
與
同時發(fā)生德频。
(6) 互斥事件(互不相容):=
。
(7) 互逆事件(對立事件):
2.運算律
(1) 交換律:
(2) 結(jié)合律:
(3) 分配律:
概率公式
(1)條件概率: ,表示
發(fā)生的條件下缩幸,
發(fā)生的概率抱婉。
(2)全概率公式:
(3) Bayes公式:
注:上述公式中事件的個數(shù)可為可列個。
(4)乘法公式:
(5)聯(lián)合概率
給定Y先發(fā)生桌粉,X再發(fā)生的概率
(6) 貝葉斯公式
P(Y|X) 后驗概率
P(Y) 先驗概率
假設(shè)含有sex的郵件是垃圾郵件的概率是, Y是垃圾郵件的概率是0.9蒸绩;假設(shè)垃圾郵件出出現(xiàn)sex的概率是1%,正常郵件中出現(xiàn)sex的概率是0.1%铃肯,求出
(7)生成模型和判別模型
生成模型:
樸素貝葉斯
隱馬爾科夫
判別模型:
邏輯回歸
支持向量機
條件隨機場
(8). 常見分布
(1) 0-1分布:
(2) 二項分布::
(3) Poisson分布::
(4) 均勻分布:
(5) 正態(tài)分布:
(6)指數(shù)分布:
(7)幾何分布:
(8)超幾何分布:
期望患亿、方差、協(xié)方差和相關(guān)系數(shù)
基礎(chǔ)知識點
期望
押逼;
如果XY獨立步藕,那么
方差
協(xié)方差
相關(guān)系數(shù)
,
階原點矩
;
幾個性質(zhì):
(1)
(2)
(3)
(4)
(5) ,其中
挑格,其中
常見分布的期望和方差
概率分布有兩種型別:離散(discrete)概率分布和連續(xù)(continuous)概率分布咙冗。
離散概率分布也稱為概率質(zhì)量函式(probability mass function)。離散概率分布的例子有
- 伯努利分布(Bernoulli distribution)
- 二項分布(binomial distribution)
- 泊松分布(Poisson distribution)
- 幾何分布(geometric distribution)
連續(xù)概率分布也稱為概率密度函式(probability density function)漂彤,它們是具有連續(xù)取值(例如一條實線上的值)的函式雾消。常見的有:
- 正態(tài)分布(normal distribution)
- 指數(shù)分布(exponential distribution)
- β分布(beta distribution)
機器學習實例
查全率、查準率和
- 定義
對于二分類問題挫望,可將樣本實例根據(jù)真實類別(真假)和學習器預(yù)測得到的類別(正反)的組合分為四種:
- 真正例 true positive,TP
- 假正例 false positive,FP
- 真反例 true negative,TN
- 假反例 false negative,FN
分類結(jié)果的混淆矩陣如下:
真實情況 | 預(yù)測結(jié)果 | |
---|---|---|
正例 | 反例 | |
真 | TP(真正) | FN(假反) |
假 | FP(假正) | TN(真反) |
查準率P和查全率R分別定義為:
注意:查準率和查全率是一對矛盾的度量立润。
F1是基于P和R的調(diào)和平均值:
- 應(yīng)用demo
查全率recall
:逃犯信息檢索系統(tǒng)中,希望盡可能少的漏掉逃犯
查準率precision
:推薦系統(tǒng)中媳板,為了盡可能少的打擾客戶桑腮,希望推薦的內(nèi)容是用戶感興趣的。
- ROC和AUC
ROC(Reciver Operation Characteristic)全稱是“受試者工作特征”曲線蛉幸。曲線橫破讨、 縱坐標為:
- 橫軸:FPR
- 縱軸:TPR
AUC(Area Under ROC Curve):指的是RUC曲線下面的面積。
樸素貝葉斯
樸素貝葉斯的公式
中間表示的是貝葉斯公式奕纫;后面的假設(shè)表示每個X是相互獨立的
決策樹
主要算法有:ID3提陶、C4.5、CART
各種熵
- 信息熵:
- 聯(lián)合熵:
- 條件熵:條件熵=聯(lián)合熵-熵
- 信息增益:
- 交叉熵:
- KL散度(相對熵)=交叉熵-熵
學習收獲
今天花了4個多小時學習和整理第一課時的兩個視頻若锁,學習的同時也復(fù)習了很多基本知識搁骑,包含:
- 高數(shù)
- 微積分
- 概率論與統(tǒng)計
此外自己也了解了不同的機器學習算法在實際中的不同應(yīng)用常景。打好基礎(chǔ),繼續(xù)前進仲器!
待改進點
需要進一步改進的地方:
- 概率論落下的知識蠻多的煤率,需要好好補充
- 對算法的理解需要提高,實際編碼的能力有待提升
- 對于在本課程中提到的隨機梯度下降算法需要好好掌握乏冀!
本節(jié)課主要注重的是理論基礎(chǔ)知識蝶糯,希望有更多的例子和實戰(zhàn)相結(jié)合!加油吧?
本文為原創(chuàng)辆沦,轉(zhuǎn)載請注明昼捍!