機器學(xué)習(xí)基礎(chǔ)知識和常用名詞解釋

機器學(xué)習(xí)入門的基礎(chǔ)知識,包括常見名詞的解釋(線性回歸剩檀、容量憋沿、過擬合欠擬合、正則化沪猴、超參數(shù)和驗證集辐啄、估計采章、偏差和方差、最大似然估計壶辜、KL散度悯舟、隨機梯度下降)


歡迎關(guān)注我的微信公眾號“人小路遠(yuǎn)”哦,在這里我將會記錄自己日常學(xué)習(xí)的點滴收獲與大家分享砸民,以后也可能會定期記錄一下自己在外讀博的所見所聞抵怎,希望大家喜歡,感謝支持岭参!


1反惕、數(shù)值計算基礎(chǔ)

計算機求解問題的步驟

1、根據(jù)實際問題建立數(shù)學(xué)模型演侯;(應(yīng)用數(shù)學(xué))

2姿染、由數(shù)學(xué)模型給出數(shù)值計算方法;(計算數(shù)學(xué))

3秒际、根據(jù)計算方法編制算法程序在計算機上算出結(jié)果悬赏。

數(shù)值問題:是輸入和輸出數(shù)據(jù)之間的函數(shù)關(guān)系的一個確定而無歧義的描述÷玻可以理解為:輸入和輸出均為數(shù)據(jù)的數(shù)學(xué)問題闽颇。

上溢:當(dāng)大量級的數(shù)被近似為無窮大時發(fā)生上溢。

下溢:當(dāng)接近零的數(shù)被四舍五入為零時發(fā)生下溢嵌莉。

image-20200217185055906.png

image-20200217185108033.png

優(yōu)化:改變x以最小化或最大化某個函數(shù)f(x)的任務(wù)进萄。

目標(biāo)函數(shù):需要最小化或最大化的函數(shù)捻脖∪袂停可描述為:

\frac{1}{N}\cdot\sum^N_{i=1}|y_i-f(x_i)| + 正則化項

成本(cost)或損失(loss):為了訓(xùn)練模型,我們需要定義一個指標(biāo)來評估這個模型可婶。但通常定義指標(biāo)來表示一個模型是壞的沿癞,這個指標(biāo)稱為成本(cost)或損失(loss),然后盡量最小化這個指標(biāo)矛渴。

損失函數(shù):一般針對單個樣本椎扬,可描述為:

代價函數(shù), 一般針對總體具温,可描述為:

基于梯度的優(yōu)化方法:延方向?qū)?shù)的方向是上升/下降最快的方向蚕涤。

駐點:局部最大/最小值點

最值點:全局最大/最小值點

2、機器學(xué)習(xí)基礎(chǔ)

概念

  1. 致力于研究如何通過計算的手段铣猩,利用經(jīng)驗來改善系統(tǒng)自身性能的學(xué)科和方法揖铜。
  2. 對于某類任務(wù)T和性能度量P,一個計算機程序被認(rèn)為可以從經(jīng)驗E中學(xué)習(xí)是指达皿,通過經(jīng)驗E改進后天吓,它在任務(wù)T上由性能度量P衡量的性能有所提升贿肩。

任務(wù)T:計算機要解決的問題。

學(xué)習(xí):獲得完成任務(wù)能力的過程龄寞。

樣本:量化特征的數(shù)據(jù)集合汰规。

分類:預(yù)測已知輸入的類別。預(yù)測為離散值時物邑,此類學(xué)習(xí)任務(wù)成為分類溜哮。

回歸:預(yù)測的為連續(xù)值時,此類學(xué)習(xí)任務(wù)稱為回歸色解。

聚類:按照潛在標(biāo)準(zhǔn)劃分為不同類型組茬射,稱為聚類學(xué)習(xí)。

訓(xùn)練集:訓(xùn)練數(shù)據(jù)模型的數(shù)據(jù)集冒签。

測試集:評估模型性能P的數(shù)據(jù)集在抛。

無監(jiān)督學(xué)習(xí):訓(xùn)練含有很多特征的數(shù)據(jù)集,然后學(xué)習(xí)出這個數(shù)據(jù)集上有用的結(jié)構(gòu)性質(zhì)萧恕。

監(jiān)督學(xué)習(xí):訓(xùn)練含有很多特征的數(shù)據(jù)集刚梭,數(shù)據(jù)集中的樣本都有一個標(biāo)簽。

數(shù)據(jù)集的表示:通過設(shè)計矩陣票唆,行向量表示一個樣本朴读,每行中的每列元素表征該樣本某個特征數(shù)字化的結(jié)果。

3走趋、線性回歸

定義:利用數(shù)理統(tǒng)計中回歸分析衅金,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。描述為:
\hat y = w^Tx+b

其中簿煌,\hat y 為預(yù)測y的取值氮唯。

機器學(xué)習(xí)任務(wù):通過樣本訓(xùn)練,確定參數(shù)w^T 和b

均方誤差(mean-square error, MSE):度量模型性能的常用方法姨伟,反映估計量與被估計量之間差異程度的一種度量惩琉。記為:
MSE(test)=\frac{1}{n}\sum_{i=1}^n(\hat y(test)-y(test))^2

MSE = E[(\hat\theta_m-\theta)^2 ]

正規(guī)方程:通過解梯度為0時的向量方程,直接求得駐點位置夺荒。
\nabla_wMSE_{train}=0

解得:
w=(X^{(train)T}X^{(train)})^{-1}X^{(train)T}y^{(train)}

image-20200217181933327.png

4瞒渠、容量、過擬合和欠擬合

泛化:訓(xùn)練模型在未觀測到的輸入上表現(xiàn)良好的能力技扼。

訓(xùn)練誤差:模型在訓(xùn)練集上表現(xiàn)出的誤差伍玖。

泛化誤差:新輸入數(shù)據(jù)的誤差期望。通常通過在測試集上的性能來評估泛化誤差剿吻。

決定機器學(xué)習(xí)算法好壞的兩個因素:

  1. 降低訓(xùn)練誤差窍箍;
  2. 縮小訓(xùn)練誤差和測試誤差的差距。

欠擬合(underfitting):模型不能再訓(xùn)練集上獲得足夠低的誤差;

過擬合(overfitting):訓(xùn)練誤差和測試誤差的差距太大仔燕。

容量(capacity):指模型擬合各種函數(shù)的能力造垛。

容量不足的模型不能解決復(fù)雜問題;容量高的模型能夠解決復(fù)雜任務(wù)晰搀,但當(dāng)其容量高于任務(wù)所需時五辽,有可能會過擬合。

image-20200217144303854.png

5外恕、正則化

沒有免費午餐定理:在所有可能的數(shù)據(jù)生成分布上平均之后杆逗,每一個分類算法在未事先觀測的點上都有相同的錯誤率。

正則化(λ):通過引入權(quán)重衰減鳞疲,來修改訓(xùn)練標(biāo)準(zhǔn)罪郊,突出學(xué)習(xí)算法的偏好。目的是為了降低模型的泛化誤差尚洽。

image-20200217144457487.png

6悔橄、超參數(shù)和驗證集

超參數(shù):指不通過學(xué)習(xí)學(xué)得,而直接設(shè)定或指定的參數(shù)腺毫。適用于控制模型容量的所有參數(shù)癣疟。這些參數(shù)總是趨向于最大可能的模型容量,導(dǎo)致過擬合潮酒。

驗證集:從訓(xùn)練集中分出睛挚,用于調(diào)整超參數(shù)的數(shù)據(jù)集。

image-20200217183644758.png

7急黎、估計扎狱、偏差和方差

點估計:輸入數(shù)據(jù)樣本的函數(shù),估計出的模型中的參數(shù)值勃教。記為:
\hat\theta_m = g(x^{(1)},…,x^{(m)})

偏差:參數(shù)的點估計的數(shù)學(xué)期望與參數(shù)真實值之間的差淤击。記為:
bias(\hat\theta_m) = E(\theta_m) - \theta

偏差度量偏離真實函數(shù)或參數(shù)的誤差期望;方差度量數(shù)據(jù)上任意特定采樣可能導(dǎo)致的估計期望的偏差荣回。

方差(Variance)

均方誤差:權(quán)衡偏差和方差的方式實現(xiàn)誤差估計遭贸。記為:
MSE = E[(\hat\theta_m-\theta)^2 ]=Bias(\hat\theta_m )^2+Var(\hat\theta_m )

image-20200217180743653.png

8、最大似然估計

似然函數(shù):給出輸出x時心软,關(guān)于θ的似然函數(shù)L(x,θ)等于給定參數(shù)θ后變量X的概率,即:
L(x,\theta)=P(X=x|\theta)

最大似然估計:在θ的所有可能取值中著蛙,找到一個能使數(shù)據(jù)出現(xiàn)的“可能性”最大的值删铃。

9、KL散度

KL散度:訓(xùn)練集上的經(jīng)驗分布\hat p_{data}和模型分布之間的差異的度量方式踏堡。記為:
D_{KL}(\hat p_{data}||p_{model})=E_{x\sim\hat pdata}[log\hat p_{data}(x)-logp_{model}(x)]

最小化散度:最小化分布間的交叉熵猎唁。即只用最小化部分:
-E_{x\sim\hat pdata}[logp_{model}(x)]

10、隨機梯度下降

問題:梯度下降當(dāng)樣本空間很大時顷蟆,訓(xùn)練過程消耗過大诫隅。

思路:每次訓(xùn)練不必采用全部樣本數(shù)據(jù)腐魂,而是均勻抽取一部分樣本訓(xùn)練,通過大量的訓(xùn)練步驟逐纬,使小批量數(shù)據(jù)訓(xùn)練的模型擬合全部樣本蛔屹。

解決方法

  • 隨機梯度下降(一次選一個樣本)
  • 批梯度下降(一次選小批量樣本)
  • ……
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市豁生,隨后出現(xiàn)的幾起案子兔毒,更是在濱河造成了極大的恐慌,老刑警劉巖甸箱,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件育叁,死亡現(xiàn)場離奇詭異,居然都是意外死亡芍殖,警方通過查閱死者的電腦和手機豪嗽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來豌骏,“玉大人昵骤,你說我怎么就攤上這事】鲜剩” “怎么了变秦?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長框舔。 經(jīng)常有香客問我蹦玫,道長,這世上最難降的妖魔是什么刘绣? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任樱溉,我火速辦了婚禮,結(jié)果婚禮上纬凤,老公的妹妹穿的比我還像新娘福贞。我一直安慰自己,他們只是感情好停士,可當(dāng)我...
    茶點故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布挖帘。 她就那樣靜靜地躺著,像睡著了一般恋技。 火紅的嫁衣襯著肌膚如雪拇舀。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天蜻底,我揣著相機與錄音骄崩,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛要拂,可吹牛的內(nèi)容都是我干的抠璃。 我是一名探鬼主播,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼脱惰,長吁一口氣:“原來是場噩夢啊……” “哼搏嗡!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起枪芒,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤彻况,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后舅踪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體纽甘,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年抽碌,在試婚紗的時候發(fā)現(xiàn)自己被綠了悍赢。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡货徙,死狀恐怖左权,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情痴颊,我是刑警寧澤赏迟,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站蠢棱,受9級特大地震影響锌杀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜泻仙,卻給世界環(huán)境...
    茶點故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一糕再、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧玉转,春花似錦突想、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至漩蟆,卻和暖如春垒探,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背怠李。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人捺癞。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓夷蚊,卻偏偏與公主長得像,于是被迫代替她去往敵國和親髓介。 傳聞我的和親對象是個殘疾皇子惕鼓,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容