1国裳、MLE和MAP
MLE: 模型已定鞠苟,參數(shù)未知
極大似然估計(jì),是一種參數(shù)估計(jì)的方法熔酷。即假設(shè)樣本滿足某種分布孤紧,利用已知的樣本結(jié)果信息去反推最有可能導(dǎo)致這些樣本出現(xiàn)的模型參數(shù)值。
極大似然估計(jì)中的采樣必須滿足獨(dú)立同分布原則拒秘。
極大似然估計(jì)的核心關(guān)鍵就是對(duì)于一些情況号显,樣本太多,無法得出分布的參數(shù)值躺酒,可以采樣小樣本后押蚤,利用極大似然估計(jì)獲取假設(shè)中分布的參數(shù)值。
https://zhuanlan.zhihu.com/p/32480810
https://zhuanlan.zhihu.com/p/37215276
2羹应、交叉熵?fù)p失函數(shù)和softmax損失函數(shù)
為什么不用MSE揽碘,是因?yàn)榉诸悊栴}必須是one-hot形式算出各label的概率,然后通過softmax選出最終的分類园匹,而MSE計(jì)算的loss曲線是波動(dòng)的雳刺,存在很多局部極值點(diǎn),而cross entropy計(jì)算loss是凸優(yōu)化問題裸违,有更好的收斂性煞烫。
那么問題來了,為什么cross entropy的曲線必定是凸的呢?
****************************************************=****************************************************************
分類問題累颂,都用 onehot + cross entropy
training 過程中滞详,分類問題用 cross entropy凛俱,回歸問題用 mean squared error。
training 之后料饥,validation / testing 時(shí)蒲犬,使用 classification error,更直觀岸啡,而且是我們最關(guān)注的指標(biāo)原叮。
3、信息論
信息量:時(shí)間x0的信息量巡蘸,p(x0)表示事件x0發(fā)生的概率
熵(信息熵):隨機(jī)變量或者一個(gè)系統(tǒng)的不確定性奋隶,是對(duì)所有可能發(fā)生的事件產(chǎn)生的信息量的期望,熵越大悦荒,隨機(jī)變量或系統(tǒng)的不確定性就越大
交叉熵:衡量在給定真實(shí)分布下唯欣,使用非真實(shí)分布所指定的策略消除系統(tǒng)的不確定性所需要付出代價(jià)
相對(duì)熵(K-L散度):用來衡量兩個(gè)取值為正的函數(shù)或概率分布之間的差異
在機(jī)器學(xué)習(xí)中,常使用KL散度來評(píng)估預(yù)測(cè)分布和真實(shí)分布之間的差別搬味,由于K-L散度的前部分是一個(gè)常量境氢,因此常把后半部分的交叉熵作為損失函數(shù),本質(zhì)是一樣的碰纬,是衡量兩個(gè)分布的距離萍聊。
4、Batch Normalization
https://zhuanlan.zhihu.com/p/33173246
https://zhuanlan.zhihu.com/p/69659844
https://zhuanlan.zhihu.com/p/52749286
https://zhuanlan.zhihu.com/p/34879333
https://zhuanlan.zhihu.com/p/43200897
https://www.zhihu.com/question/38102762/answer/85238569
https://zhuanlan.zhihu.com/p/54530247
5悦析、樣本不均衡問題
- 降采樣
- 重采樣
實(shí)際的效果寿桨,降采樣要優(yōu)于重采樣。
- 對(duì)大類數(shù)據(jù)先聚類得到n個(gè)簇强戴,從每個(gè)簇中選擇一個(gè)代表性的樣本亭螟,再與小類樣本進(jìn)行訓(xùn)練。
- 數(shù)據(jù)合成酌泰,即隨機(jī)插值得到新樣本
6媒佣、歸一化
歸一化的好處:
- 加快了梯度下降求解最優(yōu)解的速度
- 有可能提高精度
歸一化類型: - 線性歸一化
- 標(biāo)準(zhǔn)差歸一化
x' = x - u / \sigma - 非線性歸一化
7、beam_search和viterbi
8陵刹、激活函數(shù)
(1)線性函數(shù)
(2)sigmoid函數(shù) (嚴(yán)格遞增默伍,值域0-1)
(3)tach函數(shù) (值域-1~1)
(4)ReLU=max(0,x) (稀疏)
9、
11衰琐、損失函數(shù)
交叉熵?fù)p失:衡量兩個(gè)概率分布之間的距離也糊,若p代表正確的label,q代表預(yù)測(cè)值羡宙,則
狸剃。而神經(jīng)網(wǎng)絡(luò)的輸出大多是實(shí)數(shù),可用softmax轉(zhuǎn)換狗热。
例如:一個(gè)三分類問題钞馁,某個(gè)樣例的正確答案是(1虑省, 0, 0)僧凰,某模型經(jīng)過softmax變換后的預(yù)測(cè)答案是(0.5探颈, 0.4, 0.1)训措,那預(yù)測(cè)和正確答案的交叉熵是: