神經元
神經網絡的基本模型是神經元还蹲,神經元的基本模型就是數(shù)學中的乘、加運算:
神經元
神經網絡
兩層的神經網絡(一個隱藏層)
更進一步地宇驾,過激活函數(shù)以提高表現(xiàn)力的神經元模型:
常用的激活函數(shù)有:
- relu
- sigmoid
- tanh
損失函數(shù)loss
計算得到的預測值與已知答案
的差距:
- 均方誤差MSE
- 自定義損失函數(shù):根據(jù)問題的實際情況
- 交叉熵CE(Cross Entropy)
反向傳播訓練中湿故,以減小loss值為優(yōu)化目標,有梯度下降僵芹,momentum優(yōu)化器,adam優(yōu)化器等優(yōu)化方法小槐。
學習率
決定每次參數(shù)更新的幅度拇派。在訓練過程中,參數(shù)的更新向著損失函數(shù)梯度下降的方向凿跳。參數(shù)更新的公式為:
- 指數(shù)衰減學習率:
其中件豌,為學習率初始值(如0.1),
為學習率衰減率(如0.99)控嗜,
記錄了當前訓練輪數(shù)茧彤,
表示喂入多少輪
后,更新一次學習率(一般設為:
)疆栏。
滑動平均
記錄一段時間內模型中所有參數(shù)和
各自的平均值曾掂。利用滑動平均值可以增強模型的泛化能力。計算公式:
其中壁顶,珠洗,
。
表示滑動平均衰減率若专,一般會賦接近1的值许蓖。
正則化
在損失函數(shù)中給每個參數(shù)加上權重,引入模型復雜度指標调衰,從而抑制模型噪聲膊爪,減小過擬合:
其中,第一項是預測結果與標準答案之前的差距(如交叉熵窖式、均方誤差)蚁飒;第二項是正則化計算結果动壤。