每次求梯度芋绸,尋找一個(gè)方向
底部斜率接近為0
a 不能太小年局,效率低步子太小霞掺;太大容易扯著
梯度的方向,theta前進(jìn)的方向危纫;
最優(yōu)化一個(gè)目標(biāo)函數(shù)
并不是所有函數(shù)都有唯一的極值點(diǎn)
- 多次運(yùn)行溢吻,隨機(jī)化初始點(diǎn)
- 梯度下降法的初始點(diǎn)也是一個(gè)超參數(shù)
目標(biāo):使
盡可能小
- 線性回歸法的
損失函數(shù)
具有唯一的最優(yōu)解
梯度下降法總結(jié)
批量梯度下降法Batch Gradient Descent
:穩(wěn)定、方向一定是損失函數(shù)下降最快的方向怔毛!
隨機(jī)梯度下降法Stochastic Gradient Descent
:計(jì)算快拍摇、每一次計(jì)算方向是不確定的;甚至是向反方向移動(dòng)馆截。
小批量梯度下降法Mini-Batch Gradient Descent
:綜合2者優(yōu)缺點(diǎn),不那么極端
- 不要看所有樣本這么多蜂莉;
- 也不要看一個(gè)樣本這么少
- 看k個(gè)樣本蜡娶,k行
去2種方法,不那么極端映穗,將2者結(jié)合在一起
多引入1個(gè)超參數(shù)
梯度下降法
- 不是一個(gè)機(jī)器學(xué)習(xí)算法
- 一種基于
搜索的
最優(yōu)化方法 - 作用:最小化一個(gè)損失函數(shù)
- 梯度上升法:最大化一個(gè)效用函數(shù)
隨機(jī)梯度下降法
- 跳出局部最優(yōu)解
- 更容易找到損失函數(shù)整體的最優(yōu)解
- 更快的運(yùn)行速度
-
隨機(jī)搜索
窖张、隨機(jī)森林
、蒙卡洛算法
不確定世界中蚁滋,不確定的問題宿接,本身就可能沒有一個(gè)固定的最優(yōu)解 —— 隨機(jī)有其優(yōu)勢