Q learning原始損失函數(shù)定義:
Q的貝爾曼方程:
確定性策略的Q定義:
- 其中的action a就是由
確定的。而
DPG的軌跡分布函數(shù)定義:
DDPG改進(jìn):
- 利用分布式獨(dú)立探索良哲,在策略中加入一個來自軌跡N的噪音
- Loss function:
- 參數(shù)更新方式,2個部分:
策略梯度的只管解釋
隨機(jī)策略梯度的計算公式為:
經(jīng)驗平均估計策略的梯度:
是方向向量宠哄,而且其方向是
對于參數(shù)
變化最快的方向忘朝,參數(shù)在這個方向上更新可以增大或者降低
,也就是能增大或者降低軌跡
的概率