這里的重復(fù)利用數(shù)據(jù)體現(xiàn)在兩個網(wǎng)絡(luò)的更新次數(shù)上奔害,即用同一批數(shù)據(jù)多次更新兩個網(wǎng)絡(luò)堕担。PPO只是偽或者說部分off-policy鲸阻,這一點我在知乎或者莫凡的網(wǎng)站上曾看到過朽褪。
Proximal Policy Optimization(PPO)算法原理及實現(xiàn)健蕊!這兩天看了一下李宏毅老師的強化學(xué)習(xí)課程的前兩講沦补,主要介紹了Policy Gradient算法和Proximal Policy Optimization算法熊痴,在此整理總結(jié)一下他爸。...