這里的重復利用數(shù)據(jù)體現(xiàn)在兩個網(wǎng)絡的更新次數(shù)上铣鹏,即用同一批數(shù)據(jù)多次更新兩個網(wǎng)絡。PPO只是偽或者說部分off-policy晴楔,這一點我在知乎或者莫凡的網(wǎng)站上曾看到過。
Proximal Policy Optimization(PPO)算法原理及實現(xiàn)峭咒!這兩天看了一下李宏毅老師的強化學習課程的前兩講税弃,主要介紹了Policy Gradient算法和Proximal Policy Optimization算法,在此整理總結(jié)一下凑队。...