DQN系列算法對(duì)連續(xù)空間分布的action心有余而力不足诅诱,而Policy Gradient系列的算法能夠有效的預(yù)測(cè)連續(xù)的動(dòng)作。在此基礎(chǔ)上DPG和DDPG算法被提了出來(lái),并且能...
IP屬地:陜西
DQN系列算法對(duì)連續(xù)空間分布的action心有余而力不足诅诱,而Policy Gradient系列的算法能夠有效的預(yù)測(cè)連續(xù)的動(dòng)作。在此基礎(chǔ)上DPG和DDPG算法被提了出來(lái),并且能...