policy gradient 其實(shí)就是 的平均數(shù):
corssentropy是加法,總和涮毫。這里需要每一項(xiàng)瞬欧,所以就取一個(gè)平均值。
- 好算罢防,就是遞減獎(jiǎng)勵(lì)累加艘虎,字面意思,一次完整過程中每一步得到的獎(jiǎng)勵(lì)咒吐,遞減后累加起來野建。
- corssentropy 更簡(jiǎn)單属划,就是為了能夠倒推概率用的。
- 取所有動(dòng)作值的平均值候生,然后backward()
其實(shí)雖然是調(diào)整policy同眯,然而還是要用Q值去衡量的。
缺點(diǎn):每次優(yōu)化的時(shí)候唯鸭,是一個(gè)完整過程結(jié)束后须蜗,取了每一步的均值,所以有一個(gè)問題目溉,如果最后結(jié)果很好明肮,哪怕其中某步的動(dòng)作很差,也會(huì)被當(dāng)作好的動(dòng)作來學(xué)習(xí)停做。所以通往最優(yōu)解的道路上晤愧,可能充滿了坎坷和艱辛大莫,還需要大量的數(shù)據(jù)集蛉腌。