關(guān)于增強(qiáng)學(xué)習(xí)Q(s,a)的理解。
Temporaral Difference通過求解Belleman最優(yōu)方程來進(jìn)行預(yù)測和控制褐缠。
關(guān)于最優(yōu)價(jià)值函數(shù)、最優(yōu)行為的定義如下:
最優(yōu)價(jià)值函數(shù)最優(yōu)行為最優(yōu)價(jià)值函數(shù)的學(xué)習(xí)準(zhǔn)則
最近在思考风瘦,為什么Q-Learning能取得如此好的效果队魏。
總結(jié)關(guān)鍵點(diǎn)如下:
- Q-Learning是通過直接解Belleman最優(yōu)方程來求解最優(yōu)Q值,而不是在無限多的策略π中選擇最優(yōu)的策略的Q值万搔。
- Belleman最優(yōu)方程存在條件是要選擇最優(yōu)行為器躏,因此Q-Learning的策略就是選擇最優(yōu)狀態(tài)下Q值最大的行為。(存在條件蟹略、行為策略兩者恰好統(tǒng)一)登失。
- 通過Incremental Improvement, 這種學(xué)習(xí)方法可以做到Policy Imporvement(更新后的Q值一定不比原來的差)。從而挖炬,實(shí)現(xiàn)了從任意狀態(tài)開始進(jìn)行學(xué)習(xí)揽浙,可以收斂到最優(yōu)的價(jià)值函數(shù)。(這一點(diǎn)可以參照《Reinforcement Learning: An Introduction》的4.2節(jié)P62)
Q-Learning的學(xué)習(xí)方法