在正式討論深度強化學習算之前疾棵, 我們先確定以下它的學習目標以及其評價方法戳稽。
我們先介紹一個新的術語 Trajectory :
的意思是在狀態(tài) 時馆蠕,選擇了; 然后得到 .... 直到最后 。
在 中惊奇, 是環(huán)境給出來的反應互躬, 我們無法控制。 我們可以控制的是Action , 而Action 是由Policy生成的颂郎, 而Policy 則是由其參數(shù) 決定的吼渡。 因此,某個 出現(xiàn)的概率乓序, 其實由 決定寺酪。
注意, 這里引出了強化學習的一個假設 “環(huán)境不變 Environment Stationary Assumption”替劈, 該假設的意思是:對于同樣的狀態(tài)寄雀, 同樣的Action , 環(huán)境給出 的概率永遠不變陨献。在使用 RL解決現(xiàn)實問題時盒犹, 一定要注意這個假設能否滿足,或者近似滿足眨业。
在介紹了上面的假設以后急膀, 出現(xiàn)的概率可以寫成
在等式右邊, 是我們的Policy,關于 Policy 有基于 Observation 的和 State(Full Observation ) 之分龄捡,具體請查看 深度強化學習(2) 強化學習常用術語卓嫂。
等式右邊 是環(huán)境對我們在 時做了 的反饋(新狀態(tài) 的分布)。
學習目標
有了這個表達式聘殖,我們就可以引出強化學習的目標:尋找Policy 最優(yōu)的晨雳, 使得 Policy 獲得Reward的期望最大行瑞。
衡量標準
我們使用該Policy Reward 的期望來衡量 Policy 的好壞。 注意悍募, 這里的目標是使得Reward 的期望最大蘑辑,也就是希望獲得更大的 洋机。 而在監(jiān)督學習時 往往代表 loss坠宴, 我們希望越小越好。