增強學習的方法就是用來解決馬爾科夫決策過程惕澎。馬爾科夫決策過程描述的是agent和environment的交互過程。
在時間序列0,1,..t,的時候淤袜,agent獲得環(huán)境的狀態(tài)St,然后選擇動作At摘悴,然后會做出反應,環(huán)境返回一個reward持偏,R(t+1)。而agent依據(jù)一個規(guī)則選擇action氨肌,這個規(guī)則就叫做policy鸿秆,記做pi(a|s). agent的目標是最大化一個長期的total reward。定義為Gt:
在馬爾科夫決策過程中怎囚,時間序列會在某個狀態(tài)中斷卿叽,比如說贏了游戲,走出迷宮桩了。這個序列定義為episode. 有些沒有自然斷開的序列附帽,叫做continuing tasks。在實際的應用中井誉,返回的收益是隨著時間衰減的蕉扮,叫做discounted return:
而agent在做出action的時候,往往優(yōu)化的是discount return颗圣。
馬爾科夫特性
馬爾科夫過程中喳钟,state表示過去的所有的相關的信息。A state signal that succeeds in retaining all relevant
information is said to be Markov, or to have the Markov property在岂。
馬爾科夫決策過程定義:
A reinforcement learning task that satisfies the Markov property is called a Markov
decision process, or MDP. If the state and action spaces are finite, then it is called a
finite Markov decision process (finite MDP)
value function
all reinforcement learning algorithms involve estimating value functions---functions of states (or of state-action pairs) that estimate how good it is for the agent to be in a given state.
表示的是在policy pi下奔则,在state s的value值
同理可知,在state s蔽午,policy pi易茬,采取action a的情況下的value值:
動態(tài)規(guī)劃可知value function的迭代公式:
圖標看起來更清晰:
最優(yōu)value function
在所有的策略中,有一個策略在所有的狀態(tài)中及老,value值都大于等于其他策略抽莱,這個策略成為最優(yōu)策略〗径瘢或者一組最優(yōu)策略食铐,最優(yōu)策略都遵循相同的value function