定義
包含以下四5部分的系統(tǒng)稱為馬爾科夫決策過程:
- 狀態(tài)
- 模型(也就是Transition model/function, 必須滿足兩個屬性 1. 靜態(tài)镀迂,也就是指model-based氯析?2. 馬爾科夫性)
- 動作
- 獎勵
- 策略,策略就是1-4步形成的問題的解!
注意模型需要滿足2中的兩個特性豹休。
Q:如何理解策略磷瘤?
A:策略就是一個函數(shù)映射Pi,Pi(s)->a,該映射將給定狀態(tài)s映射為一個動作a
Q:強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別茂洒?
Q:什么是Plan孟岛,和Policy的區(qū)別是?
A:Plan是狀態(tài)到序列的映射督勺,而Policy是狀態(tài)到動作的映射渠羞。具體說,Plan將給定的一個狀態(tài)s智哀,映射為一個動作序列次询。在MDP中,我們求解的對象時Policy而不是Plan瓷叫,只要有了Policy屯吊,肯定就萬事大吉了。