這節(jié)課同樣講的一些基礎(chǔ)概念远剩,為之后的課程做鋪墊扑浸。
馬爾科夫過(guò)程(Markov Processes)
S是一個(gè)有限的狀態(tài)集合
P是state之間的轉(zhuǎn)移矩陣 Pss‘ = P [St+1 = s’ | St = s]
那么馬爾科夫過(guò)程就是<S,P>
馬爾科夫獎(jiǎng)勵(lì)過(guò)程(Markov Reward Process,MRP)
馬爾科夫獎(jiǎng)勵(lì)過(guò)程就是在馬爾科夫過(guò)程的基礎(chǔ)上添加了獎(jiǎng)勵(lì)機(jī)制屁奏。
同樣:
S是一個(gè)有限的狀態(tài)集合
P是state之間的轉(zhuǎn)移矩陣
R 是一個(gè)reward function, Rs = E [Rt+1 | St = s]
γ 是一個(gè)折扣因子,取值范圍 [0赖条,1]
馬爾科夫獎(jiǎng)勵(lì)過(guò)程就是 <S,P,R,γ>
定義Return Gt:
當(dāng)前時(shí)刻開(kāi)始失乾,到達(dá)到最終狀態(tài)所得到的所有獎(jiǎng)勵(lì)之和。
那么折扣因子是什么纬乍?為什么需要折扣因子碱茁?
γ 通俗點(diǎn)解釋,表示有多在乎未來(lái)的獎(jiǎng)勵(lì)仿贬。γ 越大表示越在意未來(lái)的獎(jiǎng)勵(lì)纽竣,γ 越小,越在乎當(dāng)下的收益茧泪,比如一些金融的交易蜓氨,更在乎當(dāng)下能有多少收益。
需要折扣因子的原因是1.避免return無(wú)限大队伟。2.數(shù)學(xué)上表示方便穴吹。3.我們對(duì)我們的模型沒(méi)有足夠的信心,我們并不完全相信我們之后的決定 嗜侮。
值函數(shù)(Value Function)
我們?nèi)绾卧u(píng)價(jià)我們的模型當(dāng)前的選擇是否好呢港令?
我們可以用值函數(shù)來(lái)評(píng)估獎(jiǎng)勵(lì),通過(guò)獎(jiǎng)勵(lì)來(lái)評(píng)估選擇的好壞锈颗,人們最終需要達(dá)到的是獎(jiǎng)勵(lì)最大的過(guò)程顷霹。從當(dāng)前狀態(tài)出發(fā),有一個(gè)轉(zhuǎn)移概率轉(zhuǎn)移到下一個(gè)狀態(tài)击吱,那么哪條路比較好呢淋淀?用哪一條路來(lái)作為在當(dāng)前狀態(tài)到最終狀態(tài)的獎(jiǎng)勵(lì)呢?答案是都不行姨拥。我們需要用一個(gè)定量來(lái)評(píng)估绅喉,而這個(gè)定量就是平均值,所有可能的路徑之和叫乌,也就是期望 來(lái)作為評(píng)分函數(shù)柴罐。所以:
假如路徑已經(jīng)確定,那么不必考慮概率的問(wèn)題憨奸,直接用Reward和折扣因子計(jì)算Return 就可以革屠。
Bellman 方程
就是一個(gè)動(dòng)態(tài)規(guī)劃的問(wèn)題,將元問(wèn)題解釋為子問(wèn)題一步一步的迭代排宰。
有了Bellman方程似芝,值函數(shù)就可以用矩陣的形式進(jìn)行計(jì)算。
v = R + γPv
加入方程很小的化板甘,可以直接求出來(lái)v党瓮。v = Inverse(I ? γP)R
馬爾科夫決策過(guò)程(Markov Decision Process,MDP)
同理盐类,馬爾科夫決策過(guò)程是在馬爾科夫獎(jiǎng)勵(lì)過(guò)程的基礎(chǔ)上添加了action集
馬爾科夫決策過(guò)程是<S,A,P,R, γ>
有了action寞奸,就有了策略policy呛谜。policy是狀態(tài)s下action的分布。
其實(shí)action和state一樣都可以看作是一個(gè)狀態(tài)枪萄,policy π 就是一個(gè)狀態(tài)轉(zhuǎn)移矩陣
但是因?yàn)閍ction被賦予了不同的物理意義隐岛,所以在通常狀態(tài)下action和state是明顯的兩個(gè)概念。
值函數(shù)
那么有了新的規(guī)約瓷翻,值函數(shù)的意義也發(fā)生變化聚凹,
表示從狀態(tài)s開(kāi)始,遵循π的情況下的值函數(shù)齐帚。
同樣增加了action-value fnction妒牙。
同理,兩者的 bellman 方程:
矩陣形式:
最后童谒,有了狀態(tài)值函數(shù)和動(dòng)作值函數(shù)单旁,那么最優(yōu)的值函數(shù)就是分?jǐn)?shù)最大的那個(gè)
最優(yōu)的狀態(tài)值函數(shù)就是 在所有的policy中 值最大的那個(gè)。
最優(yōu)的動(dòng)作值函數(shù)就是在所有的policy中值最大的那個(gè)饥伊。
知道了最優(yōu)的值函數(shù)之后象浑,MDP的問(wèn)題就解決了。